文本纠错方法、装置、电子设备及存储介质-豆柴文库

文本纠错方法、装置、电子设备及存储介质.pdf

2023-07-25

10金币

667KB

17页

春兰****89

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113627160A(43)申请公布日2021.11.09(21)申请号202111093910.5(22)申请日2021.09.17(71)申请人平安银行股份有限公司地址518000广东省深圳市罗湖区深南东路5047号(72)发明人李骁赖众程王亮高洪喜许海金吴鹏召李会璟李兴辉周柱君(74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙)44347代理人高杰于志光(51)Int.Cl.G06F40/232(2020.01)G06F40/242(2020.01)G06F40/289(2020.01)权利要求书2页说明书12页附图2页(54)发明名称文本纠错方法、装置、电子设备及存储介质(57)摘要本发明涉及人工智能及数字医疗技术，揭露了一种文本纠错方法，包括：对待处理文本分词，得到分词集，对分词集中的各个分词进行同音词查询，利用查询到的同音词替换对应的分词，得到多个标准文本，分别计算标准文本的困惑度，选择困惑度大于或者等于预设困惑阈值的标准文本为目标文本，利用标准纠错模型对所述目标文执行纠错处理，得到初始纠错结果，利用豁免词典对初始纠错结果进行剔除，得到标准纠错结果。此外，本发明还涉及区块链技术，分词集可存储于区块链的节点。本发明还提出一种文本纠错装置、电子设备以及存储介质。本发明可以提高文本纠错的准确度。CN113627160ACN113627160A权利要求书1/2页1.一种文本纠错方法，其特征在于，所述方法包括：获取待处理文本，对所述待处理文本进行分词处理，得到分词集；对所述分词集中的各个分词进行同音词查询，得到所述分词对应的同音词列表；利用所述同音词列表中的同音词对所述分词集中的分词进行替换，得到多个标准文本，并分别计算每个所述标准文本的困惑度，选择所述困惑度大于或者等于预设的困惑阈值的标准文本为目标文本；利用预构建的标准纠错模型对所述目标文本进行纠错处理，得到初始纠错结果；利用预设的豁免词典剔除所述初始纠错结果中的豁免词，得到标准纠错结果。2.如权利要求1所述的文本纠错方法，其特征在于，所述对所述待处理文本进行分词处理，得到分词集，包括：删除所述待处理文本中的特殊词和停用词，得到初始文本；将所述初始文本输入预设的基准分词器中，得到多个分词并汇总得到分词集。3.如权利要求1所述的文本纠错方法，其特征在于，所述利用预构建的标准纠错模型对所述目标文本进行纠错处理，得到初始纠错结果之前，所述方法还包括：获取训练文本集，对所述训练文本集进行编码处理，得到训练向量集；对所述训练向量集进行特征提取处理，得到特征向量集；将所述特征向量集输入至所述预设文本纠错模型中的全连接层进行概率计算，得到预测概率值集；计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值；根据所述交叉熵损失值调整所述预设文本纠错模型的内部参数，直到所述交叉熵损失值小于预设的损失阈值，得到标准纠错模型。4.如权利要求3所述的文本纠错方法，其特征在于，所述计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值，包括：利用如下计算公式计算交叉熵损失值：其中，L为交叉熵损失值，x为训练文本集中的训练文本，y为预设的真实概率值，a为预测概率值，n表示训练文本集中训练文本的总数。5.如权利要求1所述的文本纠错方法，其特征在于，所述利用预设的豁免词典剔除所述初始纠错结果中的豁免词，得到标准纠错结果，包括：判断所述初始纠错结果中是否存在与所述豁免词典中一致的豁免词；若所述初始纠错结果中存在与所述豁免词典中一致的豁免词，则将所述豁免词进行剔除，得到标准纠错结果。6.如权利要求1所述的文本纠错方法，其特征在于，所述对所述分词集中的各个分词进行同音词查询，得到所述分词对应的同音词列表，包括：获取预设的同音词词库；根据所述同音词词库查询所述各个分词对应的同音词，并对所述同音词进行汇总，得到所述分词对应的同音词列表。2CN113627160A权利要求书2/2页7.如权利要求1所述的文本纠错方法，其特征在于，所述分别计算每个所述标准文本的困惑度，包括：利用如下计算公式分别计算每个所述标准文本的困惑度：其中，PP(S)为所述困惑度，N为所述标准文本中的分词个数，wi为第i个分词，p(w1w2…wi‑1)为分词w1w2…wi‑1出现的概率。8.一种文本纠错装置，其特征在于，所述装置包括：文本分词模块，用于获取待处理文本，对所述待处理文本进行分词处理，得到分词集；同音词查询模块，用于对所述分词集中的各个分词进行同音词查询，得到所述分词对应的同音词列表；困惑度计算模块，用于利用所述同音词列表中的同音词对所述分词集中的分词进行替换，得到多个标准文本，并分别计算每个所述标准文本的困惑度，选择所述

相关资料

文本纠错方法、装置、电子设备及存储介质.pdf

本发明涉及人工智能及数字医疗技术，揭露了一种文本纠错方法，包括：对待处理文本分词，得到分词集，对分词集中的各个分词进行同音词查询，利用查询到的同音词替换对应的分词，得到多个标准文本，分别计算标准文本的困惑度，选择困惑度大于或者等于预设困惑阈值的标准文本为目标文本，利用标准纠错模型对所述目标文执行纠错处理，得到初始纠错结果，利用豁免词典对初始纠错结果进行剔除，得到标准纠错结果。此外，本发明还涉及区块链技术，分词集可存储于区块链的节点。本发明还提出一种文本纠错装置、电子设备以及存储介质。本发明可以提高文本纠错

2023-07-25

667KB

文本纠错方法、装置、电子设备与存储介质.pdf

本发明提供一种文本纠错方法、装置、电子设备与存储介质，所述方法包括：对待纠错文本进行错误定位，得到所述待纠错文本中的候选错误文本；响应于用户针对所述候选错误文本的指定操作，从所述候选错误文本中确定错误文本，并基于所述错误文本对所述待纠错文本进行纠错，得到所述待纠错文本的目标文本。本发明提供的方法、装置、电子设备与存储介质，通过对待纠错文本进行错误定位以及纠错，从而得到待纠错文本的目标文本，整个过程方便快捷，极大地提升了文本纠错的效率和准确性，降低了用户的操作成本，并且，对候选错误文本进行展示，可以帮助用户

2023-07-24

871KB

文本的纠错方法及装置、电子设备和存储介质.pdf

本申请实施例提供了一种文本的纠错方法及装置、电子设备和存储介质，所述方法包括：获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本；利用目标模型对所述待纠错的第一文本进行处理，其中，所述目标模型由数据对集合对初始模型进行训练得到，所述数据对为包含待纠错词汇和正确词汇的词汇数据对；以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下，通过所述目标模型输出纠错结果，其中，所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。上述方案解决了现有技术中只针对明确的句法及

2023-07-23

690KB

文本纠错方法、装置、设备及存储介质.pdf

本发明涉及人工智能技术领域，公开了一种文本纠错方法、装置、设备及存储介质，该方法包括：获取待纠错文本序列；将待纠错文本序列输入Bert模型中，对待纠错文本序列中错别字进行识别，得到错别字集合，基于预设候选字集合对错别字集合进行纠错，得到纠错后的目标文本序列；依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字，计算第一目标字和第二目标字之间的字形相似度以及字相似度；根据字形相似度和字相似度计算纠错判断因子，将纠错判断因子与预设阈值进行比对，根据比对结果确定待纠错文本序列的纠

2023-07-25

836KB

文本纠错方法、装置、设备及存储介质.pdf

本发明涉及人工智能技术领域，提供一种文本纠错方法、装置、设备及存储介质，用于提高文本纠错的准确性和效率。文本纠错方法包括：获取原始文本数据集的目标混淆词典，并通过目标混淆词典，对原始文本数据集进行字词替换，得到错别字文本数据集；获取再训练文本数据集，通过错别字文本数据集、预设损失函数和再训练文本数据集，对预置的初始文本纠错模型进行训练，得到目标文本纠错模型，目标文本纠错模型包括基于bert模型的校正网络；获取待处理文本，通过目标文本纠错模型和目标混淆词典，对待处理文本依次进行位置错别字概率计算和字典字词纠

2023-07-24

759KB