文本纠错方法、装置、设备及存储介质-豆柴文库

文本纠错方法、装置、设备及存储介质.pdf

2023-07-24

10金币

759KB

22页

是浩****32

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113901797A(43)申请公布日2022.01.07(21)申请号202111210864.2G06F40/44(2020.01)(22)申请日2021.10.18G06K9/62(2022.01)(71)申请人广东博智林机器人有限公司地址528000广东省佛山市顺德区北滘镇碧桂园社区泮浦路1号A1栋2楼A2-05（仅作办公用途）（住所申报）(72)发明人吴迪邹俊逸董忠蔡巍柯淑玲(74)专利代理机构北京市京大律师事务所11321代理人姚维(51)Int.Cl.G06F40/242(2020.01)G06F40/279(2020.01)G06F40/284(2020.01)权利要求书3页说明书15页附图3页(54)发明名称文本纠错方法、装置、设备及存储介质(57)摘要本发明涉及人工智能技术领域，提供一种文本纠错方法、装置、设备及存储介质，用于提高文本纠错的准确性和效率。文本纠错方法包括：获取原始文本数据集的目标混淆词典，并通过目标混淆词典，对原始文本数据集进行字词替换，得到错别字文本数据集；获取再训练文本数据集，通过错别字文本数据集、预设损失函数和再训练文本数据集，对预置的初始文本纠错模型进行训练，得到目标文本纠错模型，目标文本纠错模型包括基于bert模型的校正网络；获取待处理文本，通过目标文本纠错模型和目标混淆词典，对待处理文本依次进行位置错别字概率计算和字典字词纠正，得到纠错后的文本。CN113901797ACN113901797A权利要求书1/3页1.一种文本纠错方法，其特征在于，所述文本纠错方法包括：获取原始文本数据集的目标混淆词典，并通过所述目标混淆词典，对所述原始文本数据集进行字词替换，得到错别字文本数据集；获取再训练文本数据集，通过所述错别字文本数据集、预设损失函数和所述再训练文本数据集，对预置的初始文本纠错模型进行训练，得到目标文本纠错模型，所述目标文本纠错模型包括基于bert模型的校正网络；获取待处理文本，通过所述目标文本纠错模型和所述目标混淆词典，对所述待处理文本依次进行位置错别字概率计算和字典字词纠正，得到纠错后的文本。2.根据权利要求1所述的文本纠错方法，其特征在于，所述目标文本纠错模型包括基于bert模型的校正网络和基于bert模型的检测网络，所述获取待处理文本，通过所述目标文本纠错模型和所述目标混淆词典，对所述待处理文本依次进行位置错别字概率计算和字典字词纠正，得到纠错后的文本，包括：获取待处理文本，通过所述目标文本纠错模型，对所述待处理文本进行嵌入向量转换，得到文本向量序列；通过所述检测网络，对所述文本向量序列中的每个位置进行错别字的概率计算，得到错别字概率；对所述错别字概率进行掩码的嵌入向量转换，得到错别字概率向量；通过所述校正网络，基于所述错别概率向量和所述目标混淆词典，对所述待处理文本进行各位置的字概率计算和概率分类，得到纠错后的文本。3.根据权利要求2所述的文本纠错方法，其特征在于，所述通过所述校正网络，基于所述错别概率向量和所述目标混淆词典，对所述待处理文本进行各位置的字概率计算和概率分类，得到纠错后的文本，包括：通过所述校正网络的bert模型，基于所述错别概率向量和所述目标混淆词典，计算所述待处理文本的各位置的字概率，得到各位置的字概率集，所述校正网络包括bert模型和归一化指数函数；通过所述归一化指数函数，基于各位置的字概率集从所述目标混淆词典中获取所述待处理文本中各位置对应的字词，得到纠错后的文本，所述纠错后的文本为句子长度*字典长度的二维向量。4.根据权利要求1所述的文本纠错方法，其特征在于，所述获取再训练文本数据集，通过所述错别字文本数据集、预设损失函数和所述再训练文本数据集，对预置的初始文本纠错模型进行训练，得到目标文本纠错模型，所述目标文本纠错模型包括基于bert模型的校正网络，包括：构建检测网络和校正网络，得到初始文本纠错模型，所述检测网络包括bert模型和第一预设维度的全连接层，所述校正网络包括bert模型和第二预设维度的分类层；通过所述错别字文本数据集和预设损失函数，对所述初始文本纠错模型进行训练，得到候选文本纠错模型；获取再训练文本数据集，所述再训练文本数据集包括稀有专有名词或者新兴名词，以及稀有专有名词或者新兴名词对应的错别字；通过所述再训练文本数据集，对所述候选文本纠错模型进行再训练，得到目标文本纠2CN113901797A权利要求书2/3页错模型。5.根据权利要求4所述的文本纠错方法，其特征在于，所述通过所述错别字文本数据集和预设损失函数，对所述初始文本纠错模型进行训练，得到候选文本纠错模型，包括：通过所述初始文本纠错模型，对所述错别字文本数据集进行文本纠错处理，得到纠错结果；通

相关资料

文本纠错方法、装置、设备及存储介质.pdf

本发明涉及人工智能技术领域，提供一种文本纠错方法、装置、设备及存储介质，用于提高文本纠错的准确性和效率。文本纠错方法包括：获取原始文本数据集的目标混淆词典，并通过目标混淆词典，对原始文本数据集进行字词替换，得到错别字文本数据集；获取再训练文本数据集，通过错别字文本数据集、预设损失函数和再训练文本数据集，对预置的初始文本纠错模型进行训练，得到目标文本纠错模型，目标文本纠错模型包括基于bert模型的校正网络；获取待处理文本，通过目标文本纠错模型和目标混淆词典，对待处理文本依次进行位置错别字概率计算和字典字词纠

2023-07-24

759KB

文本纠错方法、装置、设备及存储介质.pdf

本发明涉及人工智能技术领域，公开了一种文本纠错方法、装置、设备及存储介质，该方法包括：获取待纠错文本序列；将待纠错文本序列输入Bert模型中，对待纠错文本序列中错别字进行识别，得到错别字集合，基于预设候选字集合对错别字集合进行纠错，得到纠错后的目标文本序列；依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字，计算第一目标字和第二目标字之间的字形相似度以及字相似度；根据字形相似度和字相似度计算纠错判断因子，将纠错判断因子与预设阈值进行比对，根据比对结果确定待纠错文本序列的纠

2023-07-25

836KB

文本纠错方法、装置、电子设备与存储介质.pdf

本发明提供一种文本纠错方法、装置、电子设备与存储介质，所述方法包括：对待纠错文本进行错误定位，得到所述待纠错文本中的候选错误文本；响应于用户针对所述候选错误文本的指定操作，从所述候选错误文本中确定错误文本，并基于所述错误文本对所述待纠错文本进行纠错，得到所述待纠错文本的目标文本。本发明提供的方法、装置、电子设备与存储介质，通过对待纠错文本进行错误定位以及纠错，从而得到待纠错文本的目标文本，整个过程方便快捷，极大地提升了文本纠错的效率和准确性，降低了用户的操作成本，并且，对候选错误文本进行展示，可以帮助用户

2023-07-24

871KB

文本纠错方法、装置、电子设备及存储介质.pdf

本发明涉及人工智能及数字医疗技术，揭露了一种文本纠错方法，包括：对待处理文本分词，得到分词集，对分词集中的各个分词进行同音词查询，利用查询到的同音词替换对应的分词，得到多个标准文本，分别计算标准文本的困惑度，选择困惑度大于或者等于预设困惑阈值的标准文本为目标文本，利用标准纠错模型对所述目标文执行纠错处理，得到初始纠错结果，利用豁免词典对初始纠错结果进行剔除，得到标准纠错结果。此外，本发明还涉及区块链技术，分词集可存储于区块链的节点。本发明还提出一种文本纠错装置、电子设备以及存储介质。本发明可以提高文本纠错

2023-07-25

667KB

文本纠错语料生成方法、装置、设备及存储介质.pdf

本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,通过将原始语料进行预处理,得到待处理语料,获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,本公开可以更加高效、便捷的获得多样化本文本纠错语料,以满足各种类型的供后续文本纠错模型训练使用。

2023-04-19

624KB