文本纠错语料生成方法、装置、设备及存储介质.pdf
俊英****22
亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
文本纠错语料生成方法、装置、设备及存储介质.pdf
本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,通过将原始语料进行预处理,得到待处理语料,获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,本公开可以更加高效、便捷的获得多样化本文本纠错语料,以满足各种类型的供后续文本纠错模型训练使用。
文本纠错方法、装置、设备及存储介质.pdf
本发明涉及人工智能技术领域,提供一种文本纠错方法、装置、设备及存储介质,用于提高文本纠错的准确性和效率。文本纠错方法包括:获取原始文本数据集的目标混淆词典,并通过目标混淆词典,对原始文本数据集进行字词替换,得到错别字文本数据集;获取再训练文本数据集,通过错别字文本数据集、预设损失函数和再训练文本数据集,对预置的初始文本纠错模型进行训练,得到目标文本纠错模型,目标文本纠错模型包括基于bert模型的校正网络;获取待处理文本,通过目标文本纠错模型和目标混淆词典,对待处理文本依次进行位置错别字概率计算和字典字词纠
文本纠错方法、装置、设备及存储介质.pdf
本发明涉及人工智能技术领域,公开了一种文本纠错方法、装置、设备及存储介质,该方法包括:获取待纠错文本序列;将待纠错文本序列输入Bert模型中,对待纠错文本序列中错别字进行识别,得到错别字集合,基于预设候选字集合对错别字集合进行纠错,得到纠错后的目标文本序列;依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字,计算第一目标字和第二目标字之间的字形相似度以及字相似度;根据字形相似度和字相似度计算纠错判断因子,将纠错判断因子与预设阈值进行比对,根据比对结果确定待纠错文本序列的纠
文本语料处理方法、装置、设备及存储介质.pdf
本申请提供了一种文本语料处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:获取多条文本语料;按照重复语料的最大保留数量,将所述多条文本语料划分为所述最大保留数量个文本语料分组,每个文本语料分组包括至少一条文本语料,所述最大保留数量为大于1的整数;对划分得到的多个文本语料分组分别进行去重处理;将去重处理后的所述多个文本语料分组进行合并。上述方法能够处理得到符合语言模型训练要求的文本语料。
生成标记语料的方法、装置、终端设备及存储介质.pdf
本申请提供了一种生成标记语料的方法、装置、终端设备及存储介质,该方法包括:针对任一正确语句,确定正确语句中的至少一个待替换字符;确定每个待替换字符对应的至少两个候选替换字符;根据每个待替换字符和每个待替换字符对应的至少两个候选替换字符,获得正确语句对应的至少两个错误语句;通过预设自然语言模型获得每个错误语句的评估结果,以及根据每个错误语句的评估结果确定正确语句对应的目标错误语句。通过上述方法,可以高效获得高质量的标记语料。