文本语料处理方法、装置、设备及存储介质.pdf
努力****亚捷
亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
文本语料处理方法、装置、设备及存储介质.pdf
本申请提供了一种文本语料处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:获取多条文本语料;按照重复语料的最大保留数量,将所述多条文本语料划分为所述最大保留数量个文本语料分组,每个文本语料分组包括至少一条文本语料,所述最大保留数量为大于1的整数;对划分得到的多个文本语料分组分别进行去重处理;将去重处理后的所述多个文本语料分组进行合并。上述方法能够处理得到符合语言模型训练要求的文本语料。
语料的处理方法及装置、电子设备、存储介质.pdf
本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
文本纠错语料生成方法、装置、设备及存储介质.pdf
本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,通过将原始语料进行预处理,得到待处理语料,获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,本公开可以更加高效、便捷的获得多样化本文本纠错语料,以满足各种类型的供后续文本纠错模型训练使用。
语料处理方法、装置、存储介质及电子设备.pdf
本申请实施例公开了语料处理方法、装置、存储介质及电子设备,上述方法包括确定目标语料中每个语料单元的置信度,上述语料单元的置信度表征上述语料单元正确表达关联语料单元的可靠程度,上述关联语料单元为上述目标语料对应的原始语料中,与上述语料单元对应的原始语料单元;基于上述每个语料单元的置信度,对上述每个语料单元进行特征提取,得到上述每个语料单元的特征信息;根据上述每个语料单元的特征信息,得到上述目标语料对应的语料特征信息;对上述语料特征信息进行语料修正处理,得到上述目标语料对应的修正语料。本申请实施例可以显著提升
文本语料扩增方法、装置、电子设备及存储介质.pdf
本发明公开一种文本语料扩增方法、装置、电子设备及存储介质,其中,所述方法包括:对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式,生成搜索策略;根据搜索策略,采集数据;对采集到的数据分词得到多个文本词条,基于每个文本词条的PPL,过滤所述多个文本词条;将过滤后保留的文本词条输入领域分类系统,获取新的关键词,将所述新的关键词扩充到所述原始语料关键词中。本发明实施例的方法中,动态生成搜索策略,实