文本语料扩增方法、装置、电子设备及存储介质.pdf
Ch****75
亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
文本语料扩增方法、装置、电子设备及存储介质.pdf
本发明公开一种文本语料扩增方法、装置、电子设备及存储介质,其中,所述方法包括:对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的处理方式,生成搜索策略;根据搜索策略,采集数据;对采集到的数据分词得到多个文本词条,基于每个文本词条的PPL,过滤所述多个文本词条;将过滤后保留的文本词条输入领域分类系统,获取新的关键词,将所述新的关键词扩充到所述原始语料关键词中。本发明实施例的方法中,动态生成搜索策略,实
文本语料处理方法、装置、设备及存储介质.pdf
本申请提供了一种文本语料处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:获取多条文本语料;按照重复语料的最大保留数量,将所述多条文本语料划分为所述最大保留数量个文本语料分组,每个文本语料分组包括至少一条文本语料,所述最大保留数量为大于1的整数;对划分得到的多个文本语料分组分别进行去重处理;将去重处理后的所述多个文本语料分组进行合并。上述方法能够处理得到符合语言模型训练要求的文本语料。
语料的处理方法及装置、电子设备、存储介质.pdf
本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
语料处理方法、装置、存储介质及电子设备.pdf
本申请实施例公开了语料处理方法、装置、存储介质及电子设备,上述方法包括确定目标语料中每个语料单元的置信度,上述语料单元的置信度表征上述语料单元正确表达关联语料单元的可靠程度,上述关联语料单元为上述目标语料对应的原始语料中,与上述语料单元对应的原始语料单元;基于上述每个语料单元的置信度,对上述每个语料单元进行特征提取,得到上述每个语料单元的特征信息;根据上述每个语料单元的特征信息,得到上述目标语料对应的语料特征信息;对上述语料特征信息进行语料修正处理,得到上述目标语料对应的修正语料。本申请实施例可以显著提升
语料处理方法、装置、电子设备及存储介质.pdf
本申请公开了一种语料处理方法、装置、电子设备及存储介质,其中,语料处理方法包括:基于语料信息生成第一矩阵;所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本;将所述第一矩阵的每一行元素划分为设定维度的第一向量;基于各第一向量之间的相似度,对各第一向量进行聚类,得到至少一个簇;使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量,得到第二矩阵;将所述第二矩阵输入设定的自然语言处理NLP模型,得到关于所述语料信息的语义识别结果。