语料的处理方法及装置、电子设备、存储介质.pdf
森林****来了
亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
语料的处理方法及装置、电子设备、存储介质.pdf
本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
语料处理方法、装置、存储介质及电子设备.pdf
本申请实施例公开了语料处理方法、装置、存储介质及电子设备,上述方法包括确定目标语料中每个语料单元的置信度,上述语料单元的置信度表征上述语料单元正确表达关联语料单元的可靠程度,上述关联语料单元为上述目标语料对应的原始语料中,与上述语料单元对应的原始语料单元;基于上述每个语料单元的置信度,对上述每个语料单元进行特征提取,得到上述每个语料单元的特征信息;根据上述每个语料单元的特征信息,得到上述目标语料对应的语料特征信息;对上述语料特征信息进行语料修正处理,得到上述目标语料对应的修正语料。本申请实施例可以显著提升
语料处理方法、装置、电子设备及存储介质.pdf
本申请公开了一种语料处理方法、装置、电子设备及存储介质,其中,语料处理方法包括:基于语料信息生成第一矩阵;所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本;将所述第一矩阵的每一行元素划分为设定维度的第一向量;基于各第一向量之间的相似度,对各第一向量进行聚类,得到至少一个簇;使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量,得到第二矩阵;将所述第二矩阵输入设定的自然语言处理NLP模型,得到关于所述语料信息的语义识别结果。
语料的处理方法、装置、电子设备及计算机可读存储介质.pdf
本申请提供了一种语料的处理方法、装置、电子设备及计算机可读存储介质,涉及数据处理领域。该方法包括:获取符合预设条件的多媒体文件,并获取多媒体文件的音频数据,然后获取多媒体文件的字幕文件,并基于预设的第一规则对字幕文件进行处理,得到处理后的字幕文件;处理后的字幕文件包括至少一条字幕,再基于至少一条字幕对音频数据进行切割,得到至少一个音频数据段,并将至少一条字幕和各自对应的音频数据段作为一个第一音频字幕对,得到至少一个第一音频字幕对。本申请实现了获取自动标注的语料,无需人工参与,不仅节省了大量的人力成本、时间
文本语料处理方法、装置、设备及存储介质.pdf
本申请提供了一种文本语料处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:获取多条文本语料;按照重复语料的最大保留数量,将所述多条文本语料划分为所述最大保留数量个文本语料分组,每个文本语料分组包括至少一条文本语料,所述最大保留数量为大于1的整数;对划分得到的多个文本语料分组分别进行去重处理;将去重处理后的所述多个文本语料分组进行合并。上述方法能够处理得到符合语言模型训练要求的文本语料。