一种多音字消歧方法、装置、存储介质及设备-豆柴文库

一种多音字消歧方法、装置、存储介质及设备.pdf

2023-06-10

10金币

681KB

19页

书生****文章

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115775554A(43)申请公布日2023.03.10(21)申请号202211521669.6(22)申请日2022.11.30(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新区望江西路666号(72)发明人伍宏传胡亚军(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师卫三娟(51)Int.Cl.G10L13/08(2013.01)G10L13/02(2013.01)G06F40/289(2019.01)G06F16/33(2020.01)权利要求书2页说明书13页附图3页(54)发明名称一种多音字消歧方法、装置、存储介质及设备(57)摘要本申请公开了一种多音字消歧方法、装置、存储介质及设备，该方法包括：首先获取包含目标多音字的目标文本，并对其进行分词处理，得到其包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典，从而在多音字消歧过程中，能够结合该多音字消歧模型、分词信息和无歧义词典，更为准确的确定出多音字的发音。CN115775554ACN115775554A权利要求书1/2页1.一种多音字消歧方法，其特征在于，包括：获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；判断所述目标分词是否包含在预先构建的无歧义词典中；若是，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音；若否，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。2.根据权利要求1所述的方法，其特征在于，所述无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的；所述判断所述目标分词是否包含在预先构建的无歧义词典中，包括：利用预设的查词典的方式，查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。3.根据权利要求1所述的方法，其特征在于，所述多音字消歧模型的构建方式如下：根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征；获取包含训练多音字的训练文本，并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练，生成所述多音字消歧模型。4.根据权利要求3所述的方法，其特征在于，所述目标损失函数为交叉熵损失函数。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取包含验证多音字的验证文本；将所述验证文本输入至所述多音字消歧模型，预测得到所述验证文本中验证多音字的验证发音；当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时，将所述验证文本重新作为所述训练文本，对所述多音字消歧模型进行更新。6.根据权利要求1‑5任一项所述的方法，其特征在于，所述将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音，包括：将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征；将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音。7.根据权利要求6所述的方法，其特征在于，所述将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音，包括：计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度；2CN115775554A权利要求书2/2页将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果；根据所述计算结果，确定所述目标文本中目标多音字的发音概率分布，并根据所述发音概率分布，确定所述目标文本中目标多音字的发音。8.一种多音字消歧装置，其特征在于，包括：第一获取单元，用于获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；判断单元，用于判断所述目标分词是否包含在预先构建的无歧义词典中；作为单元，用于若判断出所述目标分词是包含

相关资料

一种多音字消歧方法、装置、存储介质及设备.pdf

本申请公开了一种多音字消歧方法、装置、存储介质及设备，该方法包括：首先获取包含目标多音字的目标文本，并对其进行分词处理，得到其包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典，从而在多音字

2023-06-10

681KB

一种实体消歧方法、装置、计算机设备及存储介质.pdf

一种实体消歧方法、装置、计算机设备及存储介质，包括：获取用户目标问题，并识别目标问题中第一实体；判断是否存在已构建的用户画像子树，若未建立用户画像子树，依据第一实体确定目标问题对应的回答实体，同；若已建立用户画像子树，建立以第一实体为顶点的实体子树，比较实体子树与用户画像子树的距离是否大于预设长度；若小于预设长度，选取实体子树中层级最低且与用户画像子树距离最近的实体作为目标问题对应的回答实体；若大于预设长度，依据第一实体确定目标问题对应的回答实体，从而有效利用所挖掘用户的关注点和喜好进行实体消歧，降低了问

2023-08-28

454KB

实体消歧方法、装置、设备及计算机可读存储介质.pdf

本发明提供一种实体消歧方法、装置、设备及计算机可读存储介质，该方法包括：从自然语言文本中抽取命名实体；构建知识库中的候选实体与所述命名实体之间的实体链接；对各所述候选实体进行评分排序；基于排序结果确定各所述候选实体中的知识库实体，以消除所述命名实体的歧义。本发明提高了实体消歧的准确性，以及对语句进行语义理解的准确性。

2023-06-01

481KB

实体结构化及消歧的方法、设备及存储介质.pdf

本发明提供实体结构化及消歧的方法、设备及存储介质，方法包括：收集文本数据；将其输入第一训练模型，以输出所有第一实体的标签分类；当标签分类为指代明确时，将其输入知识库，以输出最相近的结果；当指代不明确时，将其输入第二训练模型，以输出相关的关系分类，以及每个关系对应的另一第一实体；当存在等价关系时，将另一第一实体输入知识库，以输出最相近的结果；当仅存在相近关系时，将该实体以及与另一实体输入知识库，以输出最相近的结果，作为指代不明确的第一实体的消歧结果。该方法利用实体的关联关系，以及结合知识库可对文本数据中的第

2023-06-04

2.3MB

一种语义消歧的方法、装置、服务器和存储介质.pdf

本发明实施例公开了一种语义消歧的方法、装置、服务器和存储介质。其中，语义消歧的方法包括：对用户当前对话信息进行语义解析，依据解析结果确定用户当前对话信息所属的当前服务领域是否为歧义领域，若当前服务领域是歧义领域，则依据预先确定的用户历史对话信息所属的历史服务领域对当前服务领域进行消歧处理。本发明实施例通过对用户当前对话信息进行语义解析，并利用该解析结果以及逻辑处理，实现了在多领域多轮对话系统中对用户当前对话信息所属的当前服务领域进行消歧处理，该技术方案提高了语义消歧的效率和准确度，解决了现有语义消歧方法中

2023-09-01

721KB