预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115859994A(43)申请公布日2023.03.28(21)申请号202211523000.0G06F40/216(2020.01)(22)申请日2022.11.30G06F16/332(2019.01)G06N20/00(2019.01)(71)申请人广州广电运通智能科技有限公司地址510663广东省广州市高新技术产业开发区科学城科林路9、11号申请人广州广电运通金融电子股份有限公司(72)发明人陈强(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201专利代理师高梦梦(51)Int.Cl.G06F40/30(2020.01)G06F40/279(2020.01)G06F40/289(2020.01)权利要求书2页说明书12页附图1页(54)发明名称基于短文本面向问答系统的实体链接方法及装置(57)摘要本申请公开了一种基于短文本面向问答系统的实体链接方法及装置,属于语音问答技术领域。本申请的基于短文本面向问答系统的实体链接方法包括:对目标实体进行基于TF‑IDF的特征提取,获取多个关键词;对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。本申请的基于短文本面向问答系统的实体链接方法能够自动构建实体别名库,降低了构建成本且准确度较高,从而能够准确匹配与用户语音对应的目标实体别名,便于后续在语音问答场景中输出与用户语音匹配的问题答案。CN115859994ACN115859994A权利要求书1/2页1.一种基于短文本面向问答系统的实体链接方法,其特征在于,包括:对目标实体进行基于TF‑IDF的特征提取,获取多个关键词;对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。2.根据权利要求1所述的基于短文本面向问答系统的实体链接方法,其特征在于,所述对目标实体进行基于TF‑IDF的特征提取,获取多个关键词,包括:对所述目标实体进行分词处理,获取第一实体;对所述第一实体进行基于TF‑IDF的关键词提取,获取所述多个关键词和所述关键词对应的重要程度。3.根据权利要求2所述的基于短文本面向问答系统的实体链接方法,其特征在于,所述对所述第一实体进行基于TF‑IDF的关键词提取,获取所述多个关键词和所述关键词对应的重要程度,包括:基于所述多个关键词中目标关键词在所述第一实体中出现的次数,确定所述目标关键词的词频;基于语料库中文件总数和所述语料库中目标文件数,确定所述目标关键词的逆文档词频,其中,所述目标文件数为包括所述目标关键词的文件数量;基于所述词频和所述逆文档词频,确定所述目标关键词对应的重要程度。4.根据权利要求2所述的基于短文本面向问答系统的实体链接方法,其特征在于,所述对所述目标实体进行分词处理,获取第一实体,包括:在所述目标实体为已收录实体的情况下,基于前向最大匹配算法对所述目标实体进行分词处理,获取所述第一实体;在所述目标实体为未收录实体的情况下,基于隐马尔克夫模型对所述目标实体进行分词处理,获取所述第一实体。5.根据权利要求2所述的基于短文本面向问答系统的实体链接方法,其特征在于,所述对所述多个关键词进行重组,生成实体别名库,包括:基于所述多个关键词中目标关键词对应的重要程度和目标阈值,筛选所述多个关键词得到实体别名;基于所述实体别名,生成所述实体别名库。6.根据权利要求1‑5任一项所述的基于短文本面向问答系统的实体链接方法,其特征在于,所述对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名,包括:将所述用户语音输入至语义表征模型,获取所述语义表征模型输出的目标实体语义表征,所述目标实体语义表征与所述实体别名库相链接;其中,所述语义表征模型为以样本语音为样本,以与所述样本语音对应的样本实体别名为样本标签,进行无监督训练和有监督训练所得到的。7.一种基于短文本面向问答系统的实体链接装置,其特征在于,包括:第一处理模块,用于对目标实体进行基于TF‑IDF的特征提取,获取多个关键词;2CN115859994A权利要求书2/2页第二处理模块,用于对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;第三处理模块,用于对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处