预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115759094A(43)申请公布日2023.03.07(21)申请号202211305534.6(22)申请日2022.10.24(71)申请人重庆长安汽车股份有限公司地址400023重庆市江北区建新东路260号(72)发明人田尊明陈浩杨稷(74)专利代理机构上海光华专利事务所(普通合伙)31219专利代理师周欣(51)Int.Cl.G06F40/295(2020.01)G06F40/242(2020.01)G06F40/284(2020.01)G06F40/30(2020.01)G06F18/22(2023.01)权利要求书2页说明书8页附图4页(54)发明名称一种实体词提取方法及装置、电子设备、存储介质(57)摘要本发明提供一种实体词提取方法及装置、电子设备、存储介质,其中一种实体词提取方法包括:获取汽车领域的实体名词生成初始实体词表;基于所述扩充实体词表构建字典树模型;输入语料并进行分词,对所述扩充实体词表中词向量进行训练,得到词向量模型;输入问题字符,在所述字典树模型中搜索,保留命中的抽取词,通过所述词向量模型对所述抽取词进行编码,进行训练获得抽取模型;基于所述字典树模型、所述词向量模型和所述抽取模型的使用形成实体词提取方法。本方案中通过丰富汽车领域的实体词数据库,且全面的提取汽车领域的实体词补充到数据库,并进行词向量训练,使得智能对话中能够快速识别新输入的语料。CN115759094ACN115759094A权利要求书1/2页1.一种实体词提取方法,其特征在于,所述方法包括:获取汽车领域的实体名词生成初始实体词表;将所述初始实体词表中的初始词与百科词条中的百科词进行语义相似度和字符相似度计算,将至少一部分所述百科词确定为扩充词,并将所述扩充词添加至所述初始实体词表得到扩充实体词表,基于所述扩充实体词表构建字典树模型;输入语料并进行分词,对所述扩充实体词表中词向量进行训练,得到词向量模型;输入问题字符,在所述字典树模型中搜索,保留命中的抽取词,通过所述词向量模型对所述抽取词进行编码,编码将所述输入问题字符的字向量和所述抽取词的词向量作为特征输入,进行训练获得抽取模型;基于所述字典树模型、所述词向量模型和所述抽取模型的使用形成实体词提取方法。2.根据权利要求1所述的实体词提取方法,其特征在于:获取汽车领域的实体名词生成初始实体词表,包括:访问汽车网站、汽车商城,基于所述汽车网站和所述汽车商场上专区版块名、商品名、配置名,提取汽车的功能配置词、汽车的零部件词确定为实体名称,并生成所述初始实体表。3.根据权利要求1所述的实体词提取方法,其特征在于:将所述初始实体词表中的初始词与百科词条中的百科词进行语义相似度和字符相似度计算,获取扩充词并加入所述初始实体词表得到扩充实体词表,包括:确定各所述初始词与各所述百科词之间的语义相似度和字符相似度;若所述百科词与至少一个所述初始词的语义相似度大于预设语义相似度阈值,且所述字符相似度大于预设字符相似度阈值,将所述百科词确定为所述扩充词;将所述扩充词加入所述初始实体词表中,得到所述扩充实体词表。4.根据权利要求3所述的实体词提取方法,其特征在于:输入语料并进行分词,包括:若分词在所述扩充实体词表中,则对所述分词进行替换,并采用n‑gram训练,其中n不超过5,训练得到kenlm模型。5.根据权利要求4所述的实体词提取方法,其特征在于:对所述扩充实体词表中词向量进行训练,得到词向量模型,包括:采用gensim模块的fasttext模型,训练词向量模型,提取所述扩充实体词表中实体词的词向量。6.根据权利要求5所述的实体词提取方法,其特征在于:通过所述词向量模型对所述抽取词进行编码过程中,包括:根据所述kenlm模型对所述抽取词进行评分,若抽取词的评分不超过离均差异常值的评估范围,则认为所述抽取词与上下文的边界合理。7.根据权利要求5所述的实体词提取方法,其特征在于:在所述字典树模型中搜索,保留命中的抽取词,通过所述词向量模型对所述抽取词进行编码,编码将所述输入问题字符的字向量和抽取词的词向量作为特征输入,进行训练获得抽取模型,包括:通过所述词向量模型对所述抽取词进行编码,计算语义余弦相似度,再与所述扩充实体词表中的词采用difflib.sequencematcher算法直接计算字符相似度,阈值符合实体词的标准,则将所述抽取词加入所述扩充实体词表中。2CN115759094A权利要求书2/2页8.一种实体词提取装置,其特征在于,所述装置包括:获取模块,用于获取汽车领域的实体名词生成初始实体词表;扩充模块,用于将所述初始实体词表中的初始词与百科词条中的百科词进行语义相似度和字符相似度计算,将至少一部分所述百科词确定为扩充词,并将