预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109325224A(43)申请公布日2019.02.12(21)申请号201810883567.6(22)申请日2018.08.06(71)申请人中国地质大学(武汉)地址430000湖北省武汉市洪山区鲁磨路388号(72)发明人刘超姚宏李旦董理君康晓军李新川郑坤(74)专利代理机构武汉知产时代知识产权代理有限公司42238代理人邹桂敏(51)Int.Cl.G06F17/27(2006.01)权利要求书1页说明书3页附图2页(54)发明名称一种基于语义元语的词向量表征学习方法及系统(57)摘要本发明涉及一种基于语义元语的词向量表征学习方法,包括以下三个步骤:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;根据获得的语义元语词汇得到与其对应的基础词向量;在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。获取目标词汇的目标词向量的具体步骤是:将每个词的各个释义代替这个词本身替换到原语句中,并保留语句意义与原语句最接近的一种释义,即得到了目标词汇的准确释义,用准确释义对应的语义元语词汇的词向量来适当地表达目标词,就能得到目标词汇的目标词向量。CN109325224ACN109325224A权利要求书1/1页1.一种基于语义元语的词向量表征学习方法,其特征在于,包括以下三个步骤:步骤1:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;步骤2:根据获得的语义元语词汇得到与其对应的基础词向量;步骤3:在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。2.根据权利要求1所述的一种基于语义元语的词向量表征学习方法,其特征在于,步骤3中获取目标词汇的目标词向量的具体步骤是:S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合,得到原始特征向量;S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合得到释义的向量,形成候选特征向量集,其中候选特征向量数目等于释义数目;S3、依次比对上述原始特征向量与各个候选特征向量,并保留相似度最高的候选特征向量所对应的释义,称为保留释义;S4、根据保留释义中的语义元语词汇得到与其对应的基础词向量,即为得到目标词汇的词向量。3.一种基于语义元语的词向量表征学习系统,其特征在于,能够实现以下功能:输入模块:用于输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;转换模块:用于根据获得的语义元语词汇得到与其对应的基础词向量;获取模块:用于在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。2CN109325224A说明书1/3页一种基于语义元语的词向量表征学习方法及系统技术领域[0001]本发明具体涉及一种基于语义元语的词向量表征学习方法及系统。背景技术[0002]表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。在现有的表征学习中最直观的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。除了One-hotRepresentation以外,还有word2vec等许多方法可以获得词向量,一般都需要经过“训练-测试-评价”的过程。尽管这些方法能够获得一些可用的词向量,但是其精度与可用性却不尽人意,有待改进。而本专利采用的方法,充分考虑了词语在不同语境下的不同意义,得到一个表达最为全面的词向量,使得词向量的精度与可用性都有了极大的提高。发明内容[0003]本发明要解决的技术问题在于,针对上述目前表征学习技术精度不高和可用性不强的不足,提供一种基于语义元语的词向量表征学习方法及系统解决上述问题。[0004]一种基于语义元语的词向量表征学习方法,包括以下三个步骤:[0005]步骤1:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;[0006]步骤2:根据获得的语义元语词汇得到与其对应的基础词向量;[0007]步骤3:在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。[0008]进一步的,步骤3中获取目标词汇的目标词向量的具体步骤是:[0009]S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合,得到原始特征向量;[0010]S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合得到释义的向量,形成候选特征向