预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110134967A(43)申请公布日2019.08.16(21)申请号201910430517.7(22)申请日2019.05.22(71)申请人北京金山数字娱乐科技有限公司地址100085北京市海淀区小营西路33号金山软件大厦2层西区申请人成都金山互动娱乐科技有限公司(72)发明人李长亮王勇博唐剑波陈楠(74)专利代理机构北京智信禾专利代理有限公司11637代理人吴肖肖(51)Int.Cl.G06F17/27(2006.01)权利要求书2页说明书15页附图4页(54)发明名称文本处理方法、装置、计算设备及计算机可读存储介质(57)摘要本申请提供文本处理方法、装置、计算设备及计算机可读存储介质,其中,所述文本处理方法包括:对输入文本进行分句,获得所述输入文本中的语句;对所述语句和所述输入文本的问题进行向量化处理,获得所述语句的句向量以及所述问题包含的词单元的词向量组成的问题向量序列;以所述输入文本中的语句和所述问题包含的词单元为单位,根据所述句向量和所述问题向量序列计算所述输入文本在语句层面的注意力权重分布;将所述注意力权重分布与所述输入文本进行融合,获得所述输入文本的文本表示。本申请提供的文本处理方法,在语句层面对输入文本进行处理,处理效率更高,并且通过结合问题对输入文本进行处理,处理的准确度也更高。CN110134967ACN110134967A权利要求书1/2页1.一种文本处理方法,其特征在于,包括:对输入文本进行分句,获得所述输入文本中的语句;对所述语句和所述输入文本的问题进行向量化处理,获得所述语句的句向量以及所述问题包含的词单元的词向量组成的问题向量序列;以所述输入文本中的语句和所述问题包含的词单元为单位,根据所述句向量和所述问题向量序列计算所述输入文本在语句层面的注意力权重分布;将所述注意力权重分布与所述输入文本进行融合,获得所述输入文本的文本表示。2.根据权利要求1所述的文本处理方法,其特征在于,所述以所述输入文本中的语句和所述问题包含的词单元为单位,根据所述句向量和所述问题向量序列计算所述输入文本在语句层面的注意力权重分布,包括:根据所述问题向量序列和所述输入文本中语句的句向量,分别计算所述问题包含的每个词单元与所述输入文本中每个语句的相关度,获得所述问题与所述输入文本中语句的相关度分布矩阵;对所述相关度分布矩阵进行归一化,将获得的所述输入文本的注意力权重矩阵作为所述输入文本在语句层面的所述注意力权重分布。3.根据权利要求2所述的文本处理方法,其特征在于,所述对所述相关度分布矩阵进行归一化,包括:按照行对所述相关度分布矩阵进行归一化。4.根据权利要求3所述的文本处理方法,其特征在于,所述将所述注意力权重分布与所述输入文本进行融合,获得所述输入文本的文本表示,包括:根据所述输入文本中语句的句向量,生成所述输入文本的文本向量矩阵;计算所述输入文本的注意力权重矩阵与所述输入文本的文本向量矩阵的乘积,作为所述输入文本到所述问题的文本表示。5.根据权利要求2所述的文本处理方法,其特征在于,所述对所述相关度分布矩阵进行归一化,包括:按照列对所述相关度分布矩阵进行归一化。6.根据权利要求5所述的文本处理方法,其特征在于,还包括:计算所述输入文本的注意力权重矩阵与所述问题向量序列的乘积,作为所述问题到所述输入文本的问题表示。7.根据权利要求1所述的文本处理方法,其特征在于,所述对所述语句和所述输入文本的问题进行向量化处理,获得所述语句对应的句向量和所述问题包含的词单元对应的词向量组成的问题向量序列步骤执行之前,包括:利用分词算法对所述输入文本进行分词,获得所述输入文本包含的词单元;确定所述输入文本包含的词单元在词向量空间中映射的文本词向量。8.根据权利要求7所述的文本处理方法,其特征在于,所述对所述语句和所述输入文本的问题进行向量化处理,获得所述语句对应的句向量和所述问题包含的词单元对应的词向量组成的问题向量序列,包括:将所述语句包含的词单元映射的文本词向量输入双向长短期记忆神经网络,由所述双向长短期记忆神经网将其输出作为输入向循环神经网络输入,输出所述语句的句向量;2CN110134967A权利要求书2/2页对所述问题进行分词,获得所述问题包含的词单元;确定所述问题包含的词单元在所述词向量空间中映射的问题词向量;根据所述问题包含的词单元映射的问题词向量,生成所述问题向量序列。9.根据权利要求1所述的文本处理方法,其特征在于,所述将所述注意力权重分布与所述输入文本进行融合,获得所述输入文本的文本表示步骤执行之后,包括:基于所述文本表示,确定所述问题在所述输入文本中起始位置对应的起始词向量,以及所述问题在所述输入文本中结尾位置对应的结尾词向量;根据