预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111539228A(43)申请公布日2020.08.14(21)申请号202010358085.6G06F40/237(2020.01)(22)申请日2020.04.29(71)申请人支付宝(杭州)信息技术有限公司地址310013浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人钱隽夫邹泊滔王爱凌赵云王膂曾威龙王嘉浩刘丹丹孙清清(74)专利代理机构北京智信禾专利代理有限公司11637代理人李晓庆(51)Int.Cl.G06F40/49(2020.01)G06F40/126(2020.01)G06F40/205(2020.01)权利要求书4页说明书17页附图6页(54)发明名称向量模型训练方法及装置、相似度确定方法及装置(57)摘要本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。CN111539228ACN111539228A权利要求书1/4页1.一种向量模型训练方法,包括:获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。2.根据权利要求1所述的向量模型训练方法,所述获取多语种语料库中每种语言语料对应的初始词之前,还包括:获取所述多语种语料库中的多语言语料;对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合。3.根据权利要求1所述的向量模型训练方法,基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型包括:基于所述字符确定每个字符的字符向量以及基于所述词向量确定每个初始词的词向量;根据所述字符向量以及所述词向量通过第一算法最小化初始向量模型的损失函数,得到所述向量模型。4.根据权利要求3所述的向量模型训练方法,所述第一算法包括负采样算法。5.一种相似度确定方法,包括:接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。6.根据权利要求5所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之前,还包括:接收第一语言语料以及第二语言语料;对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词2CN111539228A权利要求书2/4页集合。7.根据权利要求5所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之前,还包括:获取多语种语料库中的多语言语料;对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合,其中,所述初始词集合中包括至少一个初始词。8.根据权利要求7所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之后,还包括:在所述第一语言初始词与所述多语种语料库中的初始词不匹配的情况下,将所述第一语言初始词集合转译为第一编码格式的第一语