预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113723115A(43)申请公布日2021.11.30(21)申请号202111167748.7G06F16/36(2019.01)(22)申请日2021.09.30G06F40/284(2020.01)G06N3/04(2006.01)(71)申请人平安科技(深圳)有限公司G06N3/08(2006.01)地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人成杰峰彭奕(74)专利代理机构广州三环专利商标代理有限公司44202代理人熊永强(51)Int.Cl.G06F40/35(2020.01)G06F16/35(2019.01)G06F16/335(2019.01)G06F16/242(2019.01)权利要求书2页说明书15页附图4页(54)发明名称基于预训练模型的开放域问答预测方法及相关设备(57)摘要本申请涉及人工智能技术领域,具体提供了一种基于预训练模型的开放域问答预测方法及相关设备,其中,该方法包括:对查询语句进行编码,得到查询向量;将查询向量与至少一个片段簇进行匹配,以确定出查询语句所属的目标片段簇;从目标片段簇中选取至少一个片段,根据至少一个片段得到更新的查询语句,并计算更新的查询语句与目标片段簇中的片段的后验概率;重复执行根据后验概率选取出至少一个片段、根据至少一个片段得到更新的查询语句的操作,直至目标片段簇中不存在与当前选取的至少一个片段直接相连的片段;计算最新的查询语句与目标片段簇中的片段的后验概率,根据该后验概率返回问答结果。本申请实施例有利于提升开放域问答中的预测效率。CN113723115ACN113723115A权利要求书1/2页1.一种基于预训练模型的开放域问答预测方法,其特征在于,所述方法包括:采用预训练模型对输入的查询语句进行编码,得到所述查询语句的查询向量;将所述查询向量与预先构建的聚类图谱中的至少一个片段簇进行匹配,以从所述至少一个片段簇中确定出所述查询语句所属的目标片段簇;从所述目标片段簇中选取至少一个片段,根据至少一个片段得到更新的查询语句,并计算更新的查询语句与所述目标片段簇中的第一片段的后验概率;重复执行根据上一次得到的后验概率从所述目标片段簇中选取至少一个片段、根据至少一个片段得到当前更新的查询语句的操作,直至所述目标片段簇中不存在与当前选取的至少一个片段直接相连的片段;计算当前更新的查询语句与所述目标片段簇中的第二片段的目标后验概率,根据所述目标后验概率返回所述查询语句的开放域问答结果。2.根据权利1所述的方法,其特征在于,所述至少一个片段簇是通过对各领域的片段数据进行聚类得到的,在采用预训练模型对输入的查询语句进行编码,得到所述查询语句的查询向量之前,所述方法还包括:确定聚类算法中对各领域的片段数据进行聚类所采用的半径和邻域密度阈值;基于所述半径和所述邻域密度阈值构建所述聚类图谱。3.根据权利要求2所述的方法,其特征在于,所述确定聚类算法中对各领域的片段数据进行聚类所采用的半径,包括:采用所述预训练模型对各领域的片段数据进行编码,得到至少一个语义向量;对所述至少一个语义向量进行对数取样,得到第一目标数量个点;计算所述第一目标数量个点的点间平均距离;重复执行K次对所述至少一个语义向量进行对数取样和计算点间平均距离的操作,得到K个点间平均距离,其中,K为大于1的整数;将所述K个点间平均距离的平均值作为所述半径。4.根据权利要求3所述的方法,其特征在于,所述确定聚类算法中对各领域的片段数据进行聚类所采用的邻域密度阈值,包括:对所述至少一个语义向量进行对数取样,得到第二目标数量个点;从所述第二目标数量个点中随机选择一个点作为聚类中心,根据所述半径和预先定义的判别函数计算出聚类中心的同类点的数量;重复执行K次对所述至少一个语义向量进行对数取样、随机选择一个点作为聚类中心和计算聚类中心同类点的数量的操作,得到K个数量值;将所述K个数量值的平均值作为所述邻域密度阈值。5.根据权利要求3所述的方法,其特征在于,所述基于所述半径和所述邻域密度阈值构建所述聚类图谱,包括:从所述至少一个语义向量中的任一语义向量开始,根据所述半径获取所述任一语义向量的邻域点个数,若所述邻域点个数小于所述邻域密度阈值,则将所述任一语义向量确定为边界点,若所述邻域点个数大于或等于所述邻域密度阈值,则将所述任一语义向量确定为核心点;若所述任一语义向量为核心点,则将所述任一语义向量密度可达的点和所述任一语义2CN113723115A权利要求书2/2页向量密度确定为片段簇,若所述任一语义向量为边界点,则将所述任一语义向量加入到与所述任一语义向量密度可达的核心点所属的片段簇中,直至所述至少一个语义向