预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115221296A(43)申请公布日2022.10.21(21)申请号202210634463.8G06N3/08(2006.01)(22)申请日2022.06.07(71)申请人阿里巴巴(中国)有限公司地址311121浙江省杭州市余杭区五常街道文一西路969号3幢5层554室(72)发明人李博文刘澈惠彬原黎航宇孙健李永彬(74)专利代理机构北京智信禾专利代理有限公司11637专利代理师赵杰(51)Int.Cl.G06F16/332(2019.01)G06F16/35(2019.01)G06K9/62(2022.01)G06N3/04(2006.01)权利要求书3页说明书15页附图6页(54)发明名称处理对话数据的方法及系统(57)摘要本说明书实施例提供处理对话数据的方法及系统,其中所述方法包括:获取对话数据,其中,所述对话数据中包括多个轮次对话;提取所述多个轮次对话各自的语义向量;利用所述多个轮次对话各自的语义向量进行聚类计算,得到聚类结果,根据所述聚类结果,确定每个类别对应的关键信息,从而处理对话数据的任务可以实际应用于大规模对话数据,使处理对话数据的任务能够在真实场景落地。CN115221296ACN115221296A权利要求书1/3页1.一种处理对话数据的方法,包括:获取对话数据,其中,所述对话数据中包括多个轮次对话;提取所述多个轮次对话各自的语义向量;利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果;根据所述聚类结果,确定每个类别对应的关键信息。2.根据权利要求1所述的方法,所述关键信息为话题,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,将每个类别的聚类标签作为该类别中每个轮次对话对应的话题。3.根据权利要求1所述的方法,所述关键信息为关键话术,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,计算每个类别中的轮次对话与该类别的中心点的向量距离;根据所述向量距离,从每个类别中选取距离中心点最近的轮次对话作为关键话术。4.根据权利要求3所述的方法,还包括:将所述关键话术推送到对话构建模块,以便所述对话构建模块将所述关键话术作为待构建对话流模型中对话节点的话术。5.根据权利要求1所述的方法,所述提取所述对话数据中每个轮次对话的语义向量,包括:针对每通对话,将该通对话中的多个轮次对话进行拼接,得到该通对话的对话序列;在每条对话序列的首部添加序列标识符以区分序列,以及,为每个轮次对话添加对应的轮次标识符以区分轮次对话;将所述对话序列输入语义向量提取模型,提取出所述多个轮次对话各自的语义向量。6.根据权利要求1所述的方法,所述利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果,包括:将多个轮次对话的语义向量存放到特征池;将特征池作为初始的切分范围;在所述切分范围中随机选取一个轮次对话作为切分点;计算所述切分点的前向聚合特征和后向聚合特征之差,并选取最大差距位置作为所述切分范围的优化切分点;利用所述优化切分点将所述切分范围中的轮次对话分为两部分;将切分的两部分轮次对话分别作为更新的切分范围;针对轮次对话数量不满足预设对话数量要求的切分范围,将该切分范围变为已完成切分部分;如果优化切分点数量未达到预设切分点数量要求,针对更新的切分范围,重新返回到所述在所述切分范围中随机选取一个轮次对话作为切分点的步骤;如果优化切分点数量达到预设要求,获得所有优化切分点作为初始化点来初始化KMeans聚类中心,并通过KMeans聚类算法调整优化切分点并根据调整后的各优化切分点确定聚类结果。7.根据权利要求2所述的方法,还包括:判断所述多个轮次对话各自的话题是否满足预设要求;2CN115221296A权利要求书2/3页从所述多个轮次对话的话题中,删除不满足所述预设要求的话题;针对被删除话题的轮次对话,计算该轮次对话的语义向量与其他轮次对话的语义向量之间的距离;根据计算出的距离选择其他轮次对话的话题作为该轮次对话的话题。8.根据权利要求7所述的方法,所述判断所述多个轮次对话各自的话题是否满足预设要求,包括:对每通对话的多个轮次对话的话题中重复出现的话题进行统计,得到每个话题在该通对话中的重复出现次数;将重复出现次数未达到预设重复出现次数范围的话题确定为不满足预设要求的话题。9.根据权利要求7所述的方法,所述判断所述多个轮次对话各自的话题是否满足预设要求,包括:对每通对话的多个轮次对话的话题中连续重复出现的话题进行统计,得到每个话题在该通对话中的连续重复次数;将连续重复次数未达到预设连续重复次数范围的话题确定为不满足预设要求的话题。10.根据权利要求5所述的方法,所述语义向量提取模型为多层Transformer模型;其中