处理对话数据的方法及系统-豆柴文库

处理对话数据的方法及系统.pdf

2023-08-20

10金币

1KB

25页

一吃****书竹

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共25页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115221296A(43)申请公布日2022.10.21(21)申请号202210634463.8G06N3/08(2006.01)(22)申请日2022.06.07(71)申请人阿里巴巴（中国）有限公司地址311121浙江省杭州市余杭区五常街道文一西路969号3幢5层554室(72)发明人李博文刘澈惠彬原黎航宇孙健李永彬(74)专利代理机构北京智信禾专利代理有限公司11637专利代理师赵杰(51)Int.Cl.G06F16/332(2019.01)G06F16/35(2019.01)G06K9/62(2022.01)G06N3/04(2006.01)权利要求书3页说明书15页附图6页(54)发明名称处理对话数据的方法及系统(57)摘要本说明书实施例提供处理对话数据的方法及系统，其中所述方法包括：获取对话数据，其中，所述对话数据中包括多个轮次对话；提取所述多个轮次对话各自的语义向量；利用所述多个轮次对话各自的语义向量进行聚类计算，得到聚类结果，根据所述聚类结果，确定每个类别对应的关键信息，从而处理对话数据的任务可以实际应用于大规模对话数据，使处理对话数据的任务能够在真实场景落地。CN115221296ACN115221296A权利要求书1/3页1.一种处理对话数据的方法，包括：获取对话数据，其中，所述对话数据中包括多个轮次对话；提取所述多个轮次对话各自的语义向量；利用所述多个轮次对话的语义向量进行聚类计算，得到聚类结果；根据所述聚类结果，确定每个类别对应的关键信息。2.根据权利要求1所述的方法，所述关键信息为话题，所述根据所述聚类结果，确定每个类别对应的关键信息，包括：根据所述聚类结果，将每个类别的聚类标签作为该类别中每个轮次对话对应的话题。3.根据权利要求1所述的方法，所述关键信息为关键话术，所述根据所述聚类结果，确定每个类别对应的关键信息，包括：根据所述聚类结果，计算每个类别中的轮次对话与该类别的中心点的向量距离；根据所述向量距离，从每个类别中选取距离中心点最近的轮次对话作为关键话术。4.根据权利要求3所述的方法，还包括：将所述关键话术推送到对话构建模块，以便所述对话构建模块将所述关键话术作为待构建对话流模型中对话节点的话术。5.根据权利要求1所述的方法，所述提取所述对话数据中每个轮次对话的语义向量，包括：针对每通对话，将该通对话中的多个轮次对话进行拼接，得到该通对话的对话序列；在每条对话序列的首部添加序列标识符以区分序列，以及，为每个轮次对话添加对应的轮次标识符以区分轮次对话；将所述对话序列输入语义向量提取模型，提取出所述多个轮次对话各自的语义向量。6.根据权利要求1所述的方法，所述利用所述多个轮次对话的语义向量进行聚类计算，得到聚类结果，包括：将多个轮次对话的语义向量存放到特征池；将特征池作为初始的切分范围；在所述切分范围中随机选取一个轮次对话作为切分点；计算所述切分点的前向聚合特征和后向聚合特征之差，并选取最大差距位置作为所述切分范围的优化切分点；利用所述优化切分点将所述切分范围中的轮次对话分为两部分；将切分的两部分轮次对话分别作为更新的切分范围；针对轮次对话数量不满足预设对话数量要求的切分范围，将该切分范围变为已完成切分部分；如果优化切分点数量未达到预设切分点数量要求，针对更新的切分范围，重新返回到所述在所述切分范围中随机选取一个轮次对话作为切分点的步骤；如果优化切分点数量达到预设要求，获得所有优化切分点作为初始化点来初始化KMeans聚类中心，并通过KMeans聚类算法调整优化切分点并根据调整后的各优化切分点确定聚类结果。7.根据权利要求2所述的方法，还包括:判断所述多个轮次对话各自的话题是否满足预设要求；2CN115221296A权利要求书2/3页从所述多个轮次对话的话题中，删除不满足所述预设要求的话题；针对被删除话题的轮次对话，计算该轮次对话的语义向量与其他轮次对话的语义向量之间的距离；根据计算出的距离选择其他轮次对话的话题作为该轮次对话的话题。8.根据权利要求7所述的方法，所述判断所述多个轮次对话各自的话题是否满足预设要求，包括:对每通对话的多个轮次对话的话题中重复出现的话题进行统计，得到每个话题在该通对话中的重复出现次数；将重复出现次数未达到预设重复出现次数范围的话题确定为不满足预设要求的话题。9.根据权利要求7所述的方法，所述判断所述多个轮次对话各自的话题是否满足预设要求，包括:对每通对话的多个轮次对话的话题中连续重复出现的话题进行统计，得到每个话题在该通对话中的连续重复次数；将连续重复次数未达到预设连续重复次数范围的话题确定为不满足预设要求的话题。10.根据权利要求5所述的方法，所述语义向量提取模型为多层Transformer模型；其中

相关资料

处理对话数据的方法及系统.pdf

本说明书实施例提供处理对话数据的方法及系统，其中所述方法包括：获取对话数据，其中，所述对话数据中包括多个轮次对话；提取所述多个轮次对话各自的语义向量；利用所述多个轮次对话各自的语义向量进行聚类计算，得到聚类结果，根据所述聚类结果，确定每个类别对应的关键信息，从而处理对话数据的任务可以实际应用于大规模对话数据，使处理对话数据的任务能够在真实场景落地。

2023-08-20

1KB

对话系统和对话处理方法.pdf

一种用于车辆的对话系统可以包括：输入处理器，其被配置为接收车辆的包括驾驶员和至少一个乘客的乘员之间的对话，检测车辆操作信息，基于乘员之间的对话或车辆操作信息识别至少一个乘客，基于乘员之间的对话来生成估算当车辆到达停留点时车辆中的乘客数量的变化的乘客数量信息，并根据乘客数量信息来获取预话语消息；以及结果处理器，其被配置为根据预话语消息输出所述预话语。

2023-11-14

8.6MB

任务对话系统中的对话处理方法及装置.pdf

本发明公开了一种任务对话系统中的对话处理方法及装置，其中，该方法包括：获取本轮用户消息；获取上一轮对话中任务对话系统反馈的对话动作；根据本轮用户消息和上一轮对话中任务对话系统反馈的对话动作，生成本轮对话中任务对话系统反馈的对话动作；显示本轮对话中任务对话系统反馈的对话动作。本发明实施例提供的任务对话系统中的对话处理方法，结合上轮对话的对话动作生成本轮对话的对话动作，不需要针对不同领域的任务对话系统预先定义对话状态，使得该方法具有很强的跨领域迁移能力。

2023-09-02

551KB

一种用于对话交互系统的数据处理方法及装置.pdf

一种用于对话交互系统的数据处理方法及装置，其中，该方法包括：交互数据获取步骤，获取人机交互过程中关于用户的对话交互数据；交互数据更新步骤，根据对话交互数据判断是否需要结合上下文已知交互数据进行对话交互，如果需要，则根据上下文已知交互数据对对话交互数据进行更新；反馈信息生成步骤，根据更新后的对话交互数据生成相应的反馈信息并输出。本方法在无法利用单轮对话来确定出用户所输入的问题的意图时，利用上下文已知交互数据来辅助理解用户意图，从而避免了无法理解用户意图或意图理解错误的问题，这能够提高对话交互系统所输出的反馈

2023-09-03

553KB

多轮对话的对话数据处理方法及相关装置.pdf

本申请的实施例提供了一种多轮对话的对话数据处理方法及相关装置，涉及人机交互领域。该方法包括：响应用户操作，获取本轮对话数据和解析控制信息集合；解析控制信息集合表征历史对话的对话状态，且对话状态用于控制本轮对话数据的解析过程；根据解析控制信息集合对本轮对话数据进行解析；根据得到的本轮解析数据以及解析控制信息集合更新解析控制信息集合，并生成本轮回答数据以回复用户。由于对话状态用于控制本轮对话数据的解析过程，在本轮对话中可以根据解析控制信息集合实现对本轮对话数据的解析以及跳转到下一轮对话，不需通过预先设计大量的

2023-08-27

1.3MB