预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107341157A(43)申请公布日2017.11.10(21)申请号201610282670.6(22)申请日2016.04.29(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人张凯蔡宁杨旭付子豪(74)专利代理机构北京安信方达知识产权代理有限公司11262代理人李红爽凌齐文(51)Int.Cl.G06F17/30(2006.01)G06F17/27(2006.01)权利要求书2页说明书6页附图3页(54)发明名称一种客服对话聚类方法和装置(57)摘要本申请提出一种客服对话聚类方法和装置,包括:对收集到的原始语料按照预设类型进行划分,获得每一类角色语料;对每一类所述角色语料分别进行预处理,获得每一类角色分词语料;融合每一类所述角色分词语料,进行过滤停用词处理,获得过滤语料;对所述过滤语料进行文本处理;对经过文本处理后的所述过滤语料进行聚类操作,本发明在保留了原始对话的信息基础上,充分考虑了对话文本的不同参与者这一特性,对不同参与者进行不同的处理,有效地提高了聚类的准确性;在实际对话文本的聚类应用中效果理想。CN107341157ACN107341157A权利要求书1/2页1.一种客服对话聚类方法,其特征在于,包括:对收集到的原始语料按照预设类型进行划分,获得每一类角色语料;对每一类所述角色语料分别进行预处理,获得每一类角色分词语料;融合每一类所述角色分词语料,进行过滤停用词处理,获得过滤语料;对所述过滤语料进行文本处理;对经过文本处理后的所述过滤语料进行聚类操作。2.如权利要求1所述的方法,其特征在于:对每一类所述角色语料分别进行预处理包括:按照所述预设类型对应的操作要求对所述角色语料进行修改和/或删除和/或添加处理。3.如权利要求2所述的方法,其特征在于:对每一类所述角色语料分别进行预处理还包括:对经过处理的每一类的角色语料按照语义和/或词表进行分词处理,所述分词处理包括将所述每一类的角色预料从无间隔的字串映射到有间隔的字词串。4.如权利要求1所述的方法,其特征在于:融合每一类所述角色分词语料,进行过滤停用词处理,获得过滤语料包括:删除每一类角色分词语料中的无意义的词。5.如权利要求1所述的方法,其特征在于:对每一类所述过滤语料进行文本处理包括:计算所述过滤语料的每个词语的术语频率-逆文档频率TF-IDF权重,将所述TF-IDF权重小于设定阈值对应的词语删除。6.如权利要求3所述的方法,其特征在于:对经过处理的每一类的角色语料按照语义和/或词表进行分词处理之后还包括:在分词处理后获得的每个词语前添加所述预设类型对应的标识。7.一种客服对话聚类装置,其特征在于,包括:划分模块,设置为对收集到的原始语料按照预设类型进行划分,获得每一类角色语料;预处理模块,设置为对每一类所述角色语料进行预处理,获得每一类角色分词语料;过滤模块,设置为融合每一类所述角色分词语料,进行过滤停用词处理,获得过滤语料;文本模块,设置为对所述过滤语料进行文本处理;聚类模块,设置为对经过文本处理后的所述过滤语料进行聚类操作。8.如权利要求7所述的装置,其特征在于:所述预处理模块包括:初选单元,设置为按照所述预设类型对应的操作要求对所述角色语料进行修改和/或删除和/或添加处理。9.如权利要求8所述的装置,其特征在于:所述预处理模块还包括:分词单元,设置为对经过处理的每一类的角色语料按照语义和/或词表进行分词处理,所述分词处理包括将所述每一类的角色预料从无间隔的字串映射到有间隔的字词串。10.如权利要求7所述的装置,其特征在于:过滤模块融合每一类所述角色分词语料,进行过滤停用词处理,获得过滤语料是指:删除每一类角色分词语料中的无意义的词。11.如权利要求7所述的装置,其特征在于:所述文本模块设置为:2CN107341157A权利要求书2/2页计算所述过滤语料的每个词语的术语频率-逆文档频率TF-IDF权重,将所述TF-IDF权重小于设定阈值对应的词语删除。12.如权利要求9所述的装置,其特征在于:所述预处理模块还包括:标识单元,设置为在分词处理后获得的每个词语前添加所述预设类型对应的标识。3CN107341157A说明书1/6页一种客服对话聚类方法和装置技术领域[0001]本发明涉及产品网站客服领域,具体涉及一种客服对话聚类方法和装置。背景技术[0002]目前产品网站用户量迅速增加,产品的迅速迭代更新,每天收到的用户咨询量也迅速增大,同时也积累了大量的客服对话数据;从行为学的角度,每一次用户的咨询都包含用户对产品的关注焦点、心理预期等诉求。这些数据包含着业务问题、用户需求、产品BUG(缺陷)等对公司非常有价值的信息。发现这些信息