预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111552787A(43)申请公布日2020.08.18(21)申请号202010328553.5G06N3/04(2006.01)(22)申请日2020.04.23G06N3/08(2006.01)(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈晓军陈显玲杨明晖崔恒斌(74)专利代理机构北京众达德权知识产权代理有限公司11570代理人张桂蓉(51)Int.Cl.G06F16/332(2019.01)G06F16/33(2019.01)G06F16/35(2019.01)G06F40/289(2020.01)G06F40/35(2020.01)权利要求书3页说明书8页附图4页(54)发明名称问答处理方法、装置、设备及存储介质(57)摘要本说明书实施例公开了一种问答处理方法、装置、设备及存储介质,获取用户问题匹配的候选对话记录集,针对候选对话记录集中每段对话记录,以用户问题替换对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对文本对象进行分类,得到表征用户问题与对话记录之间的匹配程度文本对象的文本分类结果,根据每个文本对象的文本分类结果,从候选对话记录集选出目标对话记录,并将目标对话记录提供给当前提问用户。CN111552787ACN111552787A权利要求书1/3页1.一种问答处理方法,包括:获取当前提问用户的用户问题;获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。2.如权利要求1所述的方法,所述根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,包括:根据每个所述文本对象的文本分类结果进行筛选,得到目标文本对象;从所述候选对话记录集中,选择所述目标文本对象对应的对话记录作为所述目标对话记录。3.如权利要求1所述的方法,所述获取所述用户问题匹配的候选对话记录集,包括:对所述用户问题进行分词处理,得到搜索关键词;根据所述搜索关键词,从对话记录库中检索出与所述用户问题匹配的一段以上对话记录,形成所述候选对话记录集,其中,所述对话记录库中包含一段以上对话记录。4.如权利要求3所述的方法,在将所述目标对话记录提供给所述当前提问用户之后,还包括:如果接收到所述当前提问用户的人工客服请求,则建立所述当前提问用户与人工客服之间的对话通道,并记录所述当前提问用户与所述人工客服之间的本次对话内容;根据所述本次对话内容生成新的对话记录,并将所述新的对话记录加入至所述对话记录库。5.如权利要求1所述的方法,在所述针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题之前,还包括:针对所述候选对话记录集中每段对话记录,将所述对话记录中预定位置的语句标定为所述对话记录的代表问题,或者通过问题评估模型从所述对话记录中识别出目标问题语句,并将所述目标问题语句标定为所述对话记录的代表问题。6.如权利要求1所述的方法,所述文本对象是包含K个语句文本的语句序列,K为大于1的整数,所述通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,包括:对所述文本对象的K个语句文本进行拼接处理,形成对应所述语句序列的长文本向量;通过所述文本分类模型对所述长文本向量进行分类,得到所述文本分类结果。7.一种文本分类模型的训练方法,包括:收集多段真实对话记录,形成正样本集;从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,2CN111552787A权利要求书2/3页形成负样本集;以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。8.如权利要求7所述的方法,所述从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集,包括:针对所述正样本集中第i段对话记录,从所述正样本集中除所述第i段对话记录之外的各段对话记录中随机选择M段对话记录,所述正样本集中包含N段对话记录,i取1至N中每个或者多个,M、N为正整数;用从所述M段对话记录中提取的M个代表问题,分别替换所述第i段对话记录中真实的代表问题,形成M段虚假对话记录,并将所述M段虚假对话记录作为所