预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111309889A(43)申请公布日2020.06.19(21)申请号202010123765.X(22)申请日2020.02.27(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人彭爽崔恒斌(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人杨锡劢赵磊(51)Int.Cl.G06F16/332(2019.01)G06F16/36(2019.01)G06Q30/00(2012.01)权利要求书2页说明书9页附图3页(54)发明名称用于文本处理的方法和装置(57)摘要本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。该方法包括:从目标机器对话日志中获取目标问题文本,目标问题文本用于表示机器人客服未能回答的用户问题;基于目标问题文本,获取目标人工对话日志,目标人工对话日志是基于目标问题文本而产生的;利用机器阅读模型对目标问题文本和目标人工对话日志进行处理,其中机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的,训练语料是基于历史问题文本和历史人工对话日志得到的;基于机器阅读模型的处理结果,从目标人工对话日志中获取针对目标问题文本的答案文本,其中,目标问题文本和答案文本以问答对的形式被存储到知识库中。CN111309889ACN111309889A权利要求书1/2页1.一种用于文本处理的方法,包括:从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户与机器人客服的对话,所述目标问题文本用于表示机器人客服未能回答的用户问题;基于所述目标问题文本,获取目标人工对话日志,其中,所述目标人工对话日志用于表示所述目标用户与人工客服的对话,所述目标人工对话日志是基于所述目标问题文本而产生的;利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,其中:所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的;所述训练语料是基于历史问题文本和历史人工对话日志得到的,所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题,所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工客服的对话;基于所述机器阅读模型的处理结果,从所述目标人工对话日志中获取针对所述目标问题文本的答案文本,其中,所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。2.根据权利要求1所述的方法,其中,所述训练语料是通过如下方式得到:在所述历史人工对话日志的每一轮对话中,针对来自用户的文本添加第一标识,并且针对来自人工客服的文本添加第二标识,以得到训练对话日志;生成所述训练语料,其中,所述训练语料包括所述历史问题文本和所述训练对话日志。3.根据权利要求1或2所述的方法,其中,所述预训练语言模型包括BERT模型,其中,在对所述BERT模型进行训练时使用掩码语言模型作为损失函数。4.根据权利要求1或2所述的方法,其中,所述预训练语言模型包括RoBERTa模型或SpanBERT模型中的一者。5.根据权利要求1至4中任一项所述的方法,其中,所述机器阅读模型是通过如下方式得到的:基于所述训练语料对所述预训练语言模型进行预训练,得到目标语言模型;针对所述目标语言模型添加任务层,得到所述机器阅读模型。6.根据权利要求1至5中任一项所述的方法,其中,利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,包括:利用所述机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,得到起始位置信息和结束位置信息,其中,所述起始位置信息用于指示所述答案文本在所述目标人工对话日志中的起始位置,所述结束位置信息用于指示所述答案文本在所述目标人工对话日志中的结束位置。7.一种用于文本处理的装置,包括:第一获取单元,其从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户与机器人客服的对话,所述目标问题文本用于表示机器人客服未能回答的用户问题;第二获取单元,其基于所述目标问题文本,获取目标人工对话日志,其中,所述目标人工对话日志用于表示所述目标用户与人工客服的对话,所述目标人工对话日志是基于所述2CN111309889A权利要求书2/2页目标问题文本而产生的;模型处理单元,其利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,其中:所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的;所述训练语料是基于历史问题文本和历史人工对话日志得到的,所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题,所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工