预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111143551A(43)申请公布日2020.05.12(21)申请号201911228510.3(22)申请日2019.12.04(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人刘凡张格皓(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人周嗣勇(51)Int.Cl.G06F16/35(2019.01)权利要求书2页说明书11页附图6页(54)发明名称文本预处理方法、分类方法、装置及设备(57)摘要本说明书实施例提供一种文本预处理方法、分类方法、装置及设备。在获取待处理文本后,可以判断待处理文本的长度是否大于指定长度,如果大于,则以待处理文本中至少一个指定字符作为位置参考,从文本中截取出多个字符,并将截取的字符拼接,得到长度等于指定长度的新文本,然后用新文本对预设的语言模型进行训练。通过对长文本进行截断拼接,可以从长文本中截取表示核心内容的关键字符,拼接得到长度满足语言模型要求的新文本,再通过新文本对语言模型进行训练,使得长文本可以得到模型的支持,且通过模型对长文本中的核心内容的学习,提升了模型的性能,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。CN111143551ACN111143551A权利要求书1/2页1.一种文本预处理方法,所述方法包括:获取待处理文本;判断所述待处理文本的长度是否大于指定长度;如果大于,则以所述待处理文本的至少一个指定字符作为位置参考从所述待处理文本截取多个字符;将所截取的字符拼接成新文本,以通过所述新文本对预设的语言模型进行训练,其中,所述新文本的长度等于所述指定长度,所述指定长度基于所述语言模型支持的文本长度确定。2.根据权利要求1所述的文本预处理方法,如果所述待处理文本的长度小于所述指定长度,则从所述待处理文本中复制多个字符对所述待处理文本进行拼接,直至拼接后的文本长度等于所述指定长度。3.根据权利要求1-2任一项所述的文本预处理方法,所述指定字符包括所述待处理文本的首个字符和/或所述待处理文本的最后一个字符。4.根据权利要求3所述的文本预处理方法,以所述待处理文本至少一个指定字符作为位置参考从所述待处理文本截取多个字符包括:以所述待处理文本首个字符作为起始位置,向后一个字符的方向截取第一数量的字符;以及以所述待处理文本最后一个字符作为终止位置,向前一个字符的方向截取第二数量的字符。5.根据权利要求4所述的文本预处理方法,所述第一数量等于所述第二数量。6.根据权利要求1所述的文本预处理方法,所述语言模型为BERT模型,所述指定长度小于512个字符长度。7.根据权利要求6所述的文本预处理方法,所述指定长度为256个字符长度,则以所述待处理文本至少一个指定的字符作为位置参考从所述待处理文本截取多个字符包括:以所述待处理文本首个字符作为起始位置,向后一个字符的方向截取128个字符;以及以所述待处理文本最后一个字符作为终止位置,向前一个字符的方向截取128个字符。8.根据权利要求1所述的文本预处理方法,判断所述待处理文本的长度是否大于指定长度之前,还包括:删除所述待处理文本中的指定字符。9.根据权利要求8所述的文本预处理方法,所述指定字符包括以下一种或多种:字母、数字、标点符号、表情符号以及空格键。10.一种文本分类方法,所述方法包括:获取待分类文本;判断所述待分类文本的长度是否大于指定长度;如果大于,则以所述待分类文本的至少一个指定字符作为位置参考从所述待处理文本截取多个字符;将所截取的字符拼接成新文本,其中,所述新文本的长度等于所述指定长度,所述指定长度基于预设的语言模型支持的文本长度确定;2CN111143551A权利要求书2/2页通过所述语言模型对所述新文本分类。11.一种文本预处理装置,所述装置包括:获取模块,用于获取待处理文本;判断模块,用于判断所述待处理文本的长度是否大于指定长度;截取模块,用于如果大于,则以所述待处理文本的至少一个指定字符作为位置参考从所述待处理文本截取多个字符;拼接模块,用于将所截取的字符拼接成新文本,以通过所述新文本对预设的语言模型进行训练,其中,所述新文本的长度等于所述指定长度,所述指定长度基于所述语言模型支持的文本长度确定。12.一种文本分类装置,所述装置包括:获取模块,用于获取待分类文本;判断模块,用于判断所述待分类文本的长度是否大于指定长度;截取模块,如果大于,则以所述待分类文本的至少一个指定字符作为位置参考从所述待处理文本截取多个字符;拼接模块,将所截取的字符拼接成新文本,其中,所述新文本的长度等于所述指定长度,所述指定长度基于预设的语言模型支持的文本长度确定;分类模块,