预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112948580A(43)申请公布日2021.06.11(21)申请号202110154293.9(22)申请日2021.02.04(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人彭爽杨明晖(74)专利代理机构成都七星天知识产权代理有限公司51253代理人袁春晓(51)Int.Cl.G06F16/35(2019.01)权利要求书2页说明书12页附图4页(54)发明名称一种文本分类的方法和系统(57)摘要本说明书实施例提供了一种文本分类的方法和系统。所述方法包括:获取待分类文本;确定所述待分类文本中的至少一个关键词;通过文本分类模型处理所述至少一个关键词及所述待分类文本,确定所述待分类文本的类别。可以通过文本分类模型,基于待分类文本及待分类文本对应的至少一个关键词的特征信息确定待分类文本的类别,可以实现在待分类文本中融合上关键词嵌入信息,从而更准确地完成文本分类。CN112948580ACN112948580A权利要求书1/2页1.一种文本分类的方法,包括:获取待分类文本;确定所述待分类文本中的至少一个关键词;通过文本分类模型处理所述至少一个关键词及所述待分类文本,确定所述待分类文本的类别,所述文本分类模型的处理进一步包括:获取所述至少一个关键词的特征信息及所述待分类文本的特征信息;其中,所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示,所述类型向量表示指示所述字符是否为关键词中的字符;基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。2.如权利要求1所述的方法,关键词的特征信息包括关键词中字符的字符向量表示;所述待分类文本的特征信息还包括以下信息中的一种或多种的组合:待分类文本中字符的字符向量表示、待分类文本中字符的所属句子向量表示以及待分类文本中字符的在所属句子中的位置向量表示。3.如权利要求2所述的方法,所述关键词的特征信息还包括关键词中字符的所属句子向量表示、关键词中字符的在所属句子中的位置向量表示以及关键词中字符的类型向量表示,所述关键词中字符的类型向量表示为预设的常向量。4.如权利要求3所述的方法,所述文本分类模型包括BERT模型、BERT‑Large模型、RoBERTa模型、ALBERT模型或者XL‑Net模型;所述关键词的特征信息包括关键词中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果;所述待分类文本的特征信息包括待分类文本中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果。5.如权利要求1所述的方法,所述基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别,包括:基于所述至少一个关键词的特征信息及所述待分类文本的特征信息生成预测向量;基于所述预测向量确定所述待分类文本分别属于一个或多个预设类别中的每一个的概率值。6.一种文本分类的系统,包括:文本获取模块:用于获取待分类文本;关键词确定模块:用于确定所述待分类文本中的至少一个关键词;文本分类模块:用于通过文本分类模型处理所述至少一个关键词及所述待分类文本,确定所述待分类文本的类别,所述文本分类模块进一步包括:特征获取单元:用于获取所述至少一个关键词的特征信息及所述待分类文本的特征信息;其中,所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示,所述类型向量表示指示所述字符是否为关键词中的字符;特征处理单元:用于基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。7.如权利要求6所述的系统,关键词的特征信息包括关键词中字符的字符向量表示;2CN112948580A权利要求书2/2页所述待分类文本的特征信息还包括以下信息中的一种或多种的组合:待分类文本中字符的字符向量表示、待分类文本中字符的所属句子向量表示以及待分类文本中字符的在所属句子中的位置向量表示。8.如权利要求7所述的方法,所述关键词的特征信息还包括关键词中字符的所属句子向量表示、关键词中字符的在所属句子中的位置向量表示以及关键词中字符的类型向量表示,所述关键词中字符的类型向量表示为预设的常向量。9.如权利要求8所述的系统,所述文本分类模型包括BERT模型、BERT‑Large模型、RoBERTa模型、ALBERT模型或者XL‑Net模型;所述关键词的特征信息包括关键词中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果;所述待分类文本的特征信息包括待分类文本中各字符的类型向量表示、字符向量