预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186057A(43)申请公布日2022.03.15(21)申请号202010966964.7(22)申请日2020.09.15(71)申请人智慧芽(中国)科技有限公司地址200233上海市徐汇区漕宝路650号2幢10-11楼(72)发明人马库斯·汉斯S·德斯潘德希夫尚卡尔·乌玛尚卡尔庞卡·库玛(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F16/35(2019.01)G06N3/04(2006.01)权利要求书2页说明书14页附图10页(54)发明名称基于多类型文本的自动分类方法、装置、设备和存储介质(57)摘要本发明实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括:获取目标文本和所述目标文本的目标文本类型;将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。本发明实施例实现了多类型文本的自动分类。CN114186057ACN114186057A权利要求书1/2页1.一种基于多类型文本的自动分类方法,其特征在于,包括:获取目标文本和所述目标文本的目标文本类型;将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题,并根据所述目标文本类型确定所述目标文本的预设分类方案;将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系;根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题;将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。2.根据权利要求1所述的方法,其特征在于,所述获取目标文本和所述目标文本的目标文本类型之后包括:根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题,所述第二文本主题为基于预设分类方案生成的文本主题;若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。3.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练包括:从预设数据库中获取样本文本和所述样本文本的第一文本主题;根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。4.根据权利要求1所述的方法,其特征在于,所述分类器模型的构建包括:构建分类器模型,所述分类器模型包括多个父主题,每个所述父主题包括多个层级,每个所述层级包括一个或多个子主题,每个所述父主题和子主题包括一个二进制分类器;从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别,所述第二文本主题为基于预设分类方案生成的文本主题;根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述若所述目标文本包括第二文本主题,将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括:将所述第二文本主题输入至预先构建好的分类器模型;根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题,所述第一父主题为每个所述父主题中分类分数最高的父主题;根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题,所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题;根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题,所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题,直至获取到最后层级的子主题,并将所述最后层级的子主题作为所述目标文本的目标分类类别。2CN114186057A权利要求书2/2页6.根据权利要求5所述的方法,其特征在于,所述将所述最后层级的子主题作为所述目标文本的目标分类类别之后包括:将所述第一父主题至所述最后层级的子主题的分类分数合并,以得到所述目标文本基于所述目标分类类别的总分类分数。7.根据权利要求1所述的方法,其特征在于,所述将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系之后包括:根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。8.根据权利要求1所述的方法,其