基于多类型文本的自动分类方法、装置、设备和存储介质-豆柴文库

基于多类型文本的自动分类方法、装置、设备和存储介质.pdf

2023-07-24

10金币

1.6MB

27页

努力****采萍

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共27页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186057A(43)申请公布日2022.03.15(21)申请号202010966964.7(22)申请日2020.09.15(71)申请人智慧芽（中国）科技有限公司地址200233上海市徐汇区漕宝路650号2幢10-11楼(72)发明人马库斯·汉斯S·德斯潘德希夫尚卡尔·乌玛尚卡尔庞卡·库玛(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F16/35(2019.01)G06N3/04(2006.01)权利要求书2页说明书14页附图10页(54)发明名称基于多类型文本的自动分类方法、装置、设备和存储介质(57)摘要本发明实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括：获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。本发明实施例实现了多类型文本的自动分类。CN114186057ACN114186057A权利要求书1/2页1.一种基于多类型文本的自动分类方法，其特征在于，包括：获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别。2.根据权利要求1所述的方法，其特征在于，所述获取目标文本和所述目标文本的目标文本类型之后包括：根据所述目标文本和目标文本类型判断所述目标文本是否包括第二文本主题，所述第二文本主题为基于预设分类方案生成的文本主题；若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别。3.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练包括：从预设数据库中获取样本文本和所述样本文本的第一文本主题；根据所述样本文本和所述样本文本的第一文本主题对所述神经网络模型进行训练。4.根据权利要求1所述的方法，其特征在于，所述分类器模型的构建包括：构建分类器模型，所述分类器模型包括多个父主题，每个所述父主题包括多个层级，每个所述层级包括一个或多个子主题，每个所述父主题和子主题包括一个二进制分类器；从预设数据库中获取样本文本的第二文本主题和所述样本文本的目标分类类别，所述第二文本主题为基于预设分类方案生成的文本主题；根据所述样本文本的第二文本主题和所述样本文本的目标分类类别对所述分类器模型进行训练。5.根据权利要求4所述的方法，其特征在于，所述若所述目标文本包括第二文本主题，将所述第二文本主题输入至预先基于多种所述预设分类方案构建好的分类器模型以得到所述目标文本的目标分类类别包括：将所述第二文本主题输入至预先构建好的分类器模型；根据每个所述父主题的二进制分类器确定所述第二文本主题的第一父主题，所述第一父主题为每个所述父主题中分类分数最高的父主题；根据所述第一父主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第一子主题，所述第一子主题为所述第一父主题的下一层级的每个子主题中分类分数最高的子主题；根据所述第一子主题的下一层级的每个子主题的二进制分类器确定所述第二文本主题的第二子主题，所述第二子主题为所述第一子主题的下一层级的每个子主题中分类分数最高的子主题，直至获取到最后层级的子主题，并将所述最后层级的子主题作为所述目标文本的目标分类类别。2CN114186057A权利要求书2/2页6.根据权利要求5所述的方法，其特征在于，所述将所述最后层级的子主题作为所述目标文本的目标分类类别之后包括：将所述第一父主题至所述最后层级的子主题的分类分数合并，以得到所述目标文本基于所述目标分类类别的总分类分数。7.根据权利要求1所述的方法，其特征在于，所述将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系之后包括：根据所述第一映射关系获取所述第一文本主题基于所述预设分类方案的预设分类号。8.根据权利要求1所述的方法，其

相关资料

基于多类型文本的自动分类方法、装置、设备和存储介质.pdf

本发明实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括：获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别

2023-07-24

1.6MB

基于多模型的证件分类方法、装置、设备和存储介质.pdf

本申请涉及人工智能技术领域，提供一种基于多模型的证件分类方法、装置、设备和存储介质，方法包括：获取待处理的证件图像；调用预先训练好的预设数量的证件分类模型，并获取各证件分类模型的分类精确度；根据分类精确度，从所有证件分类模型中筛选出满足预设条件的目标证件分类模型；将证件图像输入至各目标证件分类模型中，获取各目标证件分类模型分别输出的与证件图像对应的多种证件类型的概率数值；基于所有概率数值，确定出与证件图像对应的目标证件类型。本申请能够有效提高对待处理的证件图像的识别准确率。本申请还可以应用于区块链领域，上

2023-07-25

574KB

基于多模态表示的视频分类方法、装置和设备及存储介质.pdf

本申请公开了一种基于多模态表示的视频分类方法、装置和设备及存储介质，涉及人工智能技术领域，用于降低模型学习的难度，提升模型训练效率。该方法包括：将目标视频的各个模态的数据信息输入至已训练的目标多模态视频表示模型；获得目标多模态视频表示模型输出的目标视频在目标业务场景的视频业务类别；其中，目标多模态视频表示模型是基于各个模态各自对应的基础视频数据样本集合进行视频域的适应性预训练，并基于目标业务场景中各个模态各自对应的视频业务数据样本集合进行再训练获得的，每一基础视频数据样本集合包括各个视频对应于同一模态的基

2023-07-25

1.5MB

文本分类方法及装置、设备、存储介质.pdf

本申请实施例公开了一种文本分类方法及装置、设备、存储介质;其中,所述方法包括:确定与待分类文本的原始词的相似度大于阈值的概念词,从而得到概念词集;对所述概念词集进行映射处理,得到第一特征矩阵;对所述待分类文本进行映射处理,得到第二特征矩阵;根据所述概念词集、以及所述第一特征矩阵和所述第二特征矩阵,识别所述待分类文本的类别。如此,能够提高对待分类文本类别的识别准确度。

2023-04-19

912KB

基于评论数据的文本分类方法及装置、设备和介质.pdf

本公开是关于一种基于评论数据的文本分类方法及装置、设备以及介质，涉及自然语言处理技术领域，可以应用于对文本数据进行分类的场景。该基于评论数据的文本分类方法包括：获取评论数据，对评论数据进行文本预处理，以生成待处理分词数据；对待处理分词数据进行词向量化处理，以生成对应的词向量表示数据；将词向量表示数据输入至目标语言表示模型，以生成对应的句子向量表示数据；将句子向量表示数据分别输入至第一分类模型和第二分类模型，由第一分类模型确定评论数据是否属于问题文本数据，以及由第二分类模型确定评论数据对应的问题类型分类。本

2023-06-14

925KB