一种文本多标签分类方法及系统-豆柴文库

一种文本多标签分类方法及系统.pdf

2023-07-25

10金币

630KB

16页

一吃****瀚文

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113672736A(43)申请公布日2021.11.19(21)申请号202111057725.0G06N20/00(2019.01)(22)申请日2021.09.09(71)申请人上海德拓信息技术股份有限公司地址200233上海市徐汇区虹漕路448号1幢9楼(72)发明人王本强谢赟吴新野韩欣(74)专利代理机构上海中外企专利代理事务所(特殊普通合伙)31387代理人孙益青(51)Int.Cl.G06F16/35(2019.01)G06F40/216(2020.01)G06F40/242(2020.01)G06F40/284(2020.01)G06F40/289(2020.01)权利要求书3页说明书10页附图2页(54)发明名称一种文本多标签分类方法及系统(57)摘要本发明公开了一种文本多标签分类方法及系统，方法包含：获取目标文本数据及其标注标签并处理得到文本数据及其标注标签；将文本数据进行数据增广；对增广后的文本数据及其标注标签构建深度学习模型；将待处理数据输入深度学习模型中获取待处理数据的标签数据；对标签数据进行判别处理得到待处理数据的标注标签；系统包含数据处理模块获取目标文本数据及其标注标签并处理得到文本数据及其标注标签；数据增广模块对文本数据进行数据增广；深度学习模型构建模块用于构建深度学习模型，还用于获取待处理数据并输入深度学习模型中获取待处理数据的标签数据；判别处理模块用于对标签数据进行判别得到待处理数据的标注标签。CN113672736ACN113672736A权利要求书1/3页1.一种文本多标签分类方法，其特征在于，包含以下步骤：步骤A1：获取目标文本数据及其标注标签并对目标文本数据及其标注标签进行处理得到文本数据及其标注标签；步骤A2：将文本数据进行数据增广；步骤A3：对增广后的文本数据及其标注标签构建深度学习模型；步骤A4：将待处理数据输入深度学习模型中获取待处理数据的标签数据；步骤A5：对标签数据进行判别处理得到待处理数据的标注标签。2.如权利要求1所述的一种文本多标签分类方法，其特征在于，所述步骤A1中对目标文本数据及其标注标签进行处理的步骤如下：步骤B1：采用python工具或ETL工具对目标文本数据及其标注标签进行重复数据和异常数据的去除；步骤B2：将目标文本数据的标注标签进行层级结构拆分得到标签链；步骤B3：在标签链中获取目标文本数据标注标签的父标签并标注在该目标文本数据上得到文本数据及其标注标签；步骤A2中对文本数据进行数据增广的步骤如下：步骤C1：统计目标文本数据中各个标注标签的数据量；步骤C2：根据各个标注标签数据量的大小进行统计；步骤C3：根据统计数据对数据量小的标注标签对应的文本数据进行增广；步骤A3中对增广后的文本数据构建深度学习模型的步骤如下：步骤D1：将所有标签一一映射为不同且唯一的数字索引，构建标签到数字索引的字典，数字索引到标签的字典，数字索引的选取需为非负整数；步骤D2：根据标签到数字索引的字典将文本数据中的所有标注标签转换为对应的数字索引；步骤D3：根据文本数据与数字索引构建深度学习模型；步骤A4中将待处理数据输入深度学习模型中获取待处理数据的标签数据；步骤E1：获取待处理数据并输入深度学习模型中获取待处理数据的数字索引；步骤E2：根据数字索引到标签的字典取得待处理数据的标签数据；步骤A5中对标签数据进行判别处理得到待处理数据的标注标签的步骤如下：步骤F1：根据标签链获取待处理数据每一个标签的父标签或子标签；步骤F2：判断父标签或子标签是否在步骤E2中处理数据的标签内；若在则保留该标签；若不在则删除该标签；步骤F3：输出步骤F2得到的所有标签得到待处理数据的标注标签。3.如权利要求2所述的一种文本多标签分类方法，其特征在于，所述步骤B1中的异常数据包含空文本、未标注文本、非中英文文本、乱码文本；步骤C3中增广的方法包含同义词替换、随机插入、随机交换、随机删除、汉英互译中的一种或几种并按照1:1:1:1:1的方式进行增广；所述同义词替换具体为在句子中随机选取n个非停用词，对选取的每个非停用词用随机选取的同义词替换；2CN113672736A权利要求书2/3页所述随机插入具体为在句子中任意找一个非停用词，随机选一个它的同义词，插入句子中的任意位置，重复n次；所述随机交换具体为任意选取句子中的两个词并交换位置，重复n次；所述随机删除具体为对于句子中概率为p的每一个词，随机删除，p为(0,1)区间中的实数；所述汉英互译具体为利用翻译工具将汉语文本翻译成英文文本，再翻译回汉语文本。4.如权利要求1‑3任一项所述的一种文本多标签分类方法，其特征在于，步骤D3中还包含对构建的所述深度学习模型进行FGM加入；F

相关资料

一种文本多标签分类方法及系统.pdf

本发明公开了一种文本多标签分类方法及系统，方法包含：获取目标文本数据及其标注标签并处理得到文本数据及其标注标签；将文本数据进行数据增广；对增广后的文本数据及其标注标签构建深度学习模型；将待处理数据输入深度学习模型中获取待处理数据的标签数据；对标签数据进行判别处理得到待处理数据的标注标签；系统包含数据处理模块获取目标文本数据及其标注标签并处理得到文本数据及其标注标签；数据增广模块对文本数据进行数据增广；深度学习模型构建模块用于构建深度学习模型，还用于获取待处理数据并输入深度学习模型中获取待处理数据的标签数据

2023-07-25

630KB

一种基于softmax的文本多标签分类方法.pdf

本发明提供一种基于softmax的文本多标签分类方法，包括：文本预处理、文本特征向量提取、模型设计、模型训练、模型评估、模型应用，本发明使用bert模型提取句子特征向量，在使用双向门控循环单元和注意力模型构建训练网络，网络使用softmax作为激活函数而非sigmoid，同时使用配合softmax的改良交叉熵损失函数，提高负样本的学习效率，“softmax+交叉熵”没有类别不均衡的问题，因为它不是将多标签分类变成多个二分类问题，而是变成目标类别得分与非目标类别得分的两两比较，并且能够借助于LogSumEx

2023-07-25

522KB

一种基于图深度学习的文本多标签分类方法和系统.pdf

本发明公开了基于图深度学习的文本多标签分类方法和系统,在金融领域少标注样本且标签间存在业务关联的前提下,依靠基于图深度学习的文本分类方法,自动化解决文本多标签分裂问题。其技术方案为:对原始采集数据进行预处理并进行文本向量化的处理,基于中文分词后转化为文本向量;对文本向量化结果,使用多标签注意力网络提取文本特征,最终得到文本特征提取结果;在文本特征提取的基础上,构建图语义交互层,得到融合图语义交互层的混合文本向量化的结果;在融入语义交互层的文本向量化表示基础上,采用特定损失函数训练模型进行训练,得到输入文本

2023-05-18

783KB

一种基于海量信息的标签分类方法及系统.pdf

本发明公开了一种基于海量信息的标签分类方法及系统，包括：将训练图片通过分类模型进行分类预估，识别出训练图片的至少一组第一标签及对应的第一置信度；分别将第一置信度与预设阈值进行比较，若第一置信度大于预设阈值，则保存对应的第一标签；将测试图片通过分类模型进行分类预估，识别出测试图片的至少一组第二标签及对应的第二置信度；若至少一个第二标签与已保存的第一标签相同，则判断测试图片为分类模型支持分类的图片。本发明能够提供一种更精准、更细颗粒度的匹配，将商品图片经过分类模型抽取图片标签与置信度，根据图片标签和置信度判断

2023-11-26

375KB

基于标签相关性的文本多标签分类算法的研究.docx

基于标签相关性的文本多标签分类算法的研究基于标签相关性的文本多标签分类算法的研究摘要：随着互联网技术的发展，海量的文本数据不断涌现出来。对这些文本数据进行准确地分类和标记，对于提高信息检索、文本推荐以及其他自然语言处理任务的效果非常重要。尤其是在多标签分类任务中，需要为每个文本样本分配多个标签，更需要提高准确性。本文提出一种基于标签相关性的文本多标签分类算法，通过分析标签之间的关联性，提高分类准确性和效果。1.引言在多标签分类任务中，每个文本样本可以对应多个标签，而传统的单标签分类算法无法有效地处理多标签

2024-10-18

10KB