预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113672736A(43)申请公布日2021.11.19(21)申请号202111057725.0G06N20/00(2019.01)(22)申请日2021.09.09(71)申请人上海德拓信息技术股份有限公司地址200233上海市徐汇区虹漕路448号1幢9楼(72)发明人王本强谢赟吴新野韩欣(74)专利代理机构上海中外企专利代理事务所(特殊普通合伙)31387代理人孙益青(51)Int.Cl.G06F16/35(2019.01)G06F40/216(2020.01)G06F40/242(2020.01)G06F40/284(2020.01)G06F40/289(2020.01)权利要求书3页说明书10页附图2页(54)发明名称一种文本多标签分类方法及系统(57)摘要本发明公开了一种文本多标签分类方法及系统,方法包含:获取目标文本数据及其标注标签并处理得到文本数据及其标注标签;将文本数据进行数据增广;对增广后的文本数据及其标注标签构建深度学习模型;将待处理数据输入深度学习模型中获取待处理数据的标签数据;对标签数据进行判别处理得到待处理数据的标注标签;系统包含数据处理模块获取目标文本数据及其标注标签并处理得到文本数据及其标注标签;数据增广模块对文本数据进行数据增广;深度学习模型构建模块用于构建深度学习模型,还用于获取待处理数据并输入深度学习模型中获取待处理数据的标签数据;判别处理模块用于对标签数据进行判别得到待处理数据的标注标签。CN113672736ACN113672736A权利要求书1/3页1.一种文本多标签分类方法,其特征在于,包含以下步骤:步骤A1:获取目标文本数据及其标注标签并对目标文本数据及其标注标签进行处理得到文本数据及其标注标签;步骤A2:将文本数据进行数据增广;步骤A3:对增广后的文本数据及其标注标签构建深度学习模型;步骤A4:将待处理数据输入深度学习模型中获取待处理数据的标签数据;步骤A5:对标签数据进行判别处理得到待处理数据的标注标签。2.如权利要求1所述的一种文本多标签分类方法,其特征在于,所述步骤A1中对目标文本数据及其标注标签进行处理的步骤如下:步骤B1:采用python工具或ETL工具对目标文本数据及其标注标签进行重复数据和异常数据的去除;步骤B2:将目标文本数据的标注标签进行层级结构拆分得到标签链;步骤B3:在标签链中获取目标文本数据标注标签的父标签并标注在该目标文本数据上得到文本数据及其标注标签;步骤A2中对文本数据进行数据增广的步骤如下:步骤C1:统计目标文本数据中各个标注标签的数据量;步骤C2:根据各个标注标签数据量的大小进行统计;步骤C3:根据统计数据对数据量小的标注标签对应的文本数据进行增广;步骤A3中对增广后的文本数据构建深度学习模型的步骤如下:步骤D1:将所有标签一一映射为不同且唯一的数字索引,构建标签到数字索引的字典,数字索引到标签的字典,数字索引的选取需为非负整数;步骤D2:根据标签到数字索引的字典将文本数据中的所有标注标签转换为对应的数字索引;步骤D3:根据文本数据与数字索引构建深度学习模型;步骤A4中将待处理数据输入深度学习模型中获取待处理数据的标签数据;步骤E1:获取待处理数据并输入深度学习模型中获取待处理数据的数字索引;步骤E2:根据数字索引到标签的字典取得待处理数据的标签数据;步骤A5中对标签数据进行判别处理得到待处理数据的标注标签的步骤如下:步骤F1:根据标签链获取待处理数据每一个标签的父标签或子标签;步骤F2:判断父标签或子标签是否在步骤E2中处理数据的标签内;若在则保留该标签;若不在则删除该标签;步骤F3:输出步骤F2得到的所有标签得到待处理数据的标注标签。3.如权利要求2所述的一种文本多标签分类方法,其特征在于,所述步骤B1中的异常数据包含空文本、未标注文本、非中英文文本、乱码文本;步骤C3中增广的方法包含同义词替换、随机插入、随机交换、随机删除、汉英互译中的一种或几种并按照1:1:1:1:1的方式进行增广;所述同义词替换具体为在句子中随机选取n个非停用词,对选取的每个非停用词用随机选取的同义词替换;2CN113672736A权利要求书2/3页所述随机插入具体为在句子中任意找一个非停用词,随机选一个它的同义词,插入句子中的任意位置,重复n次;所述随机交换具体为任意选取句子中的两个词并交换位置,重复n次;所述随机删除具体为对于句子中概率为p的每一个词,随机删除,p为(0,1)区间中的实数;所述汉英互译具体为利用翻译工具将汉语文本翻译成英文文本,再翻译回汉语文本。4.如权利要求1‑3任一项所述的一种文本多标签分类方法,其特征在于,步骤D3中还包含对构建的所述深度学习模型进行FGM加入;F