预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111400606A(43)申请公布日2020.07.10(21)申请号202010487053.6(22)申请日2020.06.02(71)申请人江苏省质量和标准化研究院地址210029江苏省南京市石鼓路227号(72)发明人张天龙殷姣马世申(74)专利代理机构南京经纬专利商标代理有限公司32200代理人朱小兵(51)Int.Cl.G06F16/9535(2019.01)G06Q30/06(2012.01)G06N3/04(2006.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于全局和局部信息抽取的多标签分类方法(57)摘要本发明提供了一种基于全局和局部信息抽取的多标签分类方法,包括如下步骤:S10、通过文本数据获取词汇表,并获得所有词以及所有所述候选标签的分布式表示;S20、经计算获得所有所述词的综合全局编码结果和局部求和结果;S30、将全局编码和局部求和结果进行加权求和,获得求和结果,将每个所述候选标签的分布式表示依次与所述求和结果计算内积,获得每个所述候选标签的概率;以及S40、保留所有概率大于0.5的所述候选标签作为选中标签,输出结果。本发明的一种基于全局和局部信息抽取的多标签分类方法,通过全局和局部信息的抽取,对输入文本进行不同维度的数据处理,进一步提升数据编码的准确性,提升分类的精度。CN111400606ACN111400606A权利要求书1/1页1.一种基于全局和局部信息抽取的多标签分类方法,其特征在于,包括如下步骤:S10、对电商应用场景中的关于缺陷产品的文本数据进行预处理,建立词汇表,将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id;通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示;S20、使用双向长短时记忆网络作为所述词的全局和局部编码器,经计算获得所有所述词的综合全局编码结果和局部求和结果;S30、将全局编码和局部求和结果进行加权求和,获得求和结果,将每个所述候选标签的分布式表示依次与所述求和结果计算内积,每个所述候选标签对应的内积即为每个所述候选标签的分数,将所有所述候选标签的分数归一化后,获得每个所述候选标签的概率;以及S40、保留所有概率大于0.5的所述候选标签作为选中标签,并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列,输出结果。2.根据权利要求1所述的一种基于全局和局部信息抽取的多标签分类方法,其特征在于,所述步骤S20包括:S21将当前所有所述词通过全局编码器得到全局编码结果;以及S22将当前所有所述词通过第i个类别的局部编码器,得到K个局部编码结果,将K个所述局部编码结果进行对应列求和,获得局部求和结果;其中,K为局部编码器的数量,i∈[1,K],所述局部编码结果以及所述全局编码结果为一个行向量。3.根据权利要求2所述的一种基于全局和局部信息抽取的多标签分类方法,其特征在于,所述步骤S30包括:S31将所述全局编码结果和所述局部求和结果进行加权求和,获得求和结果;以及S32将第j个所述候选标签对应的分布式表示与所述求和结果计算内积,计算结果代表第j个所述候选标签在当前所述文本数据的分数,将N个所述候选标签的分数归一化后,获得每个所述候选标签的概率;其中,所述全局编码结果的权值为a,所述局部求和结果的权值为1-a,a是一个可学习的参数,且为标量,满足a∈[0,1],j∈[1,N],N为所述候选标签的总数量。4.根据权利要求1所述的一种基于全局和局部信息抽取的多标签分类方法,其特征在于,所述预处理包括文本分词和过滤停用词,所述文本分词为将一个所述文本数据切分成一个一个单独的词,所述停用词为不能表达产品缺陷的词。5.根据权利要求3所述的一种基于全局和局部信息抽取的多标签分类方法,其特征在于,所述步骤S10还包括依据所述文本数据中所有词的词频,将出现频率大于20%的词保存到词汇表中,过滤出不在词汇表中的词;通过众包的方式为所述文本数据标注对应的所述候选标签,每个所述候选标签为一种缺陷的具体类别;所述词汇表中包含所述候选标签的标签id以及所述文本数据中所述词对应的词汇id。2CN111400606A说明书1/4页一种基于全局和局部信息抽取的多标签分类方法技术领域[0001]本发明涉及数据处理技术领域,具体涉及一种基于全局和局部信息抽取的多标签分类方法。背景技术[0002]随着互联网的发展以及人工智能时代的到来,信息交流变得日益频繁,使得信息总量有着巨大增长。在电子商务广泛应用的背景下,背后的各大电商平台的海量数据将具有不可估计的挖掘价值。虽然电子商务发展迅猛,但是也存在着不少问题。其中一个重要的问题就是电子商务产品质量。[0003]在电