预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113688911A(43)申请公布日2021.11.23(21)申请号202110989565.7G06N3/08(2006.01)(22)申请日2021.08.26(71)申请人安徽咪鼠科技有限公司地址230011安徽省合肥市高新区习友路3333号中国(合肥)国际智能语音产业园研发中心楼310室(72)发明人王康冯海洪毛德平(74)专利代理机构昆明合众智信知识产权事务所53113代理人孙悦(51)Int.Cl.G06K9/62(2006.01)G06F40/289(2020.01)G06F40/211(2020.01)G06N3/04(2006.01)权利要求书2页说明书5页附图4页(54)发明名称一种基于softmax的文本多标签分类方法(57)摘要本发明提供一种基于softmax的文本多标签分类方法,包括:文本预处理、文本特征向量提取、模型设计、模型训练、模型评估、模型应用,本发明使用bert模型提取句子特征向量,在使用双向门控循环单元和注意力模型构建训练网络,网络使用softmax作为激活函数而非sigmoid,同时使用配合softmax的改良交叉熵损失函数,提高负样本的学习效率,“softmax+交叉熵”没有类别不均衡的问题,因为它不是将多标签分类变成多个二分类问题,而是变成目标类别得分与非目标类别得分的两两比较,并且能够借助于LogSumExp的良好性质,自动平衡了每一项的权重,准备语料时更加容易,并且大大精简了调参过程。CN113688911ACN113688911A权利要求书1/2页1.一种基于softmax的文本多标签分类方法,其特征在于,包括以下步骤:S1:文本预处理,对文本进行预处理,修剪成长短一致的文本,标注标签;S2:文本特征向量提取,使用预训练语言模型对文本做向量化操作,得到文本句子向量;S3:模型设计,使用双向门控循环单元、注意力模型和全连接网络结构来构建训练网络;S4:模型训练,使用训练网络对多标签分类模型进行训练,根据每一次训练结束后的损失函数值及验证集准确率不断更新网络参数,不断提高模型的精度,直至得到一个准确度较高的模型;S5:模型评估,使用预处理后的文本对多标签分类模型进行评估,计算常见分类评价指标;S6:模型应用,将文本特征向量输入到已训练好的多标签分类模型中,得到分类结果和置信度。2.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S1中对文本进行预处理为创建训练集和测试集,将收集的语料按照一定比例加载到两个集合中,文本修剪成固定在256个字,文本超出则裁剪,文本不足则填0,标签利用sklearn中的MultiLabelBinarizer进行多标签编码标注。3.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S2中使用Chinese‑BERT‑wwm预训练语言模型作为句子特征向量提取模型,获得768维的特征向量。4.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S3中训练网络模型具体为三层,第一层使用全连接网络结构作为输入层接收句子的特征向量,第二层使用双向的门控循环单元学习特征向量、更新参数;第三层使用注意力模型提高网络学习效率;第四层使用全连接网络结构来做为输出层。5.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S4中模型的训练中激活函数使用softmax,损失函数使用交叉熵。6.根据权利要求5所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S4中模型的训练使用以下公式来计算交叉熵来作为损失函数模型的训练具体采取语料分批训练,每一批次大小为128,将所有训练语料训练完成作为一个轮次,每次次训练共300轮次然后观察实时评测输出的准确率和损失值。7.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S5中对模型的分类评估使用precision、recall、f1‑score、microavg、macroavg和accuracy作为评价标准。8.根据权利要求1所述的一种基于softmax的文本多标签分类方法,其特征在于:所述步骤S6中模型使用具体为将文本特征向量输入到已训练好的多标签分类模型中,经过计算后,进入最后一层的全连接层映射到一个[0,1]区间内,标识此文本的在每个标签下的出现2CN113688911A权利要求书2/2页概率,若概率大于0.5则被认为此文本属于此标签,每个标签的概率单独计算,可同时属于多个标签。3CN113688911A说明书1/5页一种基于softmax的文本多标签分类方法技术领