预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共47页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114168709A(43)申请公布日2022.03.11(21)申请号202111466873.8(22)申请日2021.12.03(71)申请人中国人民解放军国防科技大学地址410073湖南省长沙市开福区德雅路109号(72)发明人黄震王安坤陈一凡郭敏王博阳方群天刘锋李东升(74)专利代理机构湖南企企卫知识产权代理有限公司43257代理人任合明(51)Int.Cl.G06F16/33(2019.01)G06F16/35(2019.01)G06K9/62(2022.01)权利要求书13页说明书31页附图2页(54)发明名称一种基于轻量化预训练语言模型的文本分类方法(57)摘要本发明公开了一种基于轻量化预训练语言模型的文本分类方法,目的是在占用资源少的前提下提高文本分类准确率。技术方案是:构建基于预训练语言模型的文本分类模型,包括教师模型和学生模型;将GLUE数据集处理为文本分类模型进行分类时需要的格式;对教师模型进行参数初始化,采用处理好的GLUE数据集对教师模型进行微调;接着对学生模型进行参数初始化,采用GLUE数据集使用知识蒸馏方法轻量化微调后的教师模型,得到学生模型的网络权重参数;使用学生模型网络权重参数初始化学生模型,得到轻量化的学生模型;最后使用轻量化的学生模型对用户输入文本进行文本分类,得到分类结果。本发明实现了在占有资源少的前提下文本分类准确率高。CN114168709ACN114168709A权利要求书1/13页1.一种基于轻量化预训练语言模型的文本分类方法,其特征在于包括以下步骤:第一步:构造基于预训练语言模型的文本分类模型,包括教师模型和学生模型,两个模型相互独立;教师模型由文本嵌入层,文本特征提取层,分类层组成;文本嵌入层由三个全连接层组成,分类层由一个全连接层组成,文本特征提取层由12个transformer层组成;教师模型的文本嵌入层从文件接收训练集T,T={s1,s2,…,sa,…,sA},sa表示T中第a个样本;文本嵌入层对T中的样本s1,s2,…,sa,…,sA进行文本嵌入转换,得到文本句子的嵌入向量表示集合E(T),E(T)={E(s1),E(s2),…,E(sa),…,E(sA)},E(sa)是sa的嵌入向量表示,将E(T)发送给文本特征提取层;教师模型的文本特征提取层从文本嵌入层接收E(T),对E(T)进行特征提取,得到文本语义特征集合F(T),F(T)={F(s1),F(s2),…,F(sa),…,F(sA)},F(sa)是sa的语义特征,将F(T)发送给分类层;教师模型的分类层从文本特征提取层接收F(T),对F(T)使用全连接层处理,得到分类结果概率分布集合R,R={R(s1),R(s2),…,R(sa),…,R(sA)};R(sa)为一维向量,单个向量值为样本属于对应类别的概率值,R(sa)的长度为分类结果数,最后根据极大似然原理,判定样本属于概率值最大的对应类别;学生模型由文本嵌入层,文本特征提取层,分类层组成;学生模型的文本嵌入层与教师模型的文本嵌入层相同、学生模型的分类层与教师模型的分类层相同;学生模型的文本特征提取层由6个transformer层组成,学生模型的文本特征提取层和教师模型的文本特征提取层的功能相同,输出向量的维度也相同,但两者transformer层的层数不同,对同一文本处理得到的文本语义特征集合不同;第二步:准备微调教师模型和轻量化教师模型需要的训练数据,并将训练数据转换成文本分类模型需要的输入格式;2.1从github下载GLUE官方提供的数据集下载脚本;2.2运行数据集下载脚本download_glue_data.py,运行结束得到GLUE数据集;选取GLUE数据集下的8个子数据集即:CoLA,SST‑2,RTE,MRPC,STS‑B,QNLI,QQP,MNLI;每个子数据集已划分好训练集,验证集;其中八个子数据集分为两类,CoLA和SST‑2属于单句分类,训练集和验证集样本的结构相同,形如样本P={s,lp},s表示一个英文句子,lp表示样本标签,lp是长度为分类结果数的独热编码,分类结果数各个数据集已事先规定;剩余六个数据集属于句子对分类;训练集和验证集的样本结构形如D={s1,s2,ld},由两个英文句子和一个样本标签组成,s1为英文句子1,s2为英文句子2,ld为样本标签,也是长度为分类结果数的独热编码;2.3对GLUE数据集的8个子数据集的训练集,验证集进行加标志预处理,方法如下:2.3.1对CoLA和SST‑2这两个单句分类数据集加标志,方法如下:2.3.1.1采用句首加标志方法对CoLA数据集中的训练集、验证集中每个样本加标志,得到记录CoLA训练集的处理结果文件