预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115221320A(43)申请公布日2022.10.21(21)申请号202210837961.2(22)申请日2022.07.16(71)申请人太原科技大学地址030024山西省太原市万柏林区窊流路66号(72)发明人郭宏徐壮侯文闫炳南冒源原超(51)Int.Cl.G06F16/35(2019.01)G06F16/33(2019.01)G06F40/258(2020.01)G06F40/289(2020.01)G06N3/04(2006.01)G06Q10/10(2012.01)权利要求书2页说明书6页附图2页(54)发明名称一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统(57)摘要本发明公开了一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统,分类方法包括:获取求职人员简历文本,进行分词与停用词去除操作;由文本序列字典,将词语转化为对应的序列后经过词嵌入操作,将词语向量化,获得简历文本的向量表示;对输入文本各个时间步上的词语提取隐藏状态,获得包含上下文语义的向量编码;解码过程中引入注意力机制,使得每个时间步的输出关注输入时的不同内容,实现多标签输出;获取输出中概率最大作为最终的输出序列,通过反转字典,将输出序列转化为预测的各行业标签,实现多标签简历的行业分类。本发明可以解决目前的算法不能很好地通过简历信息提取来划分该简历所属人员能够适应的所有行业类别的问题。CN115221320ACN115221320A权利要求书1/2页1.一种基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:将简历文本转化为向量作为输入,将包含了简历信息的行业标签作为预测输出,包括以下步骤:步骤S1、获取求职人员简历中的工作经历部分文本,根据专业词表以及停用词表进行分词以及停用词去除操作;步骤S2、对分词后的简历文本中出现的每个单词以及行业标签建立由词对应序列的字典后,通过词嵌入技术对分词后的简历文本进行词嵌入操作,获得简历文本的词向量表示;步骤S3、编码阶段将文本向量输入到双向门控循环神经网络,获得各个时间步上的隐藏状态以及整个简历文本在编码阶段的输出;步骤S4、将编码阶段的隐藏状态输出作为解码阶段隐藏状态的初始输入,输入到门控循环神经网络,使用teacherforcing加速收敛,引入注意力机制关注句子重点内容;步骤S5、通过beamsearch方法获得输出概率最大的序列,并通过反转字典转化为对应的标签,实现多标签简历的行业分类。2.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述步骤S3中,先将向量化后的简历文本输入到双向门控循环神经网络,获得正向隐藏状态以及反向的隐藏状态,再将正向与反向的隐藏状态进行拼接,得到当前时间步上的状态,获得最后时间步上的隐藏状态输出后,通过一个线性层和一个激活函数获得编码阶段的输出。3.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述步骤S4中,门控循环神经网络中,每个时间步的输入为上一个时间步引入注意力机制得到的输出;隐藏状态输入为上一时间步的隐藏状态输出。teacherforcing方法以一定概率将上一时间步的真实标签代替预测标签传入下一时间步,加速收敛。4.根据权利要求3所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述引入注意力机制得到输出的计算包括:由解码阶段该时间步上的隐藏状态与编码阶段每个时间步的隐藏状态进行注意力得分计算后,归一化得到注意力权重并加权求和得到该时间步的上下文向量contextvector,将该向量与该时刻的隐藏状态进行拼接,经全连接层与激活函数后得到输出。5.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述步骤S5中,使用beamsearch确保每次输出都保留固定个数的最大概率序列,输出完成后,取最大概率的结果作为最终预测序列,通过反转字典将其转化为对应的行业标签。6.一种基于注意力机制Seq2Seq多标签简历的行业分类系统,其特征在于:包括:文本预处理模块:用于简历文本句子按照词语进行分词操作,将简历文本中出现的专业性词汇以及习惯用于准确分割出来;将出现的次数多的无意义的词语删除,较少这类词语对句子语义的影响,提高模型分类的准确性。词嵌入模块:用于将简历文本转换为可输入神经网络训练的向量,在训练集中,将每一个分词后的结果转化为一个序列,保存字典,再由序列转化为向量,实现由词语转化为向量;根据训练好的词嵌入模型对预处理后的简历文本进行词嵌入操作,获得简历文本的向量表示。编码模块:用于将向量化表示后的简历文本输入到双向门控循环神经