预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110472063A(43)申请公布日2019.11.19(21)申请号201910629775.8(22)申请日2019.07.12(71)申请人新华三大数据技术有限公司地址450000河南省郑州市高新技术产业开发区杜英街166号总部大观B18号楼(72)发明人王李鹏(74)专利代理机构北京超成律师事务所11646代理人吴迪(51)Int.Cl.G06F16/36(2019.01)G06Q50/00(2012.01)权利要求书4页说明书18页附图6页(54)发明名称社交媒体数据处理方法、模型训练方法及相关装置(57)摘要本发明实施例涉及自然语言处理技术领域,提供一种社交媒体数据处理方法、模型训练方法及相关装置,先将获取到的社交媒体数据预处理为多个待识别序列;再将每一待识别序列输入训练后的实体识别模型,先利用嵌入层得到待识别序列的嵌入序列,之后将嵌入序列输入动态神经网络层进行多轮特征提取及序列预测,得到动态神经网络层输出的所有实体序列,再根据所有实体序列得到待识别序列中的所有基本实体和嵌套实体;最后依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。与现有技术相比,本发明实施例能够得到社交媒体数据中的所有基本实体和嵌套实体,进而帮助人们快速知晓当前社会的最新动态及热点事件。CN110472063ACN110472063A权利要求书1/4页1.一种社交媒体数据处理方法,其特征在于,所述方法包括:获取社交媒体数据,并对所述社交媒体数据进行预处理,得到多个待识别序列;将每一待识别序列输入训练后的实体识别模型,所述实体识别模型包括嵌入层及动态神经网络层;利用所述嵌入层得到所述待识别序列的嵌入序列,所述嵌入序列包括所述待识别序列中每个词的嵌入向量;将所述嵌入序列作为输入序列输入所述动态神经网络层进行特征提取及序列预测,输出实体序列,其中,所述实体序列包括多个实体信息;在当前输出的实体序列中所有的实体信息未全部表征非实体时,依据当前输出的实体序列重新确定输入序列,并重复执行将所述输入序列输入所述动态神经网络层进行特征提取及序列预测的步骤,直至当前输出的实体序列中所有的实体信息均表征非实体,得到所述动态神经网络层输出的所有实体序列;依据所有实体序列,生成所述待识别序列对应的实体结果,其中,所述实体结果包括所述待识别序列中的所有基本实体和嵌套实体;依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。2.如权利要求1所述的方法,其特征在于,所述动态神经网络层包括迭代空洞卷积神经网络IDCNN层和标签预测层;所述将所述嵌入序列作为输入序列输入所述动态神经网络层进行特征提取及序列预测,输出实体序列的步骤,包括:将所述嵌入序列作为输入序列输入IDCNN层,利用所述IDCNN层对所述输入序列进行特征提取,得到特征序列;将所述特征序列输入所述标签预测层,输出实体序列;所述在当前输出的实体序列中所有的实体信息未全部表征非实体时,依据当前输出的实体序列重新确定输入序列的步骤,包括:在当前输出的实体序列中所有的实体信息未全部表征非实体时,依据当前输出的实体序列,对与当前输出的实体序列对应的特征序列进行修正,得到修正后的特征序列,并将所述修正后的特征序列作为输入序列。3.如权利要求2所述的方法,其特征在于,所述标签预测层包括前馈神经网络层和条件随机场CRF层;所述将所述特征序列输入所述标签预测层,输出实体序列的步骤,包括:将所述特征序列输入所述前馈神经网络层,通过所述前馈神经网络层对所述特征序列进行学习,得到所述待识别序列的所有预测序列及每个预测序列的初始得分,其中,每个预测序列均包括多个所述待识别序列中每个词的实体信息,所述初始得分包括所述待识别序列中每个词被预测为一个实体信息的概率之和;将每个预测序列的初始得分输入CRF层,通过所述CRF层引入概率转移矩阵,计算出每个预测序列的总得分,其中,所述概率转移矩阵表征由一个实体信息转移到另一个实体信息的概率;将总得分最高的预测序列作为所述待识别序列的实体序列。4.如权利要求2所述的方法,其特征在于,所述特征序列包括所述待识别序列中每个词2CN110472063A权利要求书2/4页的特征向量;所述依据当前输出的实体序列,对与当前输出的实体序列对应的特征序列进行修正,得到修正后的特征序列的步骤,包括:从当前输出的实体序列中确定出表征同一实体的所有目标实体信息;在与当前输出的实体序列对应的特征序列中,将与所有目标实体信息对应的目标特征向量进行合并,得到修正后的特征序列。5.如权利要求1所述的方法,其特征在于,所述依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果的步骤,包括:依据所有待识别序