预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113869037A(43)申请公布日2021.12.31(21)申请号202111137744.4(22)申请日2021.09.27(71)申请人北京航空航天大学地址100191北京市海淀区学院路37号(72)发明人李辉勇张邵良牛建伟刘雪峰(74)专利代理机构北京永创新实专利事务所11121代理人易卜(51)Int.Cl.G06F40/216(2020.01)G06F40/166(2020.01)G06F40/284(2020.01)G06F16/34(2019.01)G06F16/35(2019.01)权利要求书4页说明书12页附图3页(54)发明名称基于内容增强网络嵌入的主题标签表示学习方法(57)摘要本发明公开了一种基于内容增强网络嵌入的主题标签表示学习方法,属于自然语言处理领域;首先,根据实际需求获取英文的社交媒体数据和词嵌入模型,从中提取主题标签,用户产生内容和单词;然后搭建异构网络图,获取单词的向量空间以及用户产生内容的表示向量。针对每个存在单词节点与之相连的主题标签,通过节点采样策略获取训练样本,伙同单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型,输出各主题标签与训练样本中各元素间的概率分布,以最小化概率分布与经验分布的均方误差之和为目标,调整模型参数,最终输出主题标签嵌入矩阵即为主题标签的表示学习结果。本发明取得的主题标签表示向量的无监督聚类结果更符合主题分类。CN113869037ACN113869037A权利要求书1/4页1.一种基于内容增强网络嵌入的主题标签表示学习方法,其特征在于,具体包括:首先、根据实际需求获取英文的社交媒体数据和词嵌入模型,从中提取主题标签和包含主题标签的用户产生内容,并根据提取的主题标签中的文本从词嵌入模型的词表中提取单词;然后、将各主题标签,用户产生内容和单词分别作为一个节点,搭建异构网络图;并从词嵌入模型中获取异构网络图中单词的向量组成单词的向量空间,并利用表示模型获取用户产生内容的表示向量;接着、针对异构网络图中每个存在单词节点与之相连的主题标签,通过节点采样策略获取各主题标签对应的训练样本;将每个主题标签的训练样本,以及单词的向量空间和用户产生内容的表示向量同时输入多任务学习模型进行训练;利用多任务学习模型输出的各主题标签与训练样本中各元素间的概率分布,以最小化概率分布与经验分布的均方误差之和为目标,调整多任务学习模型中主题标签嵌入矩阵的参数和用户产生内容向量转换模块的参数;均方误差之和的计算公式为:L=Lhh+Lhw+Lhu其中,Lhh为训练样本中主题标签与主题标签的均方误差;Lhw为训练样本中主题标签与单词的均方误差;Lhu为训练样本中主题标签与用户产生内容的均方误差;均方误差计算公式分别为:其中,S为训练样本,为主题标签ht与主题标签hc的经验分布;p(ht,hc)为主题标签ht与主题标签hc的概率分布;为主题标签ht与单词w的经验分布;p(ht,w)为主题标签ht与单词w的概率分布;为主题标签ht与用户产生内容u的经验分布;p(ht,u)为主题标签ht与用户产生内容u的概率分布;最后,重复循环设定的次数后结束训练,最终调整完参数的多任务学习模型输出的主题标签嵌入矩阵,即为主题标签的表示学习结果,完成了主题标签的表示学习。2.如权利要求1所述的一种基于内容增强网络嵌入的主题标签表示学习方法,其特征在于,所述的用户产生内容是用户在社交媒体平台上发布的短文本、视频和图像;主题标签由标识符和文本组成;主题标签文本是由字母、下划线和数字组成的字符串,通常是标注用户产生内容的主题的字符、单词或无空格的一句话。3.如权利要求1所述的一种基于内容增强网络嵌入的主题标签表示学习方法,其特征在于,所述的搭建异构网络图具体过程为:步骤301、初始为每一个主题标签指定若干用户产生内容,并将两者相连;2CN113869037A权利要求书2/4页步骤302、逐个遍历各主题标签,首先判断主题标签的文本是否包含小写字母,如果是,将字母转换为小写形式后的文本,否则考察原始的文本;然后判断主题标签的文本内容长度是否大于2且存在于单词表,如果是,则将其添加至网络热词列表中;否则,不予处理;步骤303、利用分割函数将遍历的各主题标签分别分割为单词序列;具体为:首先,假设主题标签文本为通过字母大写标记单词首字母的句子,通过正则表达式将文本拆分成若干字符串,在各字符串之间插入空格字符将文本重新拼接;然后,移除位于主题标签文本首尾的数字和下划线,并用空格字符替换主题标签文本中间的数字和下划线;最后,根据空格字符将主题标签文本分割成若干单词,将内容长度大于2的单词添加至单词序列;步骤304、判断单词序列的长度是否大于1,