预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113836257A(43)申请公布日2021.12.24(21)申请号202111192582.4(22)申请日2021.10.13(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新区望江西路666号(72)发明人李锐丁克玉刘权陈志刚(74)专利代理机构北京集佳知识产权代理有限公司11227代理人付丽(51)Int.Cl.G06F16/31(2019.01)G06F16/33(2019.01)G06F40/284(2020.01)权利要求书3页说明书12页附图2页(54)发明名称一种热词挖掘方法、装置、设备及存储介质(57)摘要本申请提供了一种热词挖掘方法、装置、设备及存储介质,方法包括:获取目标文本中标题的表达向量,其中,目标文本包含所述标题和所述标题对应的正文;利用标题的信息确定正文中每个词对于正文表达的贡献度,并根据正文中每个词对于正文表达的贡献度确定正文的表达向量;根据标题的表达向量和正文的表达向量生成热词。本申请提供的热词挖掘方法能够及时挖掘出热词,且不涉及安全性和隐私性问题。CN113836257ACN113836257A权利要求书1/3页1.一种热词挖掘方法,其特征在于,包括:获取目标文本中标题的表达向量,其中,所述目标文本包含所述标题和所述标题对应的正文;利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量;根据所述标题的表达向量和所述正文的表达向量生成热词。2.根据权利要求1所述的热词挖掘方法,其特征在于,所述获取目标文本中标题的表达向量,包括:获取所述标题的分词结果;针对所述标题的分词结果中的每个词,获取该词的词向量以及该词中每个字的字向量,并根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量;根据所述标题的分词结果中各个词的字词结合向量,确定所述标题的表达向量。3.根据权利要求2所述的热词挖掘方法,其特征在于,所述获取所述标题的分词结果,包括:采用多种不同的分词方式对所述标题进行分词处理,以得到所述标题的多种分词结果;根据所述标题的多种分词结果中的交集部分,对所述标题进行分词,得到的分词结果作为所述标题的最终分词结果。4.根据权利要求2所述的热词挖掘方法,其特征在于,所述根据该词的词向量以及该词中每个字的字向量确定能够表征该词的词级别语义信息和字级别语义信息的字词结合向量,包括:确定该词中各个字的字向量的平均值,以得到该词的平均字向量;将该词的词向量与该词的平均字向量融合,融合后向量作为该词的字词结合向量。5.根据权利要求1所述的热词挖掘方法,其特征在于,所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量,包括:获取所述正文的分词结果,并确定所述正文的分词结果中每个词的字词结合向量,其中,一个词的字词结合向量能够表征该词的词级别语义信息和字级别语义信息;利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度;根据所述正文的分词结果中每个词对于正文表达的贡献度以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的表达向量。6.根据权利要求5所述的热词挖掘方法,其特征在于,所述利用所述标题的表达向量、所述标题的分词结果中每个词在所述正文中的位置信息以及所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词对于正文表达的贡献度,包括:根据所述标题的表达向量和所述正文的分词结果中每个词的字词结合向量,确定所述正文的分词结果中每个词与所述标题的相关度得分;2CN113836257A权利要求书2/3页根据所述正文的分词结果中每个词的位置信息以及对应的标题词在所述正文中的位置信息,确定所述正文的分词结果中每个词与对应的标题词的相对距离,其中,所述正文的分词结果中一个词对应的标题词为所述标题的分词结果中位于以该词为中心、以预设值为半径的范围内的词;根据所述正文的分词结果中每个词与所述标题的相关度得分和所述正文的分词结果中每个词与对应的标题词的相对距离,确定所述正文的分词结果中每个词对于正文表达的贡献度。7.根据权利要求1所述的热词挖掘方法,其特征在于,所述获取目标文本中标题的表达向量,所述利用所述标题的信息确定所述正文中每个词对于正文表达的贡献度,并根据所述正文中每个词对于正文表达的贡献度确定所述正文的表达向量,以及所述根据所述标题的表达向量和所述正文的表达向量生成热词,包括:利用预先建立的热