一种网络热点的挖掘方法、装置、设备及存储介质-豆柴文库

一种网络热点的挖掘方法、装置、设备及存储介质.pdf

2023-07-24

10金币

2MB

35页

元枫****文章

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共35页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114138968A(43)申请公布日2022.03.04(21)申请号202111485863.9(22)申请日2021.12.07(71)申请人腾讯科技（深圳）有限公司地址518064广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人徐灿杨迪刘绩刚(74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙)44285代理人石翰林(51)Int.Cl.G06F16/335(2019.01)G06F16/35(2019.01)G06F40/194(2020.01)G06F40/279(2020.01)权利要求书3页说明书19页附图12页(54)发明名称一种网络热点的挖掘方法、装置、设备及存储介质(57)摘要本申请实施例公开了一种网络热点的挖掘方法、装置、设备及存储介质，相关实施例可应用于云技术、人工智能以及智慧交通等各种场景，用于提高发现网络热点的准确性。本申请实施例方法包括：从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据，根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,从基础文本数据中获取包含有至少一个目标突发词的候选文本数据,对候选文本数据进行文本聚合处理，得到若干个目标文本类以及每个目标文本类中的若干个文本,根据目标文本类中的若干个目标文本生成主题词语，并将主题词语作为网络热点。CN114138968ACN114138968A权利要求书1/3页1.一种网络热点的挖掘方法，其特征在于，包括：从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据，其中，所述第一历史时段为历史日期中与所述目标时段为相同时间段的且相同时长的若干个时间段，所述第二历史时段为目标日期内所述目标时段之前的相同时长的若干个时间段；根据选词条件从所述基础文本数据、所述第一文本数据以及所述第二文本数据中确定若干个目标突发词；从所述基础文本数据中获取包含有至少一个所述目标突发词的候选文本数据；对所述候选文本数据进行文本聚类，得到若干个目标文本类以及每个所述目标文本类中的若干个文本；根据所述目标文本类中的若干个目标文本生成主题词语，并将所述主题词语作为所述网络热点，其中，所述主题词语用于表示所述目标文本类的主题类型。2.根据所述权利要求1所述的方法，其特征在于，所述从所述原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据，包括：将所述原始文本数据输入至文本识别模型，通过所述文本识别模型输出文本概率；根据所述文本概率对所述原始文本数据进行文本过滤，得到第一过滤文本数据；对所述第一过滤文本数据进行所述文本聚类，得到若干个基础文本类以及每个所述基础文本类中的若干个文本；根据文本数量阈值分别对每个所述基础文本类中的若干个文本进行所述文本过滤，得到第二过滤文本数据；按照时间维度，从所述第二过滤文本数据中获取所述基础文本数据、所述第一文本数据以及所述第二文本数据。3.根据所述权利要求2所述的方法，其特征在于，所述根据文本数量阈值分别对每个所述基础文本类中的若干个文本进行文本过滤，得到第二过滤文本数据，包括：对每个所述基础文本类中的若干个文本进行对象分组，得到每个目标对象对应的若干个文本；将文本数量大于第一文本数量阈值的所述每个目标对象对应的若干个文本进行所述文本过滤，得到若干个过滤文本；对所述若干个过滤文本进行目标主题分组，得到每个目标主题对应的若干个文本；将文本数量大于第二文本数量阈值的所述每个目标主题对应的若干个文本进行所述文本过滤，得到所述第二过滤文本数据。4.根据所述权利要求1所述的方法，其特征在于，所述根据选词条件从所述基础文本数据、所述第一文本数据以及所述第二文本数据中确定若干个目标突发词，包括：根据第一选词条件从所述基础文本数据以及所述第一文本数据中确定第一突发词集；根据第二选词条件从所述基础文本数据以及所述第二文本数据中确定第二突发词集；将所述第一突发词集与所述第二突发词集的交集中的词语作为所述若干个目标突发词。5.根据所述权利要求4所述的方法，其特征在于，所述根据第一选词条件从所述基础文2CN114138968A权利要求书2/3页本数据以及所述第一文本数据中确定第一突发词集，包括：计算所述第一文本数据的均值和标准差，并根据所述均值和标准差确定第一候选指标；获取所述第一文本数据的下四分位数和上四分位数，并根据所述四分位数和所述上四分位数确定第二候选指标；根据所述第一候选指标以及所述第二候选指标，从所述基础文本数据中筛选出若干个第一候选词，得到所述第一突发词

相关资料

一种网络热点的挖掘方法、装置、设备及存储介质.pdf

本申请实施例公开了一种网络热点的挖掘方法、装置、设备及存储介质，相关实施例可应用于云技术、人工智能以及智慧交通等各种场景，用于提高发现网络热点的准确性。本申请实施例方法包括：从原始文本数据中获取目标时段对应的基础文本数据、第一历史时段对应的第一文本数据以及第二历史时段对应的第二文本数据，根据选词条件从基础文本数据、第一文本数据以及第二文本数据中确定若干个目标突发词,从基础文本数据中获取包含有至少一个目标突发词的候选文本数据,对候选文本数据进行文本聚合处理，得到若干个目标文本类以及每个目标文本类中的若干个文

2023-07-24

2MB

一种热点事件挖掘方法、装置、存储介质及设备.pdf

本申请公开了一种热点事件挖掘方法、装置、存储介质及设备，该方法包括：首先获取待挖掘的目标事件文本；然后将其输入至预先构建的事件分类模型，根据预先标注的热点事件的历史类别，预测其对应的热点事件类别；事件分类模型是利用无监督的聚类文本，进行有监督的训练得到的；当目标事件文本对应的热点事件类别不属于历史类别时，对目标事件文本进行文本聚类和类别聚类的串联式聚类处理，以确定其对应的新的热点事件类别。由于本申请是先利用事件分类模型对目标事件文本进行热点事件挖掘，并在确定出其不属于历史类别时，进行文本聚类和类别聚类的串

2023-06-03

627KB

视频热点的挖掘方法、装置、电子设备及存储介质.pdf

本申请提供了一种视频热点的挖掘方法、装置、电子设备及存储介质，其中，在视频热点的挖掘方法中，首先获取待挖掘热点的视频的请求语句，然后针对每一条请求语句，对请求语句进行分词处理，得到请求语句的关键词。再针对每一个关键词，获取关键词所属的类别对应的代表词，并将关键词替换成代表词。按照各个代表词出现的频率，对各个代表词进行排序，得到第一排序集合。按照预设的时间窗口，对各个代表词按照时间顺序进行排序，得到第二排序集合。最后将第一排序集合与第二排序集合的交集，作为待挖掘热点的视频的热词集合。解决了现有技术对于直播视

2023-06-14

534KB

一种社交网络关键节点挖掘的方法、装置及存储介质.pdf

本申请公开了一种社交网络关键节点挖掘的方法、装置及存储介质，用于提高查找社交网络中关键节点的准确性。本申请方法包括：提取社交网络平台中的用户关系数据和社交网络文本数据，根据用户关系数据构建复杂网络图，再将复杂网络图将用户关系映射为邻接矩阵，将邻接矩阵中的节点输入节点katz中心度分析模型计算出用户节点的katz中心度，将社交网络文本输入预先构建的情感分析模型中，确定博文的情感数据并输出，对情感数据进行统计分析得到博文情绪占比，将节点katz中心度以及情绪占比输入预先构建好的节点重要程度评估模型确定社交网络

2023-06-07

710KB

一种热词挖掘方法、装置、设备及存储介质.pdf

本申请提供了一种热词挖掘方法、装置、设备及存储介质，方法包括：获取目标文本中标题的表达向量，其中，目标文本包含所述标题和所述标题对应的正文；利用标题的信息确定正文中每个词对于正文表达的贡献度，并根据正文中每个词对于正文表达的贡献度确定正文的表达向量；根据标题的表达向量和正文的表达向量生成热词。本申请提供的热词挖掘方法能够及时挖掘出热词，且不涉及安全性和隐私性问题。

2023-07-25

652KB