预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115640439A(43)申请公布日2023.01.24(21)申请号202211182077.6(22)申请日2022.09.27(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人周成阳蒋洪伟谢波单冉冉曾祥桐贺诗洁(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师张志梅(51)Int.Cl.G06F16/953(2019.01)G06F16/9038(2019.01)G06F16/35(2019.01)权利要求书2页说明书10页附图3页(54)发明名称一种网络舆情监控的方法、系统及存储介质(57)摘要本申请公开了一种网络舆情监控的方法、系统及存储介质,可应用于金融领域或其他领域。该方法包括:实时采集包含预设主题的目标网页的文本内容。然后提取多个文本特征并进行向量化表示,获取文本特征向量。接着利用文本特征向量,进行相似文本聚类,获取文本聚类结果。最后根据文本聚类结果,确定事件和事件标签,进行网络舆情监控。如此,通过采实时集文本内容,提取文本特征并进行文本特征向量化,将向量化后的文本特征进行相似文本聚类,利用文本聚类后的结果,挖掘文本的事件主题,进行网络舆情监控,从而实现了对网络舆情的实时监控,进而有效预防和应对了负面网络舆情,提升了银行的社会形象与声誉。CN115640439ACN115640439A权利要求书1/2页1.一种网络舆情监控的方法,其特征在于,所述方法包括:实时采集目标网页的文本内容,所述目标网页为包含预设主题的网页;根据所述目标网页的文本内容,提取所述目标网页的多个文本特征;根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量;根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果;根据所述文本聚类结果,确定事件和事件标签,进行网络舆情监控。2.根据权利要求1所述方法,其特征在于,所述实时采集目标网页的文本内容之前,所述方法还包括:获取所述目标网页中多个内容块,所述多个内容块为所述目标网页依照预设布局划分得到的;基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,实时获取目标网页的文本内容。3.根据权利要求2所述方法,其特征在于,所述基于所述内容块的文本密度值,从所述多个内容块中确定并删除噪声内容块,包括:获取并解析所述目标网页中多个内容块的网页源码,确定与所述多个内容块对应的多个标签;将所述多个标签通过DOM树形式表示;所述DOM树的节点用于表示所述多个标签;根据预设标签的文本密度值,与标签节点关联子树的文本字符串数和标签数的映射关系,计算所述多个标签中每个标签的文本密度值;响应于标签的文本密度值小于预设提取阈值,删除所述标签及所述标签下的文本。4.根据权利要求3所述方法,其特征在于,所述将所述多个标签通过DOM树形式表示之后,所述方法还包括:遍历所述多个标签,判断所述多个标签中每个标签是否为容器标签;响应于所述标签不是容器标签,删除所述标签及标签下的文本;响应于所述标签为容器标签,计算所述多个标签中每个标签的文本密度值。5.根据权利要求1所述方法,其特征在于,所述根据所述目标网页的文本内容,提取所述目标网页的多个文本特征,包括:根据所述目标网页的文本内容和预设触发词词库,提取所述目标网页中基于触发词的多个文本特征;根据所述目标网页的文本内容,提取多个文本主题信息词;所述目标网页的多个特征包括所述目标网页中基于触发词的多个文本特征和多个文本主题信息词。6.根据权利要求1所述方法,其特征在于,所述根据所述多个文本特征,将所述目标网页的文本内容进行向量化表示,获取文本特征向量,包括:基于预设词向量查询库和所述多个文本特征,确定所述多个文本特征对应的多个词向量;将所述多个词向量等概率累加,获取所述文本特征向量;其中,所述预设词向量查询库是通过以下得到的:2CN115640439A权利要求书2/2页将词向量语料库中的语料经过文本预处理,生成每个词的词向量,并写入所述词向量查询库,获取预设词向量查询库;所述文本预处理包括前序分词、词性标注和命名实体识别。7.根据权利要求1所述方法,其特征在于,所述根据所述文本特征向量,进行相似文本聚类,确定文本聚类结果,包括:计算所述文本特征向量与已知聚类库中多个聚类结果的多个相似度;所述已知聚类库用于存储前一次多个文本的聚类结果;响应于所述多个相似度均低于预设相似度阈值,生成所述文本特征向量对应的新类别;响应于所述多个相似度中至少一个相似度超过预设相似度阈值,将所述文本特征向量加入最大相似度对应的聚类结果;所述文本聚类结果包括所述新类别和最大相似度对应的聚类结果中至少一种。8.根据权利要求1‑7任意一项所述方法