预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113918794A(43)申请公布日2022.01.11(21)申请号202111513711.5G06K9/62(2022.01)(22)申请日2021.12.13(71)申请人宝略科技(浙江)有限公司地址315199浙江省宁波市鄞州区学士路655号E楼9层912、913室(72)发明人吴敦孙华张裕洲徐央杰费佳宁顾家慧王倩(74)专利代理机构宁波甬致专利代理有限公司33228代理人袁波(51)Int.Cl.G06F16/951(2019.01)G06F16/955(2019.01)G06F16/958(2019.01)G06F40/279(2020.01)权利要求书3页说明书11页附图6页(54)发明名称企业网络舆情效益分析方法、系统、电子设备及存储介质(57)摘要本发明提供了企业网络舆情效益分析方法、系统、电子设备及存储介质,涉及网络技术领域,本方法包括步骤:S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;S2:通过Scrapy‑Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;Scrapy‑Redis架构由舆情获取控制节点和舆情爬取节点构成。本方法能够对目标区域内的企业的网络舆情进行实时同步抓取,并针对企业相关舆情做出可信度判定,同时将正面舆情和负面舆情与企业的关联度进行分析。CN113918794ACN113918794A权利要求书1/3页1.企业网络舆情效益分析方法,其特征在于,包括步骤:S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;S2:通过Scrapy‑Redis架构分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述Scrapy‑Redis架构由舆情获取控制节点和舆情爬取节点构成;S3:根据所述目标企业的多源数据舆情信息,构建分布式Beautiful_Soup‑Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;S4:调取CAC互联网新闻信息服务单位许可信息;根据所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;S5:基于SVM‑CN‑DBpedia构建企业网络舆情分词库;新建并配置Libsvm,构建所述企业网络舆情分词库的深度学习模型;S6:利用可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集,将所述训练样本集输入到步骤S5的所述深度学习模型中,经过Libsvm的向量特征提取分析,得到定义为正面的舆情分析结果和负面的舆情分析结果;S7:根据步骤S6得到的所述目标企业的多源数据舆情信息、所述正面的舆情分析结果和所述负面的舆情分析结果,搭建企业的网络舆情分析展示平台。2.根据权利要求1所述的企业网络舆情效益分析方法,其特征在于,所述步骤S3中对所述目标企业的多源数据舆情信息进行文本解析提取包括:S31:在每个所述舆情爬取节点中搭建一个Beautiful_Soup‑Lxml架构,运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;S32:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取所述目标企业的多源数据舆情信息的节点;指定HTML文件名,读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;S33:通过Unicode编码将所述舆情信息的来源网站信息输出为utf‑8编码的舆情信息的来源网站信息文档。3.根据权利要求2所述的企业网络舆情效益分析方法,其特征在于,所述步骤S4中完成舆情信息的来源网站信息的可信度验证包括:S41:通过Scrapy‑Redis架构对CAC数据库中的信息进行分布式抓取,得到所述CAC互联网新闻信息服务单位许可信息;S42:通过Beautiful_Soup‑Lxml技术架构,对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf‑8编码的CAC互联网新闻信息服务单位许可信息文档;S43:将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,