预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共44页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于ElasticStack平台的疫情分析系统的设计与实现——数据采集模块学院:专业:姓名:指导老师:计算机学院软件工程熊君学号:职称:160202103649刘培峰开发经理中国·珠海二○二〇年四月北京理工大学珠海学院2020届本科生毕业设计诚信承诺书本人郑重承诺:本人承诺呈交的毕业设计《基于ElasticStack平台的疫情分析系统的设计与实现——数据采集模块》是在指导教师的指导下,独立开展研究取得的成果,文中引用他人的观点和材料,均在文后按顺序列出其参考文献,设计使用的数据真实可靠。本人签名:熊君日期:2020年04月18日基于ElasticStack平台的疫情分析系统的设计与实现——数据获取模块摘要今年(2020年)的新型冠状病毒在全世界各个国家爆发,由于新冠疫情迅猛发展和巨大影响,给我国各行各业都带来了一个沉痛的打击。在这次疫情中,对病例发现不及时,对疫情扩散速度不明确,是疫情前期防范的一大难题;虚假的自媒体新闻,听信网络谣言,是造成民众恐慌的根源。及时、一致、准确地获取疫情数据信息是布置疫情防控工作基础和前提,是控制疫情蔓延的有力武器。基于疫情的大环境下,构建一个疫情发展与分析的网站,显然是十分必要的。由于现今中国疫情数据的公开透明性,本次毕业设计系统通过收集并存储互联网上的疫情相关数据,并将数据进行处理后可视化展现给用户,让大众能够直观地了解疫情发展情况,以及更加全面地认识防疫信息。俗话说知己知彼,方能百战百胜,用户能够检索谣言信息并查看信息真假,当用户了解了疫情现状,知道了哪些新闻该信,哪些新闻不能信,就能够某种程度上,防止公众过度恐慌导致的社会不和谐。本平台提供真实、实时的疫情信息,展示较为准确的病毒扩散分析,让大众能及时、正确地了解疫情发展状况。本次毕业设计的数据获取模块,主要研究的是目前较为流行的基于python的爬虫框架Scrapy。以scrapy为爬虫的基础框架,设计并实现一个能够定时采集疫情相关数据的爬虫系统。鉴于需要抓取的网站页面渲染方式不同,这里采用两种不同的抓取策略:对于只有单个页面在客户端渲染不断更新的网站,采用单机爬虫定时采集数据的方式;对于网站更新会产生新的url,需要处理多个不同页面,数据量比较大的网站则采用分布式爬虫采集数据的方式。关键词:互联网;疫情数据;分布式;Scrapy;DesignandImplementationofEpidemicSituationAnalysisSystemBasedonElasticStackPlatformDataacquisitionmoduleAbstractThisyear(2002)novelcoronavirusoutbreakinvariouscountriesaroundtheworld,duetotherapiddevelopmentofthenewcoronavirusoutbreakandgreatimpact,toourcountryallwalksoflifehavebroughtapainfulblow.Inthisoutbreak,theuntimelydetectionofcasesandtheunclearspreadspeedoftheepidemicareamajorproblemintheearlypreventionoftheepidemic.Fake"wemedia"newsandInternetrumorsaretherootcauseofpublicpanic.Timely,consistentandaccurateacquisitionofepidemicdataandinformationisthebasisandpremiseofepidemicpreventionandcontrolworkandapowerfulweapontocontrolthespreadoftheepidemic.Basedontheepidemicenvironment