主题网络爬虫关键技术研究.doc
一吃****春艳
亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
主题网络爬虫关键技术研究.doc
第一章绪论1.1背景与意义随着Internet的飞速发展互联网信息呈指数增长。根据中国互联网络信息中心(CNNIC)于2017年8月4日在京发布第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月中国网民规模达到7.51亿占全球网民总数的五分之一。互联网普及率为54.3%;截至2017年6月我国IPv4地址数量达到3.38亿个、IPv6地址数量达到21283块/32地址二者总量均居世界第二;中国网站数量为506万个半年增长4.8%。”如此大量的网站中包含着不计其数的网页网页是信
主题网络爬虫关键技术研究.doc
PAGE\*MERGEFORMATPAGE\*MERGEFORMATV摘要随着互联网的迅速发展,Web的信息量越来越大。为了在网络中,快、准、全地找到相关信息变得越来越困难。因此,搜索引擎应运而生。以往的搜索引擎很大程度上帮助人们在互联网上查找信息更加方便,然而,慢慢地也暴露了很多弊端,不能提供专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域及特定人群的要求。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述
主题网络爬虫关键技术研究.doc
PAGE\*MERGEFORMATPAGE\*MERGEFORMATV摘要随着互联网的迅速发展,Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息,比如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的,面向特定领域的搜索引擎来解决。主题网络爬虫是垂直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内
主题网络爬虫关键技术研究.doc
PAGE\*MERGEFORMATPAGE\*MERGEFORMATV摘要随着互联网的迅速发展,Web的信息量越来越大。为了在网络中,快、准、全地找到相关信息变得越来越困难。因此,搜索引擎应运而生。以往的搜索引擎很大程度上帮助人们在互联网上查找信息更加方便,然而,慢慢地也暴露了很多弊端,不能提供专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域及特定人群的要求。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述
2022主题网络爬虫关键技术研究.docx
第一章绪论1.1背景与意义随着Internet的飞速发展,互联网信息呈指数增长。根据中国互联网络信息中心(CNNIC)于2017年8月4日在京发布第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。互联网普及率为54.3%;截至2017年6月,我国IPv4地址数量达到3.38亿个、IPv6地址数量达到21283块/32地址,二者总量均居世界第二;中国网站数量为506万个,半年增长4.8%。”如此大量的网站中包含着不计其数的网页