搜索引擎基本原理及实现技术ppt课件-豆柴文库

搜索引擎基本原理及实现技术ppt课件.ppt

2024-10-26

10金币

1.5MB

43页

lj****88

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共43页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

搜索引擎基本原理及实现技术搜索引擎的工作原理通用的网络爬虫的框架爬虫技术总体介绍： (一)网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对于MP3、图片、Flash等各种不同内容，要实现自动识别、自动分类及相关属性测试（例如：MP3文件要包含的文件大小，下载速度等属性）。(二)抓取对象： 1.静态网页：爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 2.动态网页:分析动态网页参数，按照一定规章，“拼”出所有要被抓取内容URL，只抓取这些特定范围内动态网页。 3.特殊内容：比如RSS、XML数据，情况特殊需特殊处理。如新闻的滚动新闻页面，需要爬虫不停地监控扫描，发现新内容马上就进行抓取。 4.文件对象：图片，MP3、Flash、视频等文件的抓取，都要特殊处理。比如说：图片抓取出来后，要知道图片文件类型、图片文件的大小、图片的像素大小，还要转换出来缩略图。爬虫分类优秀爬虫的特性禁止爬虫的几种情况Content标签对应的具体含义网页抓取策略宽（广）度优先策略深度优先策略PageRank简介非完全PageRank策略OPIC策略大站优先策略网页更新策略历史参考策略用户体验策略聚类抽样策略聚类抽样策略分布式抓取系统结构主从式基本结构对等式工作结构暗网抓取网络爬虫的实现链接的存储网页抓取getElementById(Stringid)用id获得元素 getElementsByTag(Stringtag)用标签获得元素 getElementsByClass(StringclassName)用class获得元素 getElementsByAttribute(Stringkey)用属性获得元素用下面方法获得元素的数据： attr(Stringkey)获得元素的数据 attr(Stringkey,Stringvalue)t设置元素数据 attributes()获得所以属性 id(),className()classNames()获得idclass得值 text()获得文本值 text(Stringvalue)设置文本值 html()获取html html(Stringvalue)设置html outerHtml()获得内部html try{ doc=Jsoup .connect(urlStr) .userAgent( "Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;rv:1.9.2.15)")//设置User-Agent .timeout(5000)//设置连接超时时间 .get(); }catch(MalformedURLExceptione){ log.error(e); return; }catch(IOExceptione){ if(einstanceofSocketTimeoutException){ log.error(e); return; } if(einstanceofUnknownHostException){ log.error(e); return; } log.error(e); return; }system.out.println(doc.title()); Elementhead=doc.head(); Elementsmetas=head.select("meta"); for(Elementmeta:metas){ Stringcontent=meta.attr("content"); Elementbody=doc.body(); Elementses=body.select("a"); for(Iterator<Element>it=es.iterator();it.hasNext();){ Elemente=(Element)it.next(); href=e.attr("href"); } 链接提取<iframeid="ifNews"scrolling="no"allowtransparency="true"frameborder="0"src="http://news.cqut.edu.cn/service/CqutXw" height="135"></iframe>提高爬虫效率实例说明主要步骤break; }catch(Exceptionex){ counts++; continue; } } 2）种子页面要获取的内容包含标题、正文文本、超链接

相关资料

搜索引擎基本原理及实现技术ppt课件.ppt

2024-10-26

1.5MB

搜索引擎技术介绍PPT课件.ppt

搜索引擎技术介绍2007年8月目录一、搜索引擎总体介绍一、搜索引擎总体介绍一、搜索引擎总体介绍一、搜索引擎总体介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍二、爬虫技术介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍三、中文分词和排序算法介绍四、查询

2024-05-01

1.5MB

CT基本原理与技术进展ppt课件.ppt

CT基本原理与技术进展内容目标CT发展史CT成像系统CT成像的工作流程CT成像的物理数学基础CT为什么要旋转扫描？第一代CT？原始数据的采集体素voxelCT值的概念人体组织器官的标准CT值（HU）CT值测量8图像重建数/模转换重建图像技术进展螺旋扫描技术（SpiralScan)多排螺旋CTMulti-DetectorrowCT,MDCT多排螺旋CT(MDCT)技术优势CT进展比较CT检查技术增强扫描Enhancedscanning同层动态增强扫描多期相增强扫描小肝癌平扫+双期增强扫描小肝癌肝血管瘤肝血

2024-10-20

20.3MB

税收筹划基本原理与技术方法ppt课件.ppt

税收筹划基本原理与技术方法(一)税收筹划的基本原理税收筹划最重要的原理是节税原理。节税原理又可细分为绝对节税原理、相对节税原理、风险节税原理三个主要部分。1.绝对节税原理。绝对节税是指直接使纳税绝对总额减少,即在多个可供选择的纳税方案中,选择缴纳税款额最少的方案。这种节税可以是直接减少纳税人的纳税总额,也可以是直接减少其在一定时期内的纳税总额。一般情况下,企业可采用减少税基、适用较低税率的方式来减少纳税总额。2.相对节税原理。相对节税是指一定时期内的纳税总额并没有减少,但由于考虑货币的时间价值因素,推迟税

2024-10-18

907KB

免疫检测技术的基本原理ppt课件.ppt

第三节免疫检测技术的基本原理2免疫学检测技术的优点免疫分析技术的应用凝集试验试管法半定量试验2.间接凝集法3.间接凝集抑制试验凝集反应2.沉淀反应单向琼脂扩散试验双向琼脂扩散试验对流免疫电泳3.中和反应如抗“O”试验免疫标记技术酶联免疫吸附试验酶及其底物酶结合物是酶与抗体或抗原,半抗原在交联剂作用下联结的产物。是ELISA成败的关键试剂，它不仅具有抗体抗原特异的免疫反应，还具有酶促反应，显示出生物放大作用，但不同的酶选用不同的底物，将得到不同的颜色反应.酶戊二醛交联法(一步法）戊二醛交联法（二步法）过碘酸

2024-10-23

3.9MB