预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共60页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

nutch爬虫系统分析 Nutch分析 TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc230174360"1 Nutch简介 PAGEREF_Toc230174360\h2 HYPERLINK\l"_Toc230174361"1.1 nutch体系结构 PAGEREF_Toc230174361\h2 HYPERLINK\l"_Toc230174362"2 抓取部分 PAGEREF_Toc230174362\h3 HYPERLINK\l"_Toc230174363"2.1 爬虫的数据结构及含义 PAGEREF_Toc230174363\h3 HYPERLINK\l"_Toc230174364"2.2 抓取目录分析 PAGEREF_Toc230174364\h4 HYPERLINK\l"_Toc230174365"2.3 抓取过程概述 PAGEREF_Toc230174365\h4 HYPERLINK\l"_Toc230174366"2.4 抓取过程分析 PAGEREF_Toc230174366\h5 HYPERLINK\l"_Toc230174367"2.4.1 inject方法 PAGEREF_Toc230174367\h6 HYPERLINK\l"_Toc230174368"2.4.2 generate方法 PAGEREF_Toc230174368\h12 HYPERLINK\l"_Toc230174369"2.4.3 fetch方法 PAGEREF_Toc230174369\h14 HYPERLINK\l"_Toc230174370"2.4.4 parse方法 PAGEREF_Toc230174370\h16 HYPERLINK\l"_Toc230174371"2.4.5 update方法 PAGEREF_Toc230174371\h16 HYPERLINK\l"_Toc230174372"2.4.6 invert方法 PAGEREF_Toc230174372\h19 HYPERLINK\l"_Toc230174373"2.4.7 index方法 PAGEREF_Toc230174373\h23 HYPERLINK\l"_Toc230174374"2.4.8 dedup方法 PAGEREF_Toc230174374\h26 HYPERLINK\l"_Toc230174375"2.4.9 merge方法 PAGEREF_Toc230174375\h30 HYPERLINK\l"_Toc230174376"3 配置文件分析 PAGEREF_Toc230174376\h31 HYPERLINK\l"_Toc230174377"3.1 nutch-default.xml分析 PAGEREF_Toc230174377\h31 HYPERLINK\l"_Toc230174378"3.1.1 <!--fileproperties--> PAGEREF_Toc230174378\h31 HYPERLINK\l"_Toc230174379"3.1.2 <!--HTTPproperties--> PAGEREF_Toc230174379\h32 HYPERLINK\l"_Toc230174380"3.1.3 <!--FTPproperties--> PAGEREF_Toc230174380\h35 HYPERLINK\l"_Toc230174381"3.1.4 <!--webdbproperties--> PAGEREF_Toc230174381\h37 HYPERLINK\l"_Toc230174382"3.1.5 <!--generateproperties--> PAGEREF_Toc230174382\h41 HYPERLINK\l"_Toc230174383"3.1.6 <!--fetcherproperties--> PAGEREF_Toc230174383\h42 HYPERLINK\l"_Toc230174384"3.1.7 <!--indexerproperties--> PAGEREF_Toc230174384\h43 HYPERLINK\l"_Toc230174385"3.1.8 <!--indexingfilterpluginproperties--> PAGEREF_Toc23017