预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第9卷_年第12月期计算机技术与发展Vo1.19No.12 2009∞M兀ERTEa删oGYANDDEVEL0PMENrDec.2009 基于模拟退火算法的主题爬虫 贺晟,程家兴,蔡欣宝2 (1.安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039; 2.苏州大学智能信息处理及应用研究所,江苏苏州215006) 摘要:主题爬虫是主题搜索引擎的基础与核心,主题爬行策略的好坏直接影响搜索结果。为了搜索到更多相关的网页, 通过利用模拟退火机制选择下一步要访问的链接,使那些蕴含“综合价值”高的链接在搜索初期有机会被选中,同时利用 “隧道技术”扩大相关网页的搜索范围。计算链接价值时,综合考虑了链接所在页面内容的价值和链接提示文字的价值, 根据它们对链接价值的影响程度不同,分别赋予它们不同的权值。实验证明,该方法对提高网页覆盖率和准确率都有很 好的效果。. 关键词:模拟退火算法;隧道技术;召回率 中图分类号:1]P393文献标识码:A文章编号:1673—629X(2o09)12—0055—04 FocusedCrawlerBasedonSimulatedAnnealAlgorithm HESheng,CHENGJia-xing,CAIXin—bao2 (1.MinistryofEdu.,KeyLab.ofIntelligentComputing&SignalProcessing,AnhuiUniv.,Hefei230039,China; 2.InstituteofIntelligentInfommtionProcessingandApplication,SoochowUniversity,Suzhou215006,China) Abstract:Focusedcrawleristhecoreandfoundationofthetopic—specificsearchengine.Specialcrawlingstrategyqualitygivesadirect impactonsearchresults.Inorderto,selectl-florarelevantpages,throughusingthesimulatedannealingmechanismtochoosethenextlink tovisit。makesthosehigh‘overallvalue”linkhavetheopportunitytobeselectedearlyinthesearch,andusing“Tunneling”tObroaden the.searchingscope.Whencalculatingthelinkvalue,considerthevalueofthepagecontentandthelinktextsynchronously,andaccording theirdifferentimpacttothelinkvalue,givesthemdifferentweight.Experimentsindicatethatthemethodhasagoodeffectiveness. Keywords:simulatedannealalgorithm;tunneling;recallfraction 0引言中,网络爬虫以何种搜索策略访问Web以提高效率, 随着Intemet的飞速发展,网络上的信息更是成是近年来主题搜索引擎研究中的热点问题。在制定主 指数级增长,人们在Intemet上获取信息时,越来越难题爬行策略时通常要考虑多种因素,如:待爬URI取 以离开搜索引擎的帮助。但目前传统方式的搜索引擎舍策略、优先级排序策略、隧道技术、主题飘移策略等。 已经不能满足特定用户的需求,适应特定主题和个性文中把模拟退火算法与“隧道技术uJ,’结合。模拟 化搜索引擎的主题爬虫便应运而生。主题爬虫所抓取退火算法在选择优化解方面具有“非贪婪性”,在网络 的内容只限于特定的主题或专门领域,在搜索过程中爬虫搜索过程中,每次除选择评价值最优的链接,还以 无须对整个网络进行遍历,只需选择与主题相关的页一定概率有限度地接收评价值次优的链接,确保那些 面进行访问。主题爬行策略的目标就是保证使其尽可蕴含“综合价值”的链接在搜索初期有机会被选中J。 能多地爬行相关网页,尽可能少地爬行无关网页,,以“隧道技术”使搜索有机会穿过低相关区域进人高相关 提高主题信息的发现率与召回率。在主题搜索引擎区域,当页面内容的相关度低于设定的阈值时,扩大主 题范围,使更多的相关的链接加人到链接优先机队列, 收稿日期:2009一O4—14;修回日期:2009一O7—28提高相关网页的召回率。同时考虑链接文字和链接所 基金项目:国家自然科学基金(60