预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共70页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

分类号:——骸!实现的基于牟┛退阉引擎工学硕士学位论文硕士研究生指教师学位级别学科、专业所在单本论文提交日期本论文答辩日期学位授予单位刘双林俞经善教授工学硕士计算机应用技术计算机科学与技术学院年日鞫鮅:程人学导密级:编号:摘要且恢挚衫┱沟谋昙怯镅裕?缙教ā⒖缌煊虻挠τ锰峁┝艘恢滞信手段。随着赪应用上的婀惴海琑已经成为目前最广泛的随着互联网的迅速发展搜索引擎成为了人们获取信息的一个重要途径。人们在希望搜索引擎能够提供全面的信息资源的同时也对搜索引擎的工作原理、检索方式等方面有着很大的区别因此若用传统的搜索引擎检本文研究了博客搜索引擎的工作原理主要研究了博客搜索引擎中的博客网络爬虫与用户兴趣模型。网络爬虫是搜索引擎中的一个重要部分其爬取质量直接影响到搜索引擎的搜索结果。由于秤肫胀ㄍ车牟煌┛屯缗莱媾廊「鞲霾┛臀恼碌腞链接本文对肿拥氖占解析、建立索引进行了研究设计并实现了集肿踊袢⒔馕霾⒔τ茫还惴旱挠τ糜谛畔⒎裾镜悖缧挛磐尽⒉┛驼镜愕取服务提出了更高的要求。与传统的搜索引擎相比博客搜索引擎在检索内容、索一些以袷椒⒉嫉牟┛湍谌荩突岽嬖谧偶焖餍实汀⒏滤俣嚷缺点而┛退阉饕婵朔苏庑┤钡恪索引为一体的┛屯缗莱妗4车乃阉饕婷嫦虻氖枪愦蟮挠没В能根据用户的喜好返回最相关的结果而用户往往希望搜索引擎能够根据自己的实际情况来返回最相关的结果基于此本文介绍了用户兴趣模型的概念与应用设计并实现了基于博客文章标签与分类的用户兴趣模型包括用户兴趣模型的初始化、更新及与搜索结果的匹配等。在介绍网络爬虫与用户兴趣模型的基础上本文设计并实现了基于的博客搜索引擎并用等技术改善了用户的搜索体验。关键词:凰阉饕妫煌缗莱妫籄河没巳つ型哈尔滨下程火学硕十学位论文甀甒.。縜—甋·.·。產瑃.琫.琣ⅱ鬺、Ⅳ甌珏。瑃痠痶痠·’甒;籄籾’哈尔滨:程人学硕十学位论文.:籹聊┳:禽赂Ⅵ年≥月作者┳:;复≥参牝其:矽叩年弓月作者┳:争学位论文原创性声明さ鬯哈尔滨工程大学学位论文授权使用声明沙年岁月本人郑重声明:本论文的所有工作是在导师的指导下由作者本人独立完成的。有关观点、方法、数据和文献的引用己在文中指出并与参考文献相对应。除文中已注明引用的内容外标明。本人完全意识到本声明的法律结果由本人承担。本人完全了解学校保护知识产权的有关规定即研究生在校工程大学有权保留并向国家有关部门或机构送交论文的复印件。学位论文可以公布论文的全部内容。同时本人保证毕业后结合本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式日期:攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索可采用影印、缩印或扫描等复制手段保存和汇编本学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文谠谑谟柩缓蠹纯口在授予学位个月后口解密后晒豕こ檀笱徒挥泄夭棵沤斜4妗⒒惚嗟取第绪论引言随着互联网的迅速发展搜索引擎已经成为人们在海量的网页数据库中革命。人们利用搜索引擎获取信息在保证搜索质量的同时对搜索引擎提能化已经成为搜索引擎技术发展的趋势。发展的产物它并不是纯粹的技术创新而是逐渐演变的一种网络应用。博客以信息共享为特征通过记录日常的信息将全球最交流已经越来越流行。博客已经成为人们交流思想、技术等问题的重要场所。截止到年月中国博客数量已超过冢裼涤胁┛偷谋获取信息的一个非常重要的途径。搜索引擎技术是互联网发展的第二次技术供的个性化服务的要求有了进一步的提高。搜索引擎的个性化、专业化和智博客是相关最有价值的信息联系起来。通过博客来共享信息与资源、进行学习与例高达.ィ⑷跃哂屑ù蟮姆⒄箍占洹K孀挪┛褪砍手甘渡仙传统的搜索引擎检索自己感兴趣的博客信息已经远远达不到人们的要求因此专门搜索博客文章的搜索引擎应运