预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共93页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

东华大学硕士学位论文Web信息采集技术在纺织面料公共服务平台中的应用姓名:卜昌荣申请学位级别:硕士专业:检测技术与自动化装置指导教师:王直杰20070130摘要膊⒊槿⊥持忻媪现魈獾氖率敌畔ⅲ禄袢∏幸布案檬率敌畔为了提高网络爬虫的效率一方面通过协调器对网络爬虫抓取的凑找欢ü嬖蚪械鞫龋苊饬擞捎谕缗莱娴母涸夭黄胶庠斐根据设计的主题链接过滤/链接预测模型对超链接进行剪切与分类随着中国纺织品出口量的扩大中国已成为世界纺织面料的主要市场。利用互联网获取行业信息使面料企业在信息资源的掌控中获得主动对面料企业的发展越来越重要。中国面料企业中.ノV行企业限于人员素质与资金的限制这些企业利用互联网获取的行业信息质量不高。建设纺织面料公共服务平台是解决上述问题的有效途径。纺织面料公共服务平台整合面料工业产业链上各类资源信息瞄准世界前沿技术为面料企业特别是中小企业提供最新原料、生产加工、产品等信息。本论文提出了一套在互联网中按照面料相关主题进行自动提取信息并分类的解决方案并将该方案应用在纺织面料公共服务平台中。该方案的流程如下:先利用网络爬虫将网页下载到本地服务器;再扫描吃创耄治鯳曲网页结构特征提取与面料主题相关的保存在中间记录存储器中;最后从中间记录存储器提取出事实信息并按照预定义的分类进行文本分类。的资源分配不均;另一方面在扫描网页源代码获取抓取的耐保网络蜘蛛页面采集的工作量。经典的向量空间模型没有考虑特征项在文本集合中位置分布的不同而引起的权值差异系统针对这个问题采用了改进了的特征项权值的计算公式更好的体现了网页的结构特征。模式匹配的抽取由于定位主要依靠匹配来实现抽取过程易被具有类似结构的其它数据所干扰。为了提高信息抽取的准确度与可移植性集数据量很大情况下全局的最优搜索很难实现。为了加速鲎罱关键词:畔⒉杉琖型信息抽取文本分类罱诜按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理减少基于文档结构的抽取规则建立结构层次树时算法比较复杂、基于特征设计了基于文档结构的抽取规则与基于特征模式匹配的抽取规则相结合的抽取规则取得了良好的效果。传统的罱诜掷喾椒ㄔ谘盗邻的搜索采用了一种基于罱诘目焖傥谋痉掷喾椒ǎ芄槐证在海量数据集中进行快速有效的分类。缗莱妫魈猓蛄靠占淠东华大学硕士学位论文畔⒉杉际踉诜闹媪瞎ü卜衿教ㄖ械挠τⅡ砩緄﹍裕甀协.陁咖砽时猠目眦骯莈脑籥產琣魋.眦觚馏.⒀魊;距越巧簍印巧Ⅳ痵印..產印叩琭琫琣遜.丘.】硒.勰餽痷.也;.膃蹿粼甀删緋同鴈鼬.涮鰁锄鰂也躢.溉撕嘶觚赋嘶咖向衄的琤縞餴巧谢賛;賛瑃.哆瞖鏼.瑃血.痵【猺甌】產騟.鮥甀誩瑚.陁东华大学硕士学位论文畔⒉杉际踉诜闹媪瞎ü卜衿教ㄖ械挠τⅡ篋簑Ⅳ琧詄琕琲.瑃附瑃Ⅲ学位论文作者签名.⒉东华大学学位论文原创性声明∥竽辏露唷H本人郑重声明:我恪守学术道德崇尚严谨学风。所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写我对所写的内容负责并完全意识到本声明的法律结果