预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

链接分析中的数据采集技术研究 杨波 中国科学院文献情报中心,北京100190 摘要:本研究从网络计量学中链接分析研究的需求出发,设计了多种数据采集策略、链接分 类和数据过滤规则,并开发了用于获取原生链接数据和搜索引擎数据的软件系统 LinkDiscoverer,希望有助于解决网络信息计量分析研究中的数据可靠性问题。本文系统全 面地介绍了本研究所采用的主要数据采集规则和技术策略,最后通过实证研究验证了该系统 在链接分析上的良好表现。 关键词:链接分析数据采集网络爬虫网络计量 ResearchontheTechniquesofDataCollectioninLink Analysis YangBo NationalScienceLibrary,ChineseAcademyofSciences,Beijing,100190 Abstract:Thisstudyexploitsseveralpossiblewaystomeettheneedsoflinkanalysisin Webometrics,anddesignsvariousofdatacollectionstrategiesandrulesoflinkclassificationand datafilteringforthesystemnamedLinkDiscoverertocollectrawlinkdatawiththeintentionof makinganycontributiontoimproveonthedatarealibilityinWebometrics.Thedatacollection rulesandtechniquesappliedinLinkDiscovereraredescribedindetailinthepaper.Finally,the performanceofLinkDiscovereronlinkanalysisisprovedduringthecasebasedstudy. Keywords:linkanalysis;datacollection;Webcrawler;Webometric 1.前言 近10年来,网络链接分析(WebLinkAnalysis)的理论、技术和方法在数学、计算机、 社会科学等多个领域得到了快速发展。正因为网络链接分析在犯罪调查、防止金融诈骗、 Web挖掘(如网络搜索服务和企业竞争情报分析)和通讯等方面存在潜在的、巨大的学术 价值和经济价值[1],网络链接分析引起了越来越多国内外学者的关注。此外,在数据挖掘 (DataMining)领域出现了新的研究分支——链接挖掘(LinkMining)。链接挖掘的主要任 务有基于链接的分类和聚类、链接实体间关系的判断与预测、链接强度的预测以及不确定因 素的识别(如信息提取、去重和引证分析中的对象识别等)[2]。 在图书情报领域,从“Webometrics”的提出[3],到对网络文献链接规律[4]、期刊网络影 响力[5]、学术科研机构之间链接规律[6][7][8]等方面的探索性研究,都是围绕链接分析展开的。 可以说,在超文本技术广泛应用的今天或者未来,无论是发展传统的信息计量学,还是另辟 蹊径,采用独特的理论和方法来研究网络上实体与实体之间的链接规律,网络链接是最为宝 贵的资源之一。所以,出于信息计量学研究的需要,综合利用多个学科的知识、从多个角度 对于链接挖掘的研究有着广泛而又深远的意义。然而,对于网络计量学的链接分析研究而言, 难点之一就是如何才能有效地获取序化的、可靠的用于链接分析的原始数据。由于网络链接 1 实现技术的多样性、链接技术应用的广泛性、链接动机的复杂性[9]、链接质量分布的不均衡 性和链接创建的方便性等诸多因素的存在,给链接分析研究的数据获取带来很大挑战。链接 分析结论的可信性很大程度上受到原始数据可靠性的影响和制约[10],不同的数据采集策略 和数据采集工具可能会导致完全不同甚至相反的结论,因此对于数据采集策略和数据采集工 具的研究是链接分析研究的基础和保证。数据采集策略的多样性和对不同样本集合的适用性 必须依赖于数据采集工具的灵活性,所以数据采集工具的优化是链接分析研究的第一步。从 链接分析的理论需要出发,作者认为对一个链接分析用数据采集工具性能的判断包含以下几 个方面的内容: (1)是否能够有效地获取样本集合内指向核心资源的链接; (2)数据的组织方式拟合分类方法是否很好地拟合于数据分析工具; (3)是否可以根据不同的研究需要制定不同的数据采集策略,如对数据采集深度和范 围的选择。 满足以上条件的数据采集工具获取才被认为是功能完备的,从其获取的数据才是可靠 的,而现有的数据采集工具,无论是商业软件还是共享免费软件都难以达到以上