预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 中文网页信息检索测试集的构建、分析及应用李静静,闫宏飞Web引言的成功经验,我们构建了大规模中文网页信息检索中文信息学报文章编号:1003—0077(2008)01—00030—07信息检索评测对系统的研究、设计与发展一直有着显著的影响力。早期检索系统评测最著名的研究是Cleverdon在20世纪50年代末期开始进行的Cranfield实验[1],它开创了以测试集及评测指标来评测系统的模式。目前国际上比较著名的TREC会议[2’31在信息检索评测领域起到很好的示范作用,跨语言评测论坛CLEFE4]、NTCIR会议[53等都是专注于信息检索评测的。缺乏大规模的中文网页测试集制约了中文检索技术的发展,为了改变这种局面,参考TREC多年测试集CWT(Chinesecollection)[6],从2004年开始在全国搜索引擎和网上信息挖掘学术研讨会(SymposiumMining,简称SEWM)上,举办了中文网页检索评测项目,即SEWM中文网页检索评测,主要目的是通过网页测试集研究各种检索技术的优劣,以改进检索系统在真实网页环境下的性能。评测有两个任务:TD任务(TopicDistillation,主题提取任务)和作者简介:李静静(1982一),女,硕士,主妻研究方向为信息检索评测;闫宏飞(1973一),男,副教授,主要研究方向为信息第22卷第1期JOURNALINFORMATION摘要:随着Www的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础上,详细介绍了CwT的构建原则和方法,并对CwT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。关键词:计算机应用;中文信息处理;CWT;信息检索;评测;测试集;文档集ChineseCollections:Construction,AnalysisApplicationJing-jAbstract:WithWorldWideWeb,WebSEWMCWTprocessing;CWT;information基金项目:国家自然科学基金资助项目(60435020,60603056);国家863计划资助项目(2006AA012196)检索。2008年1月OFCHINESEPROCESSINGJan.,2008(北京大学北京100871)中图分类号:TP391文献标识码:ARetrievalTestandLIing,YANHong—feiUniversity,Beijingretrieval(IR)hascollections(CWT),and1ofsearchEngine收稿日期:2007—05—29定稿日期:2007—12—05V01.22,No.1(Peking100871,China)therapiddevelopmentinformationbeenhotresearchtopic,buthasrestrictedbylackappropriatecollections.Accordingframeworkexistingforeigncollections,weconstructedlarge-scaleorganizedevaluation.Basedinvestigationanalysisresearch,thedetailsinconstructingeachcomponentintroduced,andeffectivestatisticalexperimentscarriedthrough.ThemethodologyusedengineeringshouldbereadilyapplicableconstructionfutureKeywords:computerapplication;Chineseretrieval;evaluation;testcol一1ection:documenttesttocurrenttOcorpora.setaonare 万方数据 :笨翥罢二茹嚣塞篓霎譬CWT的构建要让文档集具有一定规模,能够容纳相当数量的网HPNP任务(Hometask/Namedtask,导航搜索任务)。这两个任务能够较好地反映网页检索中的用户需求。HPNP任务混合了主页查询(HP)和指定页面查询(NP)两个子任务。本文共五节,第二节介绍CWT的构建方法、过程及构建结果;第三节对CWT的三个组成部分分别进行了分析;第四节简单介绍了S