预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

心智与计算448 心智与计算,Vol.1,No.4(2007),448-457 文章编号:MC-2007-046 收稿日期:2007-08-20 出版日期:2007-12-30 ©2007MC–厦门大学信息与技术学院 UsingDocumentRe-rankingforChinese InformationRetrievalSystem CHENYu,SHIXiao-dong (DepartmentofComputerScience,XiamenUniversity,Xiamen361005,China) clove2004@126.com Abstract:Forinformationretrieval,usershopetoacquiremorerelevantinformationfromthetopN rankingdocuments.Inthispaper,wedescribeaChineseInformationRetrieval(IR)systemthatuseadocument re-rankingmethodbasedontermdistributionofthetop100rankingdocuments,toimprovetheprecisionofthe 1000rankingdocumentsbyreorderingtheinitialretrievaldocuments.TheexperimentwithNTCIR-3formal Chinesetestcollectionshowsthattheproposedmethodofdocumentre-rankingcanimprovetheprecisionof theretrieveddocuments. Keywords:ChineseInformationRetrieval;DocumentRe-ranking;QueryExpansion 基于文档重排列的中文信息检索系统 陈禹,史晓东 (厦门大学计算机科学系,福建厦门361005) clove2004@126.com 摘要:对于文本信息检索,用户都希望从被检索出来的前N篇文章中得到更多的相关信息。本文介 绍一个基于文档重排列的中文信息检索系统。为了通过重排列初检索文本来提高检索结果的精确率,该 系统按照初检索结果中前100个排列文档中的关键词的分布对结果中的所有1000个文档进行重排列。 实验中使用NTCIR-3正式的中文测试数据作为测试集,结果表明,该系统对中文文本检索精确率的提 高取得一定的效果。 关键词:中文信息系统;文档重排序;扩展查询 中图分类号:TP391.1文献标识码:A UsingDocumentRe-rankingforChineseInformationRetrievalSystem449 1Introduction InformationRetrieval(IR)isusedtoretrieverelevantdocumentsfromalargedocumentcollectionfora userqueryandtheuserquerycanbeasimpledescriptionbynaturallanguage. ForChineseinformationretrieval,manyretrievalmodels,indexingstrategiesandqueryexpansion methodshavebeenstudiedandsuccessfullyused.SingleChinesecharacter[1],bi-gram[2],n-gram(n>2)and words[3]arethemostusedasindexingunits.Atpresent,bi-gramandwordarebothconsideredasthemost importanttoptwoindexingunitsinChineseinformationretrieval. Traditionally,informationretrievalsystemsuseaone-stageoratwo-stagemechanismtoretrieverelevant documentsfromalargedocumentcollection[4].Fortheone-stagemechanism,IRsystemsonlydoaninitial retrievalbasedonuserquery;forthetwo-stagemechanism,IRsystemswillmakeuseoftheinitialranking documentstoa