预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Web数据反馈的搭配抽取方法林建方;牛成;李生;郑德权【期刊名称】《哈尔滨工业大学学报》【年(卷),期】2010(042)002【摘要】为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信患,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.【总页数】5页(P281-285)【作者】林建方;牛成;李生;郑德权【作者单位】哈尔滨工业大学,语言语音教育部-微软重点实验室,哈尔滨,150001;微软亚洲研究院,北京,100080;哈尔滨工业大学,语言语音教育部-微软重点实验室,哈尔滨,150001;哈尔滨工业大学,语言语音教育部-微软重点实验室,哈尔滨,150001【正文语种】中文【中图分类】TF391【相关文献】1.一种基于扩展DOM树的Web数据自动抽取方法[J],陈远斌2.面向DeepWeb数据自动抽取的模板生成方法[J],杨晓琴;鞠时光;曹庆皇;王秀红3.一种自动抽取Web数据对象的方法[J],刘桂峰;李林;崔志明4.一种基于自动WEB数据抽取生成黄页的方法[J],扬抒;陈尚安;武刚5.面向开源社区的Web数据抽取方法研究[J],张方;尹刚;王涛;余跃因版权原因,仅展示原文概要,查看原文内容请购买