预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

① 基于改进编辑距离的中文相似句子检索 ② 车万翔刘挺秦兵李生 (哈尔滨工业大学计算机学院信息检索研究室哈尔滨150001) {car,tliu}@ir.hit.edu.cn 摘要中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛 的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术 提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合 中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相 比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使 用该算法进行中文句子检索,最后获得了81.33%的查准率和95.31%的查全率。 关键词:改进编辑距离、相似句子检索、英文辅助写作 义词典的方法,可以很好的解决这一问题, 0引言但是单纯的使用语义词典的方法,并没有考 虑到句子内部的结构和词语之间的相互作 用关系,准确率不高。 相似句子检索,在自然语言处理领域具编辑距离通常被用于句子的快速模糊 有非常广泛的应用背景,如信息过滤技术中匹配领域,但是其规定的编辑操作不够灵 的句子模糊匹配,基于实例机器翻译的原语活,也没有考虑词语的同义替换。最后基于 言检索,自动问答技术中常问问题集的检索统计的方法,需要构造大量的训练语料,工 以及问题与答案的匹配,基于双语语料库的作量是十分巨大的,而且还存在着数据稀疏 英文辅助写作等。因此长期以来,相似句子 的问题。 检索问题,一直为人们所热衷。我们所提出的改进编辑距离的方法,吸 目前句子相似度计算一般分为三个等取了基于语义词典的方法和编辑距离方法 [1] 级,分别为语法相似度、语义相似度和语的优点,同时克服了它们的一些不足。与普 用相似度。计算句子之间的语用相似度,一通编辑距离算法不同,改进编辑距离方法同 直是人们的目标,但是其计算具有相当的难 时使用了HowNet[6]和《同义词词林》[7]两种 度,效果还不尽如人意。而在一般的应用中,语义资源,计算词汇之间的语义距离,同时 只计算句子的语义相似度就能够达到我们赋予不同编辑操作不同的权重,在不用经过 的需要。句子的语义相似,指的是两个句子词义消歧和句法分析的情况下,兼顾了词汇 之间结构类似并且词汇使用同义或者近义 的顺序和语义等信息,最终获得了81.33% 词代替。例如:“我喜欢吃苹果”与“我爱 的查准率和95.31%的查全率。本文的第1 吃香蕉”就是一对语义相似的句子。部分描述了英文辅助写作系统框架以及各 目前对句子语义相似度计算的研究方 个模块的算法。第2部分给出了测试结果。 法主要有:基于相同词汇的方法[1]、 第3部分讨论该系统的优点和缺点。第4部 使用语义词典的方法[2][3]、使用编辑距离[4] 分给出了最后的结论。 的方法,以及基于统计的方法[5]等。其中, 基于相同词汇的方法有很明显的局限性,对 于同义词之间的替换则无能为力。而使用语1.相似句子检索 ——————————————相似句子检索过程如图1所示。 ①863计划(2002AA147020-11)、国家自然科学基金 (60203020)资助项目。 ②男,1980年生,博士生;研究方向为自然语言处 理,信息检索;联系人。 1 表1.HowNet进行词扩展示例 原词扩展词 俺本人鄙人我吾 俺们我方我们吾吾侪咱咱们 按按捺把持扼制管束收束 压压制抑制制制约羁 图1.相似句子检索流程图按键按钮电键 核心的相似句子检索算法由候选句子其次,为提高系统的效率,首先对整个 粗匹配和句子相似度计算两部分组成。其语料库进行初步的筛选,确定数量不多但有 中,候选句子粗匹配模块首先到句库中找到可能与用户的需求相似的候选句,然后对这 可能与输入为相似句的候选句子,目的是提些候选句进行精确的语义相似度计算,得出 高检索效率。句子相似度计算模块将每一个最终的结果。 候选句子与输入句进行仔细的相似度计算,选择候选句的依据是,如果一个句子中 并按照相似度的大小排序,获得最终的输出与用户的需求相同或同义的词越多,越有可 结果。能与用户的需求相匹配,即权重越大。我们 采用信息检索中常用的倒排文档索引[8]的 1.1候选句子粗匹配方法进行检索。 在此,并不需要对用户输入句子中的词 进行词义消歧,而直接对所有扩展后的词进 候选句子粗匹配由词扩展和快速检索 行检索。这是由于输入的词并非孤立,当与 两个子部分构成。 其余的词共同检索的时候,能达到消歧的目 首先为了获得较高的召回率,必须对分 的。以“打”为例,当输入“打毛衣”时, 词以后的各个词汇进行适当的同义词扩展。 “打”被扩展为“打击”,“编织”等。一个 在此,对同义词的定义即不能太宽泛,又不 句子中同时含有“编织”和“毛衣”