预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

中文问答系统中答案抽取的 研究与实现人们期待更快速准确的搜索技术出现; 据统计,人们花费在答案抽取的时间很长; 传统的搜索引擎有很多弊端; 问答系统因此产生。 问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。 问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。答案抽取的基本步骤一般如下: ①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。 本文所要做的具体工作: 1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答案抽取的研究做好准备工作。 2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎,返回与问题相关的文档和网页。 3.答案抽取模块的处理:对返回的相关文档和网页进行处理,形成问题的候选答案集,对问题句和候选答案句进行句法分析,计算问题句和候选答案句的相似度,以相似度的高低排序候选答案,根据相应的答案抽取策略,返回问题的答案。 问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示:答案抽取模块的工作流程如下: ①把从信息检索模块得到的候选文档或网页切分成句子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除冗余的句子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 ⑤对相似度高的句子进行重新分析,根据问题的类型所对应的抽取策略,返回给用户需要的答案。 在第③步中进行相似度计算时,需要进行如下考虑: 为了使相似度的计算更加准确,需要对句子进行句法分析,得到句子中的关键词,和关键词有相同语义的词语,有时还需要考虑词语之间的顺序,以及各个词语之间的相互依存关系,根据词语的重要程度,为不同的词语设置不同的权重。比较典型的算法有以下几种: (1)基于模式匹配的算法 原理是:根据问题的类型,制定不同类型问题的答案模板。由于答案模板的覆盖率是有限的,因此这种算法的匹配程度不是很高。 (2)基于信息检索和信息抽取的算法 此算法主要是基于关键词来进行检索,它只考虑离散的词语,没有对句子的句法进行更深层次的分析,没有考虑词语与词语之间的顺序以及各个词语之间的相互依存关系,仅使用了匹配词与候选答案词的距离这一个特征,注定抽取出来的结果不会是很精确的答案。比较典型的算法有以下几种: (3)基于统计学习的算法 基于统计的方法主要对测试集进行训练,来构建隐马尔可夫模型或支持向量空间模型的方法,通过分析问句与答案句的各种相关特征,计算句子作为正确答案的概率。 (4)基于自然语言处理的算法 此算法主要是在对句子进行处理后,把每个句子表示成一个向量,通过对问题句与答案句进行相似度计算,返回相似度高的句子,然后再把返回的句子,根据问题的类型进行处理,返回给用户所需要的答案。每种答案抽取算法都有一定的弊端,现在所研究的答案抽取算法基本都是对句子进行句法分析处理基础之上的,得到的准确率是非常高的,因此本文提出了基于依存树的语义匹配相似度算法。在进行相似度计算对答案抽取之前,首先要对句子做更深层的处理,对句子进行句法和语义分析。通过词与词之间的相互依赖关系对句子进行句法分析是目前研究句子结构和语义的主要方法之一。 在进行相似度计算时,尽量先对句子进行预处理,去除一些不必要的修饰词,得到两个意思相同的句子。 相似度是一个0、1之间的浮点数,两个句子经过相似度计算得到的结果越大,则表示两者之间的匹配程度越高, 例如:“我喜欢吃土豆” “我爱吃马铃薯” 在经过语义分析之后,计算两者的相似度得到的结果为1,这样得出结论两者的语义是完全相同的。 相似度的计算方法分为以下几种: (1)基于关键词的相似度计算 这种计算方法对句子进行分词处理后,把句子看成词的线性序列,只是根据句子中的单词出现的频率等相关信息来计算句子的相似度。 把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间