预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103440236A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103440236103440236A(43)申请公布日2013.12.11(21)申请号201310421074.8(22)申请日2013.09.16(71)申请人中央民族大学地址100081北京市海淀区中关村南大街27号中央民族大学(72)发明人邱莉榕(74)专利代理机构北京科亿知识产权代理事务所(普通合伙)11350代理人汤东凤(51)Int.Cl.G06F17/27(2006.01)权利要求书1页权利要求书1页说明书5页说明书5页(54)发明名称藏语句法和语义角色联合标注方法(57)摘要本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。其包括下列步骤:a)单复句区分;b)语义角色标记;c)谓词识别;d)动词语义分类;e)句法结构标注;f)编辑修订语义角色标注结果。本发明提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。CN103440236ACN103426ACN103440236A权利要求书1/1页1.一种藏语句法和语义角色联合标注方法,其特征在于,包括下列步骤:a)单复句区分:将长句划分为若干短句;b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;f)编辑修订语义角色标注结果。2.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。3.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。4.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的所述语法角色为Arg0-5,Arg0表示动作的施事,Arg1表示动作的影响,Arg2-5根据谓词确定为不同的语义含义。5.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。6.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。7.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤c)中所述谓词包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格。8.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、领有动词、存在动词、互动动词、使役动词。2CN103440236A说明书1/5页藏语句法和语义角色联合标注方法技术领域[0001]本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。背景技术[0002]藏文信息处理领域研究内容百花齐放,在字、词和短语处理方面陆续取得了突破,句处理阶段的攻关已经开始。[0003]语义分析是计算语言学领域最具挑战性的课题之一,也是制约语言信息技术大规模应用的主要瓶颈。语义分析就是根据句子结构和句中实词的词义,推导出句子的实际语义,这是句处理的主要目标。[0004]语义角色标注的任务,就是找出句子中谓词的相应语义角色成分,如:施事、受事、时间、地点、方式等,这些成分的标注对于理解一个句子的语义起着重要作用。[0005]句法分析是根据给定语法,推导出句子的语法结构,一是确定句子所包含的谱系结构,一是确定句子的组成成分。句法分析结果的表达形式是句法树。[0006]一般的语义角色标注方法,是在给定句法树的情况下,研究如何应用于各种特征作用于机器学习算法。[0007]传统的语义角色标注研究,一般是在句