预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102929882A*(12)发明专利申请(10)申请公布号CN102929882A(43)申请公布日2013.02.13(21)申请号201110227641.7(22)申请日2011.08.09(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼岛资本大厦一座四层847号邮箱(72)发明人陈宏杰张小洵薛贵荣(74)专利代理机构北京集佳知识产权代理有限公司11227代理人逯长明王宝筠(51)Int.Cl.G06F17/30(2006.01)权利要求书权利要求书2页2页说明书说明书99页页附图附图33页(54)发明名称一种网页标题的抽取方法与装置(57)摘要本发明提供了一种网页标题抽取方法。该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题,既具有较强的可读性和保留了较多的核心信息,又带有“标红”记号便于检索者快速获得检索内容。CN10298ACN102929882A权利要求书1/2页1.一种网页标题的抽取方法,其特征在于,该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则:查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将所述一段文字作为结果返回。2.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。3.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。4.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。5.根据权利要求1所述的方法,其特征在于,在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该方法还包括:从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或,从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或,从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,则:自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。7.一种网页标题的抽取装置,其特征在于,该装置包括:检索词位置确定单元、判断单元、断句符查找单元、第一匹配单元和结果返回单元,其中:所述检索词位置确定单元,用于确定检索词在网页标题中的位置;所述判断单元,用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元;如果否,则触发断句符查找单元;2CN102929882A权利要求书2/2页所述断句符查找单元,用于查找断句符;所述第一匹配单元,用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,触发结果返回单元。所述结果返回单元,用于在受到判断单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;在受到第一匹配单元触发时,将相应文字作为结果返回。8.根据权利要求7所述的装置,其特征在于,当所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:所述结果返回单元用于将网页标题中的