预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110377817A(43)申请公布日2019.10.25(21)申请号201910512254.4(22)申请日2019.06.13(71)申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦三层(72)发明人马春洋王园陈玉娴董维山(74)专利代理机构北京润平知识产权代理有限公司11283代理人肖冰滨王晓晓(51)Int.Cl.G06F16/9535(2019.01)权利要求书3页说明书11页附图5页(54)发明名称搜索词条挖掘方法和装置及其在多媒体资源的应用(57)摘要本发明实施例涉及信息技术及计算机技术领域,提供了一种搜索(query)词条挖掘方法和装置及其在多媒体资源的应用。所述搜索词条挖掘方法包括:从多种文本数据源中挖掘出候选搜索词条;对所述候选搜索词条进行质量审核;以及对通过所述质量审核后的候选搜索词条进行召回评估,并将通过所述召回评估的候选搜索词条确定为优质搜索词条。本发明实施例的搜索词条挖掘方法不仅基于多种文本数据源挖掘了搜索词条,还对搜索词条进行了质量审核和召回评估,只保留优质搜索词条,提高了搜索词条的搜索效果及实用性,且还能应用于多媒体资源中以主动满足用户对知识和资讯的搜索需求。CN110377817ACN110377817A权利要求书1/3页1.一种搜索词条挖掘方法,其特征在于,该搜索词条挖掘方法包括:从多种文本数据源中挖掘出候选搜索词条;对所述候选搜索词条进行质量审核;以及对通过所述质量审核后的候选搜索词条进行召回评估,并将通过所述召回评估的候选搜索词条确定为优质搜索词条。2.根据权利要求1所述的搜索词条挖掘方法,其特征在于,所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源:搜索热词、线上信息资源的文本数据以及多媒体资源的文本数据。3.根据权利要求1所述的搜索词条挖掘方法,其特征在于,所述从多种文本数据源中挖掘出候选搜索词条包括:从所述多种文本数据源中获取文本数据;以及基于所获取的文本数据的字数进行文本数据处理,以筛选出候选搜索词条。4.根据权利要求3所述的搜索词条挖掘方法,其特征在于,所述基于所获取的文本数据的字数进行文本数据处理包括:选择字数符合预设字数范围的文本数据作为所述候选搜索词条;以及对字数超出所述预设字数范围的文本数据,执行以下操作:对该文本数据进行关键词提取以形成关键词列表;对该文本数据进行长文本截断以形成若干短子句;以及若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值,则将该短子句作为所述候选搜索词条。5.根据权利要求1所述的搜索词条挖掘方法,其特征在于,所述对所述候选搜索词条进行质量审核包括:对所述候选搜索词条进行去重处理,以去除其中重复的词条;以及对通过所述去重处理后的所述候选搜索词条进行语法审核,以选择出符合预设语法规则的词条。6.根据权利要求1所述的搜索词条挖掘方法,其特征在于,所述对通过所述质量审核后的候选搜索词条进行召回评估包括:获取每一候选搜索词条对应的召回资源及该召回资源的标题;对所述每一候选搜索词条进行关键词提取,并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比,若该占比超过预设的资源匹配概率,则判定该候选搜索词条与对应召回资源的资源匹配度合格;获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比,若该占比超过预设的召回匹配概率,则判定针对该候选搜索词条的召回合格;以及将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。7.一种在多媒体资源中生成搜索词条的方法,其特征在于,所述方法包括:采用权利要求1至5中任意一项所述的搜索词条挖掘方法挖掘出优质搜索词条;将所述优质搜索词条匹配至多媒体资源;以及配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结2CN110377817A权利要求书2/3页果。8.根据权利要求7所述的方法,其特征在于,所述将所述优质搜索词条匹配至多媒体资源中包括:将所述优质搜索词条推送至所述多媒体资源中;和/或获取所述多媒体资源的内容,并匹配与所述多媒体资源的内容对应的所述优质搜索词条。9.一种搜索词条挖掘装置,其特征在于,所述搜索词条挖掘装置包括:候选词条挖掘模块,用于从多种文本数据源中挖掘出候选搜索词条;质量审核模块,用于对所述候选搜索词条进行质量审核;以及召回评估模块,用于对通过所述质量审核后的候选搜索词条进行召回评估,并将通过所述召回评估的候选搜索词条确定为优质搜索词条。10.根据权利要求9所述的搜索词条挖掘装置,其特征在于,所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源:搜索热词、线上信息资源的文