预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103699661103699661A(43)申请公布日2014.04.02(21)申请号201310741187.6(22)申请日2013.12.26(71)申请人乐视网信息技术(北京)股份有限公司地址100089北京市海淀区学院南路68号19号楼六层6184号房间(72)发明人曹坤波郑磊(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人许志勇(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书4页说明书4页附图3页附图3页(54)发明名称视频资源数据的获取方法及其系统(57)摘要本发明公开了一种视频资源数据的获取方法,其中该方法包括:根据所提供的抓取入口获取视频数据的列表页面;根据视频数据的列表页面获取视频数据的信息承载页面;抓取所述信息承载页面所承载的视频数据。通过本发明能够提高视频数据的抓取效率。CN103699661ACN10369ACN103699661A权利要求书1/1页1.一种视频资源数据的获取方法,其特征在于,包括:根据所提供的抓取入口获取视频数据的列表页面;根据视频数据的列表页面获取视频数据的信息承载页面;抓取所述信息承载页面所承载的视频数据。2.根据权利要求1所述的方法,其特征在于,所述信息承载页面包括:视频播放页面、视频信息展现页面。3.根据权利要求1所述的方法,其特征在于,所述根据视频数据的列表页面获取视频数据的信息承载页面,包括:根据预先设置的关键词在视频数据的列表页面进行匹配处理,确定待抓取的视频数据的统一资源定位符地址;根据确定的视频数据的统一资源定位符地址获取该视频数据的信息承载页面。4.根据权利要求1所述的方法,其特征在于,还包括:根据预先设置的模板匹配所述信息承载页面所承载的视频数据,解析得到视频数据的多维度的信息,包括:标题信息、简介信息、集数信息、视频时间信息。5.根据权利要求1所述的方法,其特征在于,还包括:根据所述视频数据的描述信息确定所述视频数据中的干扰信息,并删除所述视频数据中的干扰信息,所述干扰信息包括:广告信息、花絮信息、对外链接、排行榜信息;将去除干扰信息后的视频数据以文档对象模型结构存储至数据库中。6.一种视频资源数据的获取系统,其特征在于,包括:第一获取模块,用于根据所提供的抓取入口获取视频数据的列表页面;第二获取模块,用于根据视频数据的列表页面获取视频数据的信息承载页面;抓取模块,用于抓取所述信息承载页面所承载的视频数据。7.根据权利要求6所述的系统,其特征在于,所述信息承载页面包括:视频播放页面、视频信息展现页面。8.根据权利要求6所述的系统,其特征在于,所述第二获取模块还用于根据预先设置的关键词在视频数据的列表页面进行匹配处理,确定待抓取的视频数据的统一资源定位符地址,根据确定的视频数据的统一资源定位符地址获取该视频数据的信息承载页面。9.根据权利要求6所述的系统,其特征在于,还包括:解析模块,用于根据预先设置的模板匹配所述信息承载页面所承载的视频数据,解析得到视频数据的多维度的信息,包括:标题信息、简介信息、集数信息、视频时间信息。10.根据权利要求6所述的系统,其特征在于,还包括:删除模块,用于根据所述视频数据的描述信息确定所述视频数据中的干扰信息,并删除所述视频数据中的干扰信息,所述干扰信息包括:广告信息、花絮信息、对外链接、排行榜信息;存储模块,用于将去除干扰信息后的视频数据以文档对象模型结构存储至数据库中。2CN103699661A说明书1/4页视频资源数据的获取方法及其系统技术领域[0001]本发明涉及信息检索技术,尤其涉及一种视频资源数据的获取方法及其系统。背景技术[0002]随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频节目。由于互联网提供的视频信息十分丰富,用户搜索十分方便,并且网络视频具有不断变化及更新速度快的特点。[0003]一般地,视频网站的视频资源的来源主要有:拥有版权的自有视频数据、其他合作方制动推送的视频数据、用户上传的视频数据(UGC)。除了上述的数据来源之外,通过网络抓取方式获得的视频数据也是比较重要的来源之一。[0004]但是,在全网数据增量的模式下,如何有效地抓取视频数据以及如何抓取到整洁、干净的视频数据,是亟需解决的技术问题。因此有必要提出改进的技术方案解决上述问题。发明内容[0005]本发明的主要目的在于提供一种视频资源数据的获取方法及其系统,以解决现有技术存在的抓取视频数据效率低下的问题。[0006]为了解决上述问题,根据本发明的一方面,提供了一种视频资源数据的获取方法,其包括:根据所提供的抓取入口获取视频数据的列表页面;根据视频数据的列表页面获取视频