预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105893571A(43)申请公布日2016.08.24(21)申请号201610202499.3(22)申请日2016.03.31(71)申请人乐视控股(北京)有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视云计算有限公司(72)发明人张立宁余婧(74)专利代理机构北京中政联科专利代理事务所(普通合伙)11489代理人谢磊(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书6页附图2页(54)发明名称一种视频内容标签的建立方法和系统(57)摘要本公开公开了一种视频内容标签的建立方法和系统,所述方法包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。CN105893571ACN105893571A权利要求书1/2页1.一种视频内容标签的建立方法,包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。2.根据权利要求1所述的方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。3.根据权利要求1或2所述的方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签包括:根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。4.根据权利要求3所述的方法,其中,在所述得到二级关键词集合之后,还包括:根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。5.根据权利要求3所述的方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤之前,还包括:将分词词性表存储于云服务器中,并更新所述分词词性表;将停用词表存储于云服务器中,并更新所述停用词表。6.一种视频内容标签的建立系统,其特征在于,包括以下模块:网络地址获取模块,用于获取存储于云服务器中的视频的网络地址;播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页;描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。7.根据权利要求6所述的系统,其中,所述描述信息包括视频的标题和/或视频的内容简介。8.根据权利要求6或7所述的系统,其中,所述视频内容标签提取模块包括:分词模块和停用词过滤模块;所述分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;所述停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。9.根据权利要求8所述的系统,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。10.根据权利要求8所述的系统,还包括存储于云服务器中的分词词性表和停用词表,2CN105893571A权利要求书2/2页以及分词词性表更新模块和停用词表更新模块;所述分词词性表更新模块,用于更新所述分词词性表;所述停用词表更新模块,用于更新所述停用词表。3CN105893571A说明书1/6页一种视频内容标签的建立方法和系统技术领域[0001]本公开涉及云计算技术领域,尤其涉及种视频内容标签的建立方法和系统。背景技术[0002]云计算平台中每个视频的内容标签健全与否对于实现海量视频的管理、分析以及推荐即为重要。对于一些商业性的综合视频播放网站(例如乐视网、爱奇艺网、土豆优酷网)来说,很多视频由于上传时间过早等原因,其内容标签往往残缺不全,为了补全这些残缺的内容标签,这些商业性的综合视频播放网站通常采用人工方式对每个视频逐个确认其内容标签是否健全,如有残缺则补全该内容标签,这种视频内容标签的健全方式需要耗费大量的人力、物力、财力,尤其是在云计算中对海量视频的内容标签进行确认、补全时,其工作量太过庞大而无法进行。[0003]另外,对于一些专业性的类别视频播