预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106066854A(43)申请公布日2016.11.02(21)申请号201610346373.3(22)申请日2016.05.23(71)申请人乐视控股(北京)有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视云计算有限公司(72)发明人李洪福李艳松(74)专利代理机构北京商专永信知识产权代理事务所(普通合伙)11400代理人方挺黄谦(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书8页附图2页(54)发明名称数据抓取方法及系统(57)摘要一种数据抓取方法,其包括:当某一网站被访问时,抓取多个数据包;解析所述任意一个数据包以确定所对应的协议类型;根据确定的所述协议类型选取作为外部数据信息的数据包;此外本公开还提供一种数据抓取系统;本公开的方法和系统通过确定接收到的数据包所基于的协议类型来针对性的获取可用于外部数据信息的数据包,而不是将抓取的所有的数据包都作为外部数据信息,这样即避免了分析所有的被抓取的数据包而造成的资源的浪费,也避免了对冗余的无用数据包进行盲目的分析所消耗的时间,同时也避免了过多的冗余数据包对识别结果的干扰,提升了通过外部数据信息识别数据包来源网站的准确率。CN106066854ACN106066854A权利要求书1/2页1.一种数据抓取方法,包括:当某一网站被访问时,抓取多个数据包;解析所述任意一个数据包以确定所对应的协议类型;根据确定的所述协议类型从所述多个数据包中选取作为用于识别所述某一网站的外部数据信息的数据包。2.根据权利要求1所述的方法,其中,当所述协议类型为http协议时,判断所述数据包的目的端口号是否为特定端口号;如果是,则所述根据确定的所述协议类型选取作为外部数据信息的数据包为:确定任意一个数据包为外部数据信息;如果否,则所述根据确定的所述协议类型选取作为外部数据信息的数据包为:确定前三个数据包为外部数据信息。3.根据权利要求2所述的方法,其中,确定前三个数据包为外部数据信息为:根据http三次握手通信确定被访问网站返回的起始SYN序列号;确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。4.根据权利要求1所述的方法,其中,当所述协议类型为udp协议时,所述根据确定的所述协议类型选取作为外部数据信息的数据包为:解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号;将所述多个数据包按照所述特征序列号递增的方式进行排列;确定前三个数据包为外部数据信息。5.一种数据抓取系统,包括:数据包抓取单元,用于当某一网站被访问时,抓取多个数据包;协议类型确定单元,用于解析任意一个数据包以确定所对应的协议类型;外部数据信息选取单元,用于根据确定的所述协议类型从所述多个数据包中选取作为用于识别所述某一网站的外部数据信息的数据包。6.根据权利要求5所述的系统,其中,还包括:端口号确定模块,用于当所述协议类型为http协议时,判断所述数据包的目的端口号是否为特定端口号;所述外部数据信息选取单元包括,第一选取组件,用于当所述协议类型为http协议,且所述数据包的目的端口号为特定端口号时,确定任意一个数据包为外部数据信息;第二选取组件,用于当所述协议类型为http协议,但所述数据包的目的端口号不为特定端口号时,确定前三个数据包为外部数据信息。7.根据权利要求6所述的系统,其中,所述第二选取组件包括:序列号确定器件,用于根据http三次握手通信确定被访问网站返回的起始SYN序列号;2CN106066854A权利要求书2/2页数据包确定器件,用于确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。8.根据权利要求5所述的系统,其中,当所述协议类型为udp协议时,所述外部数据信息选取单元包括:特征序列号确定组件,用于解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号;数据包排队组件,用于将所述多个数据包按照所述特征序列号递增的方式进行排列;数据包确定组件,用于确定前三个数据包为外部数据信息。3CN106066854A说明书1/8页数据抓取方法及系统技术领域[0001]本公开涉及互联网技术领域,特别涉及一种数据抓取方法及系统。背景技术[000