预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109543085A(43)申请公布日2019.03.29(21)申请号201811360836.7(22)申请日2018.11.15(71)申请人中电科嘉兴新型智慧城市科技发展有限公司地址314000浙江省嘉兴市南湖区亚太路705号创新大厦B段22F(72)发明人李栋陈昊姜雪平黄飞沈涵拯(74)专利代理机构北京酷爱智慧知识产权代理有限公司11514代理人向霞(51)Int.Cl.G06F16/951(2019.01)G06N3/04(2006.01)权利要求书2页说明书8页附图5页(54)发明名称数据提取方法、装置及计算机可读存储介质(57)摘要本发明实施例公开了一种数据提取方法、装置及计算机可读存储介质,方法包括:通过http方式请求多个待爬取页面的URL,并通过渲染服务器对多个待爬取页面进行渲染;下载渲染后的多个待爬取页面,以得到多个页面数据;对多个页面数据进行智能分析,以得到待爬取数据位置;根据待爬取数据位置提取目标数据。通过本发明实施例可以快速实现大量网页数据的爬取,解决了现有技术中需要手动为每个页面编写爬取规则的问题,降低了开发难度和开发时间,满足了大量数据爬取的需求。CN109543085ACN109543085A权利要求书1/2页1.一种数据提取方法,其特征在于,包括:通过http方式请求多个待爬取页面的URL,并通过渲染服务器对多个所述待爬取页面进行渲染;下载渲染后的多个所述待爬取页面,以得到多个页面数据;对多个页面数据进行智能分析,以得到待爬取数据位置;根据所述待爬取数据位置提取目标数据。2.如权利要求1所述的数据提取方法,其特征在于,通过渲染服务器对多个所述待爬取页面进行渲染具体包括:将js代码渲染至所述待爬取页面上,以及将通过ajax获取的数据渲染到所述待爬取页面上。3.如权利要求2所述的数据提取方法,其特征在于,对多个页面数据进行智能分析,以得到待爬取数据位置具体包括:对多个页面数据进行分类,以得到训练数据和测试数据;将所述训练数据输入卷积神经网络进行训练,以得到训练智能爬虫代码;采用所述测试数据对所述训练智能爬虫代码进行测试,以得到目标智能爬虫代码;将下载的多个页面数据输入所述目标智能爬虫代码中进行智能分析,以得到所述待爬取数据位置。4.如权利要求3所述的数据提取方法,其特征在于,所述卷积神经网络包括输入层、训练层和输出层,将所述训练数据输入卷积神经网络进行训练,以得到训练智能爬虫代码具体包括:将所述训练数据输入所述输入层,对所述训练层进行调整,所述训练数据经过调整后的所述训练层以及输出层后以得到所述训练智能爬虫代码。5.如权利要求4所述的数据提取方法,其特征在于,对所述训练层进行调整具体包括:调整所述卷积神经网络的参数、训练层的层数以及每一训练层的计算节点个数。6.如权利要求1-5任一项所述的数据提取方法,其特征在于,根据所述待爬取数据位置提取目标数据之后,所述方法还包括:通过清洗程序对所述目标数据进行格式化处理后存入数据库中。7.一种数据提取装置,其特征在于,包括:获取模块,用于通过http方式请求多个待爬取页面的URL;渲染模块,用于通过渲染服务器对多个所述待爬取页面进行渲染;下载模块,用于下载渲染后的多个所述待爬取页面,以得到多个页面数据;分析模块,用于对多个页面数据进行智能分析,以得到待爬取数据位置;提取模块,用于根据所述待爬取数据位置提取目标数据。8.如权利要求7所述的数据提取装置,其特征在于,还包括:存储模块,用于通过清洗程序对所述目标数据进行格式化处理后存入数据库中。9.一种数据提取装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求6所述的方法。2CN109543085A权利要求书2/2页10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求6所述的方法。3CN109543085A说明书1/8页数据提取方法、装置及计算机可读存储介质技术领域[0001]本发明涉及大数据处理技术领域,具体涉及一种数据提取方法、装置及计算机可读存储介质。背景技术[0002]随着大数据技术的兴起,企业和个人对数据的需求越来越大。获取数据时,若是非专业人员,往往通过手动复制粘贴的方式。当数据量特别小时,手动操作是可以解决问题的,但当数据量变大时,手动操作是无法满足需求的。对于企业来说,通常采取爬虫技术进行数据获取。[0003]目前,大部分爬虫技术与框架都需