数据抽取方法及装置.pdf
一条****贺6
亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
数据抽取方法及装置.pdf
本发明提供一种数据抽取方法及装置,其中方法包括:从多个异构数据源中,确定包含目标属性的多个第一实体;对多个第一实体中的属性进行融合,得到属性集合;基于属性集合中属性以及与第二实体中属性的数据结构,确定属性集合的属性与第二实体的属性的映射关系;基于映射关系,对属性集合中的属性进行转换,得到转换后的属性,基于转换后的属性构建第二实体。本发明提供的数据抽取方法及装置,通过从多个异构数据源中,确定包含目标属性的多个相同实体,实现从多个异构数据源中自动抽取相同实体,提升了数据抽取效率。基于数据结构,确定抽取的实体数
从数据库抽取数据的方法和装置.pdf
本发明提供一种灵活性好,资源利用率高的从数据库抽取数据的方法和装置。本发明的从数据库抽取数据的方法,包括:按照预设轮询周期定期地获取数据库当前平均数据记录数值,当前平均数据记录数值表示单位时间内该数据库中出现的数据记录的数量;根据当前平均数据记录数值确定数据抽取周期;根据数据抽取周期执行从所述数据库中抽取数据操作。
增量数据抽取方法、装置及服务器.pdf
本申请提供一种增量数据抽取方法、装置及服务器,方法包括:从源数据库系统中获取最新产生的增量数据对应的标识;依据获取的标识和本地已抽取的最后一条增量数据的标识,确定待抽取增量数据的标识范围;从源数据库系统中抽取并存储标识范围对应的增量数据。由于本申请不需要在源数据库系统中安装任何代理程序,便可实现增量数据的抽取,从而可以降低增量数据抽取对源数据库正常运行的影响。
数据库随机抽取方法、装置及设备.pdf
本发明提供了一种数据库随机抽取方法、装置及设备。所述方法包括根据查询条件在数据库中随机抽取数据,生成初始种群;对当前种群中的个体进行遗传操作,迭代所述遗传操作;若当前种群中存在适应度不小于适应度期望值的个体或种群的迭代次数达到预设最大迭代次数,则将所述当前种群中适应度最大的个体作为全局最优解进行抽取。以此方式,能够根据用户输入的多维度适应度条件,动态调整公式参数;在遗传算法中的交叉和变异阶段加入去重方法;同时制定数据抽取规则,避免在相同的数据中反复抽取而导致的死循环,从而实现获取符合期望值的全局最优解的目
一种数据抽取方法与装置.pdf
本申请涉及一种数据抽取方法与装置,其中,一种数据抽取方法包括:设置数据抽取任务,其中,数据抽取任务用于抽取源数据系统的目的数据,数据抽取任务包括:源数据系统产生目的数据的开始时间和结束时间、数据抽取任务的启动条件、数据扫描操作和数据抽取操作;根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,其中,数据分布信息包括目的数据的数据量在数据抽取时间段上的分布情况,数据抽取时间段是开始时间和结束时间之间的时间段;对目的数据进行数据扫描操作,以判断数据抽取任务是否满足启动条件;当数据抽取任务满足启