预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113901017A(43)申请公布日2022.01.07(21)申请号202111271659.7(22)申请日2021.10.29(71)申请人中国工商银行股份有限公司地址100140北京市西城区复兴门内大街55号(72)发明人杨启程翁晓俊王能楼亚楠(74)专利代理机构北京三友知识产权代理有限公司11127代理人刘熔赵平(51)Int.Cl.G06F16/182(2019.01)G06F16/172(2019.01)G06F16/16(2019.01)权利要求书2页说明书10页附图6页(54)发明名称基于HDFS的小文件处理方法及装置(57)摘要本申请提供了一种基于HDFS的小文件处理方法及装置,可用于金融领域或其他领域,该方法包括:获取目标文本文件,该目标文本文件包括:目标数据库集群对应的多条数据表记录,每条数据表记录包括:唯一对应的数据表的数据库名称和数据表名称,不同数据表记录对应的数据表不同,在每个数据表对应的HDFS中包含有至少一个小文件;根据预设的HQL语句模板、每个数据表对应的数据库名称和数据表名称,得到该数据表对应的小文件合并语句。本申请能够缓解HDFS存储压力,提高小文件合并的效率,进而能够提高数据库集群运行效率。CN113901017ACN113901017A权利要求书1/2页1.一种基于HDFS的小文件处理方法,其特征在于,包括:获取目标文本文件,该目标文本文件包括:目标数据库集群对应的多条数据表记录,每条数据表记录包括:唯一对应的数据表的数据库名称和数据表名称,不同数据表记录对应的数据表不同,在每个数据表对应的HDFS中包含有至少一个小文件;根据预设的HQL语句模板、每个数据表对应的数据库名称和数据表名称,得到该数据表对应的小文件合并语句;应用每个数据表对应的小文件合并语句,执行该数据表对应的小文件合并操作。2.根据权利要求1所述的基于HDFS的小文件处理方法,其特征在于,在所述根据预设的HQL语句模板、每个数据表对应的数据库名称和数据表名称,得到该数据表对应的小文件合并语句之前,还包括:获取每个数据表的存储格式;根据每个数据表的存储格式,过滤掉所述目标文本文件中的待过滤数据表记录,该待过滤数据表记录为非RC和非ORC存储格式的数据表对应的数据表记录。3.根据权利要求1所述的基于HDFS的小文件处理方法,其特征在于,所述应用每个数据表对应的小文件合并语句,执行该数据表对应的小文件合并操作,包括:应用每个数据表对应的小文件合并语句,并发执行同一数据表中不同分区各自对应的小文件合并操作,每个数据表包括:至少一个分区。4.根据权利要求3所述的基于HDFS的小文件处理方法,其特征在于,在所述应用每个数据表对应的小文件合并语句,并发执行同一数据表中不同分区各自对应的小文件合并操作之前,还包括:根据预设的标准分区键、每个数据表的分区键和分区键数据,对数据表的分区进行过滤。5.根据权利要求1所述的基于HDFS的小文件处理方法,其特征在于,所述获取目标文本文件,包括:获取目标数据库集群对应的数据表清单文件;将所述数据表清单文件划分为多个目标文本文件,所述多个目标文本文件中的数据表记录组成所述目标数据库集群对应的多条数据表记录;相对应的,所述应用每个数据表对应的小文件合并语句,执行该数据表对应的小文件合并操作,包括:应用每个数据表对应的小文件合并语句,并发执行不同目标文本文件对应的小文件合并操作。6.一种基于HDFS的小文件处理装置,其特征在于,包括:获取模块,获取目标文本文件,该目标文本文件包括:目标数据库集群对应的多条数据表记录,每条数据表记录包括:唯一对应的数据表的数据库名称和数据表名称,不同数据表记录对应的数据表不同,在每个数据表对应的HDFS中包含有至少一个小文件;生成模块,用于根据预设的HQL语句模板、每个数据表对应的数据库名称和数据表名称,得到该数据表对应的小文件合并语句;执行模块,用于应用每个数据表对应的小文件合并语句,执行该数据表对应的小文件合并操作。2CN113901017A权利要求书2/2页7.根据权利要求6所述的基于HDFS的小文件处理装置,其特征在于,还包括:获取存储格式模块,用于获取每个数据表的存储格式;过滤模块,用于根据每个数据表的存储格式,过滤掉所述目标文本文件中的待过滤数据表记录,该待过滤数据表记录为非RC和非ORC存储格式的数据表对应的数据表记录。8.根据权利要求6所述的基于HDFS的小文件处理装置,其特征在于,所述执行模块,包括:并发执行单元,用于应用每个数据表对应的小文件合并语句,并发执行同一数据表中不同分区各自对应的小文件合并操作,每个数据表包括:至少一个分区。9.一种电子设备,包括存储器、处理器及存