预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114116224A(43)申请公布日2022.03.01(21)申请号202111442216.X(22)申请日2021.11.30(71)申请人上海致景信息科技有限公司地址200080上海市虹口区东大名路1158号3201室(72)发明人赵振洪陈钟浩管瑞峰刘运春(74)专利代理机构广州立凡知识产权代理有限公司44563代理人白利霞(51)Int.Cl.G06F9/50(2006.01)G06F16/16(2019.01)权利要求书2页说明书7页附图2页(54)发明名称文件合并方法、处理器及存储介质(57)摘要本发明实施例提供一种文件合并方法、装置、处理器及存储介质。方法包括:在Spark引擎写入Hive文件后,确定待合并文件的文件大小和文件数量;根据文件大小和文件数量确定本次的合并任务;提交合并任务至将Spark引擎,通过Spark引擎启动合并任务线程以对待合并文件进行合并,得到合并后的文件。以此方法合并小文件时,无需对离线计算任务进行任何修改,可以一次性优化目前集群中已有的全部离线任务,并且提高了下游任务的计算性能,降低了集群消耗的资源,使集群运行更加稳定。CN114116224ACN114116224A权利要求书1/2页1.一种文件合并方法,其特征在于,所述方法包括:在Spark引擎写入Hive文件后,确定待合并文件的文件大小和文件数量;根据所述文件大小和所述文件数量确定本次的合并任务;提交所述合并任务至将所述Spark引擎,通过所述Spark引擎启动合并任务线程以对所述待合并文件进行合并,得到合并后的文件。2.根据权利要求1所述的方法,其特征在于,所述在Spark引擎写入Hive文件后,确定待合并文件的文件大小和文件数量包括:在Spark引擎写入Hive文件后,确定合并文件功能配置项的状态值;在所述合并文件功能配置项的状态值表明为启动合并的情况下,根据写入的Hive文件确定待合并文件的文件大小和文件数量。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述合并文件功能配置项的状态值表明为启动合并的情况下,扫描Hdfs目录以获取本次任务的文件,以确定待合并文件的文件大小和文件数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述文件大小和所述文件数量确定本次的合并任务包括:确定文件合并数量配置项的参数;根据所述文件合并数量配置项的参数确定文件合并数量的下限值;在所述待合并文件的文件数量小于所述下限值的情况下,不启动对所述待合并文件的合并任务;在所述待合并文件的文件数量大于或等于所述下限值的情况下,根据所述文件大小和所述文件数量启动对所述待合并文件的合并任务。5.根据权利要求4所述的方法,其特征在于,在所述待合并文件的文件数量大于或等于所述下限值的情况下,根据所述文件大小和所述文件数量启动对所述待合并文件的合并任务包括:确定文件合并大小配置项的参数;根据所述文件合并大小配置项的参数确定文件合并后的文件大小目标值;在所述待合并文件的文件数量大于或等于所述下限值的情况下,根据每个待合并文件的大小对所述待合并文件中的文件进行合并,以使至少2个文件进行合并后得到的文件大小为所述文件大小目标值。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在所述待合并文件中存在有文件的文件大小大于或等于所述文件大小目标值的情况下,不对大于或等于所述文件大小目标值的文件进行合并。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:在所述待合并文件的文件数量大于或等于所述下限值的情况下,根据所述文件大小目标值和所述文件合并数量的下限值确定合并任务的进程数量;创建与所述进程数量相同的临时文件目录;根据所述文件大小目标值和所述文件合并数量的下限值确定每个临时文件目录对应的文件;分别将每个临时文件目录中的文件进行合并,以得到与每个临时文件目录对应的合并2CN114116224A权利要求书2/2页文件。8.根据权利要求4至7任意一项所述的方法,其特征在于,所述文件合并数量的下限值为10,所述文件大小目标值为128M。9.一种处理器,其特征在于,被配置成执行根据权利要求1至8中任意一项所述的文件合并方法。10.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至8中任一项所述的文件合并方法。3CN114116224A说明书1/7页文件合并方法、处理器及存储介质技术领域[0001]本发明涉及计算机技术领域,具体地涉及一种文件合并方法、处理器及存储介质。背景技术[0002]现有大数据平台离线数仓大都基于Hive构建,数据存储在HDFS上,离线数据分析任务通过Spark引擎编写