预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115934670A(43)申请公布日2023.04.07(21)申请号202310219585.5(22)申请日2023.03.09(71)申请人智者四海(北京)技术有限公司地址100000北京市海淀区学院路甲5号1幢三层1#厂房3-011(72)发明人胡梦宇贾承昆张俊杰陈曦赵兵李大海(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463专利代理师刘广(51)Int.Cl.G06F16/182(2019.01)G06F16/16(2019.01)G06F16/174(2019.01)G06F16/172(2019.01)权利要求书2页说明书10页附图2页(54)发明名称HDFS多机房的副本放置策略验证方法与装置(57)摘要本申请提供了一种HDFS多机房的副本放置策略验证方法与装置,所述方法包括:采用优化解析工具对元数据节点的镜像文件进行解析获得所有文件的文件信息,并基于所述文件信息构建第一映射表;获取各数据节点的文件块列表,并基于所述各数据节点的文件块列表构建第二映射表;基于所述第一映射表、所述第二映射表,计算得到副本分布表;针对待验证文件,基于所述副本分布表验证所述待验证文件的副本放置策略是否符合预设分布。通过采用优化解析工具解析镜像文件,加快了解析速度、丰富了数据格式、减小了解析产出、补充了缺失字段;通过基于所述副本分布表进行离线分析,即使在文件副本数量较多的情况下,也可实现对各文件的副本放置策略的验证。CN115934670ACN115934670A权利要求书1/2页1.一种HDFS多机房的副本放置策略验证方法,其特征在于,所述方法包括:采用优化解析工具对元数据节点的镜像文件进行解析获得所有文件的文件信息,并基于所述文件信息构建第一映射表;其中,所述优化解析工具为针对路径解析方法、解析内容、解析数据输出和存储格式进行优化得到的解析工具;所述文件信息包括各文件对应的文件块信息;获取各数据节点的文件块列表,并基于所述各数据节点的文件块列表构建第二映射表;基于所述第一映射表、所述第二映射表,计算得到副本分布表;其中,所述副本分布表用于查询各文件的副本分布、各数据节点的副本分布;针对待验证文件,基于所述副本分布表验证所述待验证文件的副本放置策略是否符合预设分布。2.根据权利要求1所述的方法,其特征在于,针对路径解析方法、解析内容、解析数据输出和存储格式进行优化,包括:基于原生字符串解析方法解析所述镜像文件的路径信息;针对所述镜像文件的解析内容补充block_ids字段和ec_id字段;采用多线程并行的方式输出解析数据,并采用列式存储压缩所述解析数据。3.根据权利要求2所述的方法,其特征在于,所述block_ids字段用于表示各文件对应的文件块标识,所述ec_id字段用于表示各文件对应的纠删码文件标识。4.根据权利要求1所述的方法,其特征在于,所述第一映射表用于查询所有文件与所有文件块的映射关系,所述第一映射表包括:路径、文件大小、文件块数、文件块大小、文件块标识、纠删码文件标识、日期、集群。5.根据权利要求1所述的方法,其特征在于,所述第二映射表用于查询所有文件块与各数据节点的映射关系,所述第二映射表包括:文件块标识、数据节点标识、机房标识、日期、集群。6.根据权利要求1所述的方法,其特征在于,所述获取各数据节点的文件块列表,包括:从各数据节点的数据目录筛选出符合文件块命名规则的文件,基于所述符合文件块命名规则的文件得到各数据节点的文件块列表;和/或,从元数据节点的通信协议接口直接获取各数据节点上的文件块,得到各数据节点的文件块列表。7.根据权利要求1所述的方法,其特征在于,所述基于所述副本分布表验证所述待验证文件的副本放置策略是否符合预设分布,包括:基于所述副本分布表查询所述待验证文件的当前副本分布;判断所述待验证文件的当前副本分布是否符合待验证文件的预设分布;若不符合,则根据所述待验证文件的预设分布,针对所述待验证文件进行副本迁移操作使所述待验证文件的当前副本分布符合所述待验证文件的预设分布。8.一种HDFS多机房的副本放置策略验证装置,其特征在于,所述装置包括:第一构建模块,用于采用优化解析工具对元数据节点的镜像文件进行解析获得所有文件的文件信息,并基于所述文件信息构建第一映射表;其中,所述优化解析工具为针对路径解析方法、解析内容、解析数据输出和存储格式进行优化得到的解析工具;所述文件信息包2CN115934670A权利要求书2/2页括各文件对应的文件块信息;第二构建模块,用于获取各数据节点的文件块列表,并基于所述各数据节点的文件块列表构建第二映射表;第三构建模块,用于基于所述第一映射表、所述第二映射表,计算得到副本分布表;其中,所述副本分