预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111723089A(43)申请公布日2020.09.29(21)申请号201910216038.5(22)申请日2019.03.21(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室(72)发明人颜博丁一(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张一军伊明明(51)Int.Cl.G06F16/22(2019.01)G06F16/28(2019.01)权利要求书2页说明书9页附图5页(54)发明名称一种基于列式存储格式处理数据的方法和装置(57)摘要本发明公开了一种基于列式存储格式处理数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收批量目标数据;根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。该方法能够降低压缩率和数据存储资源,解决了文件膨胀问题。CN111723089ACN111723089A权利要求书1/2页1.一种基于列式存储格式处理数据的方法,其特征在于,包括:接收批量目标数据;根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。2.根据权利要求1所述的方法,其特征在于,基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理之后,还包括:确定逻辑处理后所述批量目标数据的压缩率;根据所述压缩率,判断是否对所述批量目标数据进行重新排序;如果是,则根据目标数据的字段信息,确定所述批量目标数据间的新的相似度;以及,根据确定的新的相似度对所述批量目标数据进行排序。3.根据权利要求1所述的方法,其特征在于,根据目标数据的字段信息,确定所述批量目标数据之间的相似度的步骤包括:分析目标数据的字段信息,从所述目标数据的所有字段中筛选出多个排序字段;关联目标数据的所述多个排序字段的字段信息,确定所述批量目标数据之间的相似度。4.根据权利要求1-3任一项所述的方法,其特征在于,基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理的步骤包括:基于排序结果,按照列式存储格式将所述批量目标数据存储至Hive数据仓库中;和/或,所述列式存储格式为ORC文件存储格式。5.一种基于列式存储格式处理数据的装置,其特征在于,包括:接收模块,用于接收批量目标数据;排序模块,用于根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;逻辑处理模块,用于基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。6.根据权利要求5所述的装置,其特征在于,还包括检测模块,用于确定逻辑处理后所述批量目标数据的压缩率;根据所述压缩率,判断是否对所述批量目标数据进行重新排序;检测模块判断对所述批量目标数据进行重新排序,则所述排序模块根据目标数据的字段信息,确定所述批量目标数据间的新的相似度;以及,根据确定的新的相似度对所述批量目标数据进行排序。7.根据权利要求5所述的装置,其特征在于,所述排序模块还用于,分析目标数据的字段信息,从所述目标数据的所有字段中筛选出多个排序字段;关联目标数据的所述多个排序字段的字段信息,确定所述批量目标数据之间的相似度。8.根据权利要求5-7任一项所述的装置,其特征在于,所述逻辑处理模块还用于,基于排序结果,按照列式存储格式将所述批量目标数据存储至Hive数据仓库中;和/或,所述列式存储格式为ORC文件存储格式。9.一种电子设备,其特征在于,包括:一个或多个处理器;2CN111723089A权利要求书2/2页存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。3CN111723089A说明书1/9页一种基于列式存储格式处理数据的方法和装置技术领域[0001]本发明涉及计算机技术领域,尤其涉及一种基于列式存储格式处理数据的方法和装置。背景技术[0002]由列式存储格式的特点可知,使用列式存储时每一列的所有元素都是顺序存储的。其中,列式存储格式也有很多,例如ORC(OptimizedRowColumnar)存储格式。对于批量数据的存储,降低其压缩率是非常必要的。[0003]现有技术中,区别于行式存储格式,ORC采用的列式存储可在自己的存储单元内