预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102033924A*(12)发明专利申请(10)申请公布号CN102033924A(43)申请公布日2011.04.27(21)申请号201010589269.X(22)申请日2010.12.08(71)申请人浪潮(北京)电子信息产业有限公司地址100085北京市海淀区上地信息路2号2-1号C栋1层(72)发明人文中领张雷张宇(74)专利代理机构北京安信方达知识产权代理有限公司11262代理人栗若木王漪(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书4页附图1页(54)发明名称一种数据存储方法和系统(57)摘要本发明提供了一种数据存储方法和系统;方法包括:将各存储的文件分割为预定大小的数据段;为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对应的数据段的属性信息;比较各数据段的内容,找出重复数据;将内容相同的两份或两份以上数据作为一组;对于各组重复数据,保留其中一份数据,并将该份数据的物理存储位置保存为该组中其他各份数据的冗余数据水印;如果一个数据段存在重复数据,则将该数据段中的重复数据用其冗余数据水印代替。本发明能够节省数据在物理存储实体上的空间资源,从而提高数据远程复制的效率和安全性。CN102394ACCNN110203392402033927A权利要求书1/2页1.一种数据存储方法,包括:将各存储的文件分割为预定大小的数据段;为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对应的数据段的属性信息;比较各数据段的内容,找出重复数据;将内容相同的两份或两份以上数据作为一组;对于各组重复数据,保留其中一份数据,并将该份数据的物理存储位置保存为该组中其他各份数据的冗余数据水印;如果一个数据段存在重复数据,则将该数据段中的重复数据用其冗余数据水印代替。2.如权利要求1所述的方法,其特征在于:所述比较各数据段的内容,找出重复数据的步骤中是采用KMP算法进行比较,找到最大长度的重复数据。3.如权利要求1所述的方法,其特征在于:各数据段的唯一标识信息可以但不限于采用红黑树的形式进行存储。4.如权利要求1到3中任一项所述的方法,其特征在于,所述将数据段中的重复数据用其冗余数据水印代替的步骤包括:将该数据段中的重复数据删除;在该数据段的唯一标识信息中,增加所删除的重复数据在该数据段中的位置,以及所删除的重复数据的冗余数据水印。5.如权利要求1到3中任一项所述的方法,其特征在于,还包括:当访问数据时,如果所访问的数据段中包含冗余数据水印,则从该冗余数据水印所表示的物理存储位置访问该冗余数据水印替代的数据。6.一种数据存储系统,其特征在于,包括:分割模块,用于将各存储的文件分割为预定大小的数据段;索引模块,用于为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对应的数据段的属性信息;比较模块,用于比较各数据段的内容,找出重复数据;处理模块,用于将内容相同的两份或两份以上数据作为一组;对于各组重复数据,保留其中一份数据,并将该份数据的物理存储位置保存为该组中其他各份数据的冗余数据水印;如果一个数据段存在重复数据,则将该数据段中的重复数据用其冗余数据水印代替。7.如权利要求6所述的系统,其特征在于:所述比较模块采用KMP算法进行比较,找到最大长度的重复数据。8.如权利要求6所述的系统,其特征在于:所述索引模块采用红黑树的形式存储各数据段的唯一标识信息。9.如权利要求6到8中任一项所述的系统,其特征在于,所述处理单元将数据段中的重复数据用其冗余数据水印代替是指:所述处理单元将该数据段中的重复数据删除;在该数据段的唯一标识信息中,增加所删除的重复数据在该数据段中的位置,以及所删除的重复数据的冗余数据水印。10.如权利要求6到8中任一项所述的系统,其特征在于,还包括:数据重定向模块,用于当收到对数据段的访问请求时,如果该数据段中包含冗余数据2CCNN110203392402033927A权利要求书2/2页水印,则将对于该冗余数据水印对应的数据的访问请求指向该冗余数据水印表示的物理存储位置。3CCNN110203392402033927A说明书1/4页一种数据存储方法和系统技术领域[0001]本发明涉及数据处理领域,具体涉及一种数据存储方法和系统。背景技术[0002]随着数字信息化速度的加快,数据量和访问量爆炸性的增加,作为数据保护的数据的复制和备份正在面临着巨大的考验。[0003]由于数据归档的规范性等一系列问题,造成了有大量的重复数据存在于物理存储设备中,从而浪费了大量物理存储空间,许多企业不得不因此加大对存储硬件设备的投入,增加了许多不必要的开销。[0004]目前主流的数据远程复制方式有完全复制、差量