预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109739817A(43)申请公布日2019.05.10(21)申请号201811604490.0(22)申请日2018.12.26(71)申请人杜广香地址252659山东省聊城市临清市代湾镇代南村卫生室(72)发明人不公告发明人(51)Int.Cl.G06F16/172(2019.01)G06F16/17(2019.01)权利要求书5页说明书16页附图3页(54)发明名称一种在大数据存储系统中存储数据文件的方法及系统(57)摘要本发明公开了一种在大数据存储系统中存储数据文件的方法及系统,其中方法包括:确定大数据存储系统在当前运行时间区间内的第一访问记录信息和在前一个运行时间区间内的第二访问记录信息;确定所有数据文件在当前运行时间区间内的第一被访问总数FAN和在前一个运行时间区间内的第二被访问总数SAN;对大数据存储系统的记录设备中存储的设备记录文件进行解析,以确定在当前运行时间区间内有效运行的存储设备的第一设备数量FDN,并确定在前一个运行时间区间内有效运行的存储设备的第二设备数量SDN;当确定进入数据文件的存储过程时,大数据存储系统向所有存储设备中的每个存储设备发送通知消息,以指示每个存储设备开始进行数据文件的存储过程。CN109739817ACN109739817A权利要求书1/5页1.一种在大数据存储系统中存储数据文件的方法,所述方法包括:在大数据存储系统的当前运行时间区间结束时,对大数据存储系统的记录设备中存储的访问记录文件进行解析,以确定所述大数据存储系统在当前运行时间区间内的第一访问记录信息和所述大数据存储系统在前一个运行时间区间内的第二访问记录信息,其中前一个运行时间区间与当前运行时间区间均包括相同数量的自然日并且前一个运行时间区间与当前运行时间区间是时间上相邻的两个运行时间区间;对第一访问记录信息进行解析以确定所述大数据存储系统的所有数据文件在当前运行时间区间内的第一被访问总数FAN,对第二访问记录信息进行解析以确定所述大数据存储系统的所有数据文件在前一个运行时间区间内的第二被访问总数SAN;对大数据存储系统的记录设备中存储的设备记录文件进行解析,以确定在当前运行时间区间内有效运行的存储设备的第一设备数量FDN,并确定在前一个运行时间区间内有效运行的存储设备的第二设备数量SDN,其中有效运行指大数据存储系统内的存储设备在特定的运行时间区间内连续运行的时间达到预定数量的自然日时,则确定存储设备在所述特定的运行时间区间内为有效运行;当第一设备数量FDN大于第二设备数量SDN并且第一被访问总数FAN大于第二被访问总数SAN时,确定比值FDN/SDN是否大于120%,如果是,则确定第一被访问总数FAN与第二被访问总数SAN的比值FAN/SAN是否大于第一设备数量与第二设备数量的比值FDN/SDN,如果是,则进入数据文件的存储过程;或者,当第一设备数量FDN小于第二设备数量SDN并且第一被访问总数FAN小于第二被访问总数SAN时,则确定第一被访问总数FAN与第二被访问总数SAN的比值FAN/SAN是否大于第一设备数量与第二设备数量的比值FDN/TDN,如果是,则确定比值FAN/SAN与比值FDN/TDN的差的绝对值是否大于增加阈值,如果是,则进入数据文件的存储过程;当确定进入数据文件的存储过程时,大数据存储系统向所有存储设备中的每个存储设备发送通知消息,以指示每个存储设备开始进行数据文件的存储过程:将接收到通知消息的存储设备作为当前的存储设备,对在所述当前的存储设备的记录存储区域中存储的本地记录文件进行解析以获取当前的存储设备中所有数据文件在当前运行时间区间内的被访问记录,以预定的时间长度为基本时间单元对当前的存储设备中所有数据文件在当前运行时间区间内的被访问记录进行统计以确定当前的存储设备的所有数据文件在当前运行时间区间内每个基本时间单元的被访问次数;将多个基本时间单元中被访问次数大于访问次数阈值的基本时间单元作为统计时间单元,以获得至少一个统计时间单元,确定每个统计时间单元中所涉及的多个数据文件,并获取每个统计时间单元中所涉及的多个数据文件的每个数据文件的元数据或简档数据;基于每个统计时间单元中所涉及的多个数据文件的元数据或简档数据生成每个统计时间单元的摘要信息,并为每个统计时间单元创建相关联的关联存储空间并将每个统计时间单元的摘要信息作为相关联的关联存储空间的摘要信息;在当前的存储设备接收到新的数据文件时,获取所述新的数据文件的元数据或简档数据,将所述新的数据文件的元数据或简档数据与每个关联存储空间的摘要信息进行内容匹配以确定新的数据文件与每个关联存储空间的内容匹配度,确定与所述新的数据文件的内容匹配度最大的关联存储空间并且将所述新的