预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109542909A(43)申请公布日2019.03.29(21)申请号201811411598.8(22)申请日2018.11.25(71)申请人杜广香地址252659山东省聊城市临清市代湾镇代南村卫生室(72)发明人不公告发明人(51)Int.Cl.G06F16/22(2019.01)G06F16/28(2019.01)权利要求书5页说明书16页附图2页(54)发明名称识别大数据存储系统中的关联性存储设备的方法及系统(57)摘要本发明公开了一种识别大数据存储系统中的关联性存储设备的方法及系统,其中方法包括:当接收到在大数据存储系统的多个存储设备中识别关联性存储设备的指示时,将大数据存储系统的统计时间区间划分为多个时间单元,将每个存储设备的每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,确定与每个存储设备相关联的高关联度的时间单元的数量、中关联度的时间单元的数量以及低关联度的时间单元的数量;计算多个存储设备中每个存储设备的时间关联性系数,将时间关联性系数大于关联性阈值的存储设备确定为数据文件的访问具有时间关联性的存储设备。CN109542909ACN109542909A权利要求书1/5页1.一种识别大数据存储系统中的关联性存储设备的方法,所述方法包括:当接收到在大数据存储系统的多个存储设备中识别关联性存储设备的指示时,读取大数据存储系统内信息记录设备中的设备信息文件,对所述设备信息文件进行解析以确定大数据存储系统中存储设备的数量SN;将大数据存储系统的统计时间区间划分为多个时间单元,其中时间单元的数量为TN,根据多个时间单元中的每个时间单元和大数据存储系统内多个存储设备中每个存储设备在统计时间区间内的访问记录信息确定每个存储设备在统计时间区间内的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多个4元组,其中每个4元组为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组;将每个存储设备的每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个存储设备的每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个存储设备的每个时间单元的内容关联度TRij,其中i和j为自然数,存储设备的数量SN≥i≥1并且时间单元的数量TN≥j≥1;将内容关联度大于第一关联度阈值的时间单元确定为高关联度的时间单元HT,将内容关联度小于或等于第一关联度阈值并且大于第二关联度阈值的时间单元确定为中关联度的时间单元MT,以及将内容关联度小于或等于第二关联度阈值的时间单元确定为低关联度的时间单元LT,其中与每个存储设备相关联的多个时间单元包括至少一个高关联度的时间单元HT、至少一个中关联度的时间单元MT和至少一个低关联度的时间单元LT;确定与每个存储设备相关联的高关联度的时间单元的数量HTNi、确定与每个存储设备相关联的中关联度的时间单元的数量MTNi以及确定与每个存储设备相关联的低关联度的时间单元的数量LTNi;针对于大数据存储系统内多个存储设备中的第i个存储设备进行以下内容:确定每个高关联度的时间单元所涉及的数据文件的数量并将每个高关联度的时间单元所涉及的数据文件的数量进行累加以确定HTNi个高关联度的时间单元所涉及的数据文件的总数量HFNi,确定每个高关联度的时间单元内的被访问次数并将每个高关联度的时间单元内的被访问次数进行累加以确定HTNi个高关联度的时间单元的总被访问次数HANi,确定每个高关联度的时间单元所涉及的数据文件的总存储尺寸并将每个高关联度的时间单元所涉及的数据文件的总存储尺寸进行累加以确定HTNi个高关联度的时间单元所涉及的数据文件的总存储尺寸HSi;确定每个中关联度的时间单元所涉及的数据文件的数量并将每个中关联度的时间单元所涉及的数据文件的数量进行累加以确定MTNi个中关联度的时