预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112748866A(43)申请公布日2021.05.04(21)申请号201911053521.2(22)申请日2019.10.31(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人薛耀宏王春明(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张一军王安娜(51)Int.Cl.G06F3/06(2006.01)G06F11/14(2006.01)权利要求书2页说明书13页附图7页(54)发明名称一种增量索引数据的处理方法和装置(57)摘要本发明公开了一种增量索引数据的处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收增量索引数据,并将所述增量索引数据存储到连续的缓存中;若所述缓存的空间已满,则将所述缓存中的增量索引数据存储到磁盘的临时子数据集中;每隔预设时间间隔或者每隔预设增量索引数据条数,将所述临时子数据集封装为只读的子数据集。该实施方式能够解决搜索引擎服务重启时重新加载、解析增量索引数据导致重启耗时长的技术问题。CN112748866ACN112748866A权利要求书1/2页1.一种增量索引数据的处理方法,其特征在于,包括:接收增量索引数据,并将所述增量索引数据存储到连续的缓存中;若所述缓存的空间已满,则将所述缓存中的增量索引数据存储到磁盘的临时子数据集中;每隔预设时间间隔或者每隔预设增量索引数据条数,将所述临时子数据集封装为只读的子数据集。2.根据权利要求1所述的方法,其特征在于,将所述增量索引数据存储到连续的缓存中,包括:将增量索引数据逐条存储到连续的数据缓存中,并将所述增量索引数据的文档ID和所述增量索引数据在所述数据缓存中的位置偏移量记录到索引缓存中。3.根据权利要求2所述的方法,其特征在于,将所述缓存中的增量索引数据存储到磁盘的临时子数据集中,包括:将所述数据缓存中的增量索引数据存储到磁盘的增量数据文件中;根据所述增量索引数据在所述磁盘中的位置偏移量更新所述索引缓存,并将更新后的所述索引缓存中的数据存储到所述磁盘的数据库引擎文件中;其中,所述临时子数据集中的文件对象包括增量数据文件和数据库引擎文件。4.根据权利要求3所述的方法,其特征在于,针对每条增量索引数据,采用如下方法确定该条增量索引数据在所述磁盘中的位置偏移量:将所述增量数据文件在所述磁盘中的起始位置与该条增量索引数据在所述数据缓存中的位置偏移量相加之和,作为该条增量索引数据在所述磁盘中的位置偏移量。5.根据权利要求3所述的方法,其特征在于,将所述临时子数据集封装为只读的子数据集,包括:判断所述缓存是否为空;若是,则将所述临时子数据集封装为只读的子数据集;若否,则将所述缓存中的增量索引数据存储到所述磁盘的临时子数据集中,并将所述临时子数据集封装为只读的子数据集。6.根据权利要求5所述的方法,其特征在于,将所述临时子数据集封装为只读的子数据集,包括:关闭所述临时子数据集中的所有文件对象;为所述临时子数据集分配快照ID,用快照ID重命名所述临时子数据集,并将所述临时子数据集封装为只读的子数据集;新建临时子数据集,打开新建的所述临时子数据集中的所有文件对象;其中,所述快照ID随着封装次数的增加依次递增。7.根据权利要求3所述的方法,其特征在于,在将所述临时子数据集封装为只读的子数据集之后,还包括:按照快照ID由大到小的顺序,依次将各个子数据集加载到内存中;按照快照ID由大到小的顺序,对内存中各个所述子数据集中的数据进行解析,并将解析后的数据存储到内存中。8.根据权利要求7所述的方法,其特征在于,针对每个子数据集,采用如下方法将所述2CN112748866A权利要求书2/2页子数据集加载到内存中:将所述子数据集中的数据库引擎文件读取到内存中;遍历所述数据库引擎文件,按照所述增量索引数据在所述磁盘中的位置偏移量,将键值映射到固定大小的桶中;按照由小到大的顺序,依次遍历每个桶,将每个桶对应的增量索引数据加载到内存中。9.根据权利要求7所述的方法,其特征在于,对各个所述子数据集中的增量索引数据进行解析,并将解析后的增量索引数据存储到内存中,包括:结合文档ID的位图,对内存中各个所述子数据集中的数据进行解析,并将解析结果存储到内存中;根据解析结果,更新所述文档ID的位图;其中,所述文档ID的位图表示各个文档ID对应的增量索引数据是否已被解析。10.根据权利要求9所述的方法,其特征在于,针对每个子数据集中的各条增量索引数据,采用如下方法进行解析:判断待解析的增量索引数据在所述文档ID的位图中的状态是否为未被解析;若是,则从内存中获取所述待解析的增