预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114969483A(43)申请公布日2022.08.30(21)申请号202210628305.1(22)申请日2022.05.20(71)申请人南京一盏神灯网络信息科技有限公司地址210000江苏省南京市鼓楼区集慧路16号联创科技大厦B座5层(72)发明人夏正新王东传邓鹏李鹏(74)专利代理机构江苏圣典律师事务所32237专利代理师贺翔(51)Int.Cl.G06F16/953(2019.01)G06F16/215(2019.01)权利要求书2页说明书5页附图3页(54)发明名称一种资讯去重的方法及装置(57)摘要本发明公开了一种资讯去重的方法,包括:根据资讯的网址进行第一层去重,当目标数据库中已保存有该网址时,丢弃该资讯;根据去除符号后的资讯标题进行第二层去重,当目标数据库中已保存有去除符号后的资讯标题时,丢弃该资讯;根据关键词进行第三层去重,当目标数据库中已保存有资讯的关键词及关键词的词频时,丢弃该资讯;通过三重去重保障,能有效的保证数据库中的数据不出现重复的资讯文章,从而避免用户重复浏览内容相同的网页。CN114969483ACN114969483A权利要求书1/2页1.一种资讯去重的方法,其特征在于,包括:根据资讯的网址进行第一层去重,当目标数据库中已保存有该网址时,丢弃该资讯;根据去除符号后的资讯标题进行第二层去重,当目标数据库中已保存有去除符号后的资讯标题时,丢弃该资讯;根据关键词进行第三层去重,当目标数据库中已保存有资讯的关键词及关键词的词频时,丢弃该资讯。2.根据权利要求2所述的方法,其特征在于,根据资讯的网址进行第一层去重,当目标数据库中已保存有该网址时,丢弃该资讯;根据去除符号后的资讯标题进行第二层去重,当目标数据库中已保存有去除符号后的资讯标题时,丢弃该资讯;进一步包括:在通过资讯的网址或去除符号后的资讯标题去重时,均是使用对应的哈希值进行判断。3.根据权利要求1所述的方法,其特征在于,根据关键词进行第三层去重还包括:获取资讯的关键词;生成所述关键词的哈希值;所述关键词的每位哈希值乘以所述关键词的权重,得到所述关键词的加权哈希值,然后将所有的关键词的加权哈希值相加得到整篇资讯的64位加权哈希值;将整篇资讯的64位加权哈希值简化为01串;根据简化的01串确定所述资讯与数据库中的资讯是否重复。4.根据权利要求3所述的方法,其特征在于,将整篇资讯的64位加权哈希值简化为01串,进一步包括:将整篇资讯的64位加权哈希值逐位与0比较,若大于0时将其转换为1,小于等于0转为0。5.根据权利要求3所述的方法,其特征在于,根据简化的01串确定所述资讯与数据库中的资讯是否重复,进一步包括:若简化的01串与数据库中的值有三个或三个以内的值相同,则说明所述资讯已存在数据库中,则所述资讯不再进行入库操作。6.根据权利要求3所述的方法,其特征在于:所述权重为所述关键词在整篇资讯中出现的频率。7.一种资讯去重的装置,其特征在于,包括:第一去重单元,用于根据资讯的网址进行第一层去重,当目标数据库中已保存有该网址时,丢弃该资讯;第二去重单元,用于根据去除符号后的资讯标题进行第二层去重,当目标数据库中已保存有去除符号后的资讯标题时,丢弃该资讯;第三去重单元,用于根据关键词进行第三层去重,当目标数据库中已保存有资讯的关键词及关键词的词频时,丢弃该资讯。8.根据权利要求7所述的装置,其特征在于,第三去重单元还包括:获取单元,用于获取资讯的关键词;生成单元,用于生成所述关键词的哈希值;计算单元,用于所述关键词的每位哈希值乘以所述关键词的权重,得到所述关键词的2CN114969483A权利要求书2/2页加权哈希值,然后将所有的关键词的加权哈希值相加得到整篇资讯的64位加权哈希值;简化单元,用于将整篇资讯的64位加权哈希值简化为01串;确定单元,用于根据简化的01串确定所述资讯与数据库中的资讯是否重复。9.根据权利要求8所述的方法,其特征在于,将整篇资讯的64位加权哈希值简化为01串,进一步包括:将整篇资讯的64位加权哈希值逐位与0比较,若大于0时将其转换为1,小于等于0转为0。10.根据权利要求8所述的方法,其特征在于:所述权重为所述关键词在整篇资讯中出现的频率。11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种资讯去重的方法的步骤。3CN114969483A说明书1/5页一种资讯去重的方法及装置技术领域[0001]本发明涉及互联网技术领域,特别涉及一种资讯去重的方法及装置。背景技术[0002]随着大数据时代的来临,资讯信息的获取对于每个企业的发展都是非常重要的。对于企业来说,从网络上