预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113742627A(43)申请公布日2021.12.03(21)申请号202111049017.2(22)申请日2021.09.08(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人刘伟陈由之王鹏李改变张博林赛群(74)专利代理机构北京市汉坤律师事务所11602代理人姜浩然吴丽丽(51)Int.Cl.G06F16/958(2019.01)G06F16/957(2019.01)权利要求书2页说明书10页附图4页(54)发明名称不良网站识别方法、装置、电子设备和介质(57)摘要本公开提供了一种不良网站识别方法、装置、电子设备和介质,涉及数据处理领域,尤其涉及网页处理与搜索引擎领域。一种不良网站识别方法,包括:确定多个网站中的满足引流目标条件的第一网站;根据多个网站之间的指向关系,从多个网站中确定第一网站的关联网站集,关联网站集中的每个网站具有指向第一网站的链接;并且响应于确定第一网站满足不良网站条件,将关联网站集中的网站识别为不良网站。CN113742627ACN113742627A权利要求书1/2页1.一种不良网站识别方法,包括:确定多个网站中的满足引流目标条件的第一网站;根据所述多个网站之间的指向关系,从所述多个网站中确定所述第一网站的关联网站集,所述关联网站集中的每个网站具有指向所述第一网站的链接;并且响应于确定所述第一网站满足不良网站条件,将所述关联网站集中的网站识别为不良网站。2.根据权利要求1所述的方法,确定所述第一网站的关联网站集包括获取所述多个网站中的具有指向所述第一网站的链接并且满足聚集条件的网站,其中,所述聚集条件包括以下各项中的至少一项:具有相同的IP地址和来自相同地区。3.根据权利要求1或2所述的方法,确定所述第一网站的关联网站集包括获取所述多个网站中的具有指向所述第一网站的链接并且满足异常网站条件的网站。4.根据权利要求3所述的方法,其中,所述异常网站条件包括以下各项中的至少一项:内链值在预定内链值范围内,网站规模在预定网站规模范围内,以及生命时间在预定生命时间范围内。5.根据权利要求3或4所述的方法,其中,满足所述异常网站条件的网站是通过使用预训练的模型来确定的。6.根据权利要求1‑5中任一项所述的方法,其中,所述引流目标条件包括以下各项中的至少一项:所述多个网站中有超过第一阈值的网站指向第一网站,和所述多个网站中的链接中有超过第二阈值的链接指向第一网站。7.根据权利要求1‑6中任一项所述的方法,其中,将所述关联网站集中的网站识别为不良网站后,所述方法还包括对所述关联网站集中的网站执行以下各项中的至少一项:降低收录,删除索引,调整搜索排序算法规则使得降低不良网站的排序。8.一种不良网站识别装置,包括:引流目标确定单元,用于确定多个网站中的满足引流目标条件的第一网站;关联网站确定单元,用于根据所述多个网站之间的指向关系,从所述多个网站中确定所述第一网站的关联网站集,所述关联网站集中的每个网站具有指向所述第一网站的链接;并且不良网站识别单元,用于响应于确定所述第一网站满足不良网站条件,将所述关联网站集中的网站识别为不良网站。9.根据权利要求8所述的装置,所述关联网站确定单元包括用于获取所述多个网站中的具有指向所述第一网站的链接并且满足聚集条件的网站的单元,其中,所述聚集条件包括以下各项中的至少一项:具有相同的IP地址和来自相同地区。10.根据权利要求8或9所述的装置,所述关联网站确定单元包括用于确定所述第一网站的关联网站集包括获取所述多个网站中的具有指向所述第一网站的链接并且满足异常网站条件的网站的单元。11.根据权利要求10所述的装置,其中,所述异常网站条件包括以下各项中的至少一项:内链值在预定内链值范围内,网站规模在预定网站规模范围内,以及生命时间在预定生命时间范围内。12.根据权利要求10或11所述的装置,其中,满足所述异常网站条件的网站是通过使用2CN113742627A权利要求书2/2页预训练的模型来确定的。13.根据权利要求8‑12中任一项所述的装置,其中,所述引流目标条件包括以下各项中的至少一项:所述多个网站中有超过第一阈值的网站指向第一网站,和所述多个网站中的链接中有超过第二阈值的链接指向第一网站。14.根据权利要求8‑13中任一项所述的装置,其中,所述装置还包括将所述关联网站集中的网站识别为不良网站后,对所述关联网站集中的网站执行以下各项中的至少一项的单元:降低收录,删除索引,调整搜索排序算法规则使得降低不良网站的排序。15.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,