预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115937871A(43)申请公布日2023.04.07(21)申请号202211694983.4(22)申请日2022.12.28(71)申请人中国互联网络信息中心地址100190北京市海淀区中关村南四街4号院2号楼506室(72)发明人张恒史磊张立坤刘宇(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师吴晓静(51)Int.Cl.G06V30/19(2022.01)G06N20/00(2019.01)G06F16/958(2019.01)权利要求书2页说明书9页附图9页(54)发明名称一种基于多模态特征的网页聚类方法及装置(57)摘要本申请提供了一种基于多模态特征的网页聚类方法及装置,该方法利用网页截图、网页结构信息和文本信息等多模态特征,分层次对待聚类网页进行聚类,可以保证聚类的精度。CN115937871ACN115937871A权利要求书1/2页1.一种基于多模态特征的网页聚类方法,其特征在于,包括:获取每个待聚类网页的网页截图;从所述网页截图中提取图片特征值,基于所述图片特征值对各个所述待聚类网页进行聚类,得到多个第一簇;确定所述第一簇中的中心点网页,获取所述中心点网页的网页结构信息;确定每两个所述第一簇中的中心点网页的网页结构信息是否一致;若一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值;若不大于,将每两个所述第一簇聚类为第二簇。2.根据权利要求1所述的方法,其特征在于,所述将每两个所述第一簇聚类为第二簇之后,还包括:确定每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;将每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第一归并概率;若所述中心点网页第一归并概率大于第一设定概率阈值,将每两个所述第二簇聚类为第三簇。3.根据权利要求2所述的方法,其特征在于,在将每两个所述第二簇聚类为第三簇之前,还包括:确定每两个所述第二簇中的中心点网页的图片特征值之间的差异是否大于所述设定阈值;若不大于,将每两个所述第二簇聚类为第三簇。4.根据权利要求1‑3中任意一项所述的方法,其特征在于,若每两个所述第一簇中的中心点网页的网页结构信息不一致,或,若每两个所述第一簇中的中心点网页的图片特征值之间的差异大于所述设定阈值,所述方法还包括:确定每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;将每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第二归并概率;若所述中心点网页第二归并概率大于第二设定概率阈值,将每两个所述第一簇聚类为第三簇。5.根据权利要求1所述的方法,其特征在于,从所述网页截图中提取图片特征值,包括:确定所述网页截图的平均哈希值、差异哈希值和感知哈希值,将所述平均哈希值、所述差异哈希值和所述感知哈希值确定为图片特征值。6.一种基于多模态特征的网页聚类装置,其特征在于,包括:第一获取模块,用于获取每个待聚类网页的网页截图;第一聚类模块,用于从所述网页截图中提取图片特征值,基于所述图片特征值对各个2CN115937871A权利要求书2/2页所述待聚类网页进行聚类,得到多个第一簇;第一确定模块,用于确定所述第一簇中的中心点网页;第二获取模块,用于获取所述中心点网页的网页结构信息;第二确定模块,用于确定每两个所述第一簇中的中心点网页的网页结构信息是否一致;第三确定模块,用于若每两个所述第一簇中的中心点网页的网页结构信息一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值;第二聚类模块,用于若每两个所述第一簇中的中心点网页的图片特征值之间的差异不大于设定阈值,将每两个所述第一簇聚类为第二簇。7.根据权利要求6所述的装置,其特征在于,所述装置还包括:第四确定模块,用于确定每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;第五确定模块,用于将每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第一归并概率;第三聚类模块,用于若所述中心点网页第一归并概率大于第一设定概率阈值,将每两个所述第二簇聚类为第三簇。8.根据权利要求7所述的装置,其特征在于,所述装置还包括:第六确定模块,用于确定每两个所述第二簇中的中心点网页的图片特征值之间的差异是否大于所述设定阈值,若不大于,触发所述第三聚类模块将每两个所述第二簇聚类为第三簇。9.根据权利要求6‑