预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113360734A(43)申请公布日2021.09.07(21)申请号202110768852.5(22)申请日2021.07.07(71)申请人脸萌有限公司地址英国开曼群岛(72)发明人汪罕熊泓宇冯一琦刘臻张皓程刘宾(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人李柯莹(51)Int.Cl.G06F16/906(2019.01)G06F16/9535(2019.01)G06F16/958(2019.01)G06Q30/02(2012.01)权利要求书2页说明书13页附图2页(54)发明名称网页分类方法、装置、存储介质及电子设备(57)摘要本公开涉及一种网页分类方法、装置、存储介质及电子设备,所述方法包括:获取待分类网页的特征信息,所述特征信息包括搜索引擎优化信息、从所述待分类网页分享到第三方网站的网页分享信息、与所述待分类网页对应的网站在平台投放的与所述待分类网页相关的网页广告信息以及从渲染所述待分类网页的渲染图像结果中提取的网页渲染信息中的至少两种;根据各所述特征信息分别预测所述待分类网页的候选网页类别;从所有所述候选网页类别中确定所述待分类网页所属的目标网页类别。利用待分类网页的多种特征信息预测待分类网页的候选网页类别,进一步再从候选网页类别中确定待分类网页的目标网页类别,提高网页分类的准确率。CN113360734ACN113360734A权利要求书1/2页1.一种网页分类方法,其特征在于,包括:获取待分类网页的特征信息,所述特征信息包括搜索引擎优化信息、从所述待分类网页分享到第三方网站的网页分享信息、与所述待分类网页对应的网站在平台投放的与所述待分类网页相关的网页广告信息以及从渲染所述待分类网页的渲染图像结果中提取的网页渲染信息中的至少两种;根据各所述特征信息分别预测所述待分类网页的候选网页类别;从所有所述候选网页类别中确定所述待分类网页所属的目标网页类别。2.根据权利要求1所述的方法,其特征在于,所述从所有所述候选网页类别中确定所述待分类网页所属的目标网页类别,包括:确定各所述特征信息的置信度;对所有所述置信度进行归一化处理;在所有经过归一化处理的置信度中最大的置信度大于或等于第一预设阈值的情况下,将与该最大的置信度对应的特征信息所对应的候选网页类别确定为所述待分类网页所属的目标网页类别。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所有经过归一化处理的置信度中最大的置信度小于所述第一预设阈值的情况下,将预设类别确定为所述待分类网页所属的目标网页类别,其中,所述预设类别包括低质量网页类别。4.根据权利要求2所述的方法,其特征在于,所述特征信息包括所述搜索引擎优化信息,通过以下方式确定所述搜索引擎优化信息的置信度:根据所述搜索引擎优化信息,确定所述待分类网页在第一搜索引擎中的第一排名值;在所述第一排名值位于前预设数量之内时,确定所述搜索引擎优化信息的置信度为预设置信度;在所述第一排名值位于前预设数量之外时,确定所述待分类网页的辅助网页,其中,所述辅助网页为与所述搜索引擎优化信息对应的网页类别所属类别相同的网页;确定所述待分类网页和所述辅助网页在第二搜索引擎的第二排名值;根据所述待分类网页和所述辅助网页在所述第二搜索引擎的第二排名值,确定所述待分类网页和所述辅助网页的平均排名值;采用以下公式计算所述搜索引擎优化信息的置信度:Con1=sigmoid((M+T)/R+(K‑R)/M);其中,所述Con1为所述搜索引擎优化信息的置信度,所述M为所述待分类网页和所述辅助网页在所述第二搜索引擎中的最低排名值,所述T为所述预设数量,所述K为所述平均排名值,所述R为所述待分类网页的第一排名值。5.根据权利要求2所述的方法,其特征在于,所述特征信息包括所述网页分享信息,通过以下方式确定所述网页分享信息的置信度:获取从所述第三方网站分享到所述待分类网页的第一用户数量和访问所述待分类网页的第二用户数量;根据所述第一用户数量和所述第二用户数量,确定所述网页分享信息的置信度。6.根据权利要求2所述的方法,其特征在于,所述特征信息包括所述网页广告信息,通2CN113360734A权利要求书2/2页过以下方式确定所述网页广告信息的置信度:获取所述网页广告信息对应的广告的点击通过率、跳出率和退出率;采用以下公式计算所述网页广告信息的置信度:Con2=CTR/(bouncerate+A*exiterate);其中,所述Con2为所述网页广告信息的置信度,所述CTR为所述点击通过率,所述bouncerate为所述跳出率,所述exiterate为所述退出率,所述A为预设网站参数。7.根据权利要求2所述的方法,其特征在于,所述特征信