预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115019328A(43)申请公布日2022.09.06(21)申请号202210767655.6(22)申请日2022.07.01(71)申请人支付宝(杭州)信息技术有限公司地址310023浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人朱强强(74)专利代理机构上海专利商标事务所有限公司31100专利代理师钱孟清(51)Int.Cl.G06V30/413(2022.01)G06V10/82(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书11页附图8页(54)发明名称内容风险识别方法和系统(57)摘要本公开提出了一种内容风险识别方法和系统。该方法包括:从页面上的目标内容提取实体集合;确定该目标内容的页面结构;对该实体集合进行分类以获得经分类实体集合;根据该经分类实体集合来识别该目标内容的业务属性;基于该业务属性和该页面结构来识别内容风险。CN115019328ACN115019328A权利要求书1/2页1.一种内容风险识别方法,包括:从页面上的目标内容提取实体集合;确定所述目标内容的页面结构;对所述实体集合进行分类以获得经分类实体集合;根据所述经分类实体集合来识别所述目标内容的业务属性;基于所述业务属性和所述页面结构来识别内容风险。2.根据权利要求1所述的方法,基于所述业务属性和所述页面结构来识别内容风险进一步包括:基于所述业务属性和所述页面结构来从所述经分类实体集合提取风险特征;计算所述风险特征的特征值;基于所计算的特征值来确定所述目标内容中是否存在内容风险。3.根据权利要求2所述的方法,基于所计算的特征值来确定所述目标内容中是否存在内容风险进一步包括:如果所计算的特征值满足预设阈值,则确定所述目标内容中存在内容风险;如果所计算的特征值不满足所述预设阈值,则确定所述目标内容中不存在内容风险。4.根据权利要求1所述的方法,确定所述目标内容的页面结构是通过FastRCNN算法来实现的。5.根据权利要求1所述的方法,对所述实体集合进行分类是通过多模态分类算法来实现的。6.根据权利要求1所述的方法,所述实体集合中的实体包括原子层实体和应用层实体,其中所述原子层实体表示所述目标内容中的最小内容块,所述应用层实体表示经合并的一个或多个语义相关的原子层实体。7.根据权利要求1所述的方法,所述内容风险包括以下一者或多者:纯空白风险、内容不符风险、商品服务缺失风险、功能不完整风险。8.根据权利要求1所述的方法,所述目标内容包括长图页面、纯图像、或纯文本。9.一种内容风险识别系统,包括:提取模块,从页面上的目标内容提取实体集合;结构确定模块,确定所述目标内容的页面结构;分类模块,对所述实体集合进行分类以获得经分类实体集合;业务属性模块,根据所述经分类实体集合来识别所述目标内容的业务属性;风险识别模块,基于所述业务属性和所述页面结构来识别内容风险。10.根据权利要求9所述的系统,所述风险识别模块被进一步配置成:基于所述业务属性和所述页面结构来从所述经分类实体集合提取风险特征;计算所述风险特征的特征值;基于所计算的特征值来确定所述目标内容中是否存在内容风险。11.根据权利要求10所述的系统,所述风险识别模块被进一步配置成:如果所计算的特征值满足预设阈值,则确定所述目标内容中存在内容风险;如果所计算的特征值不满足所述预设阈值,则确定所述目标内容中不存在内容风险。12.根据权利要求9所述的系统,所述结构确定模块被进一步配置成通过FastRCNN算2CN115019328A权利要求书2/2页法来确定所述目标内容的页面结构。13.根据权利要求9所述的系统,所述分类模块被进一步配置成通过多模态分类算法来对所述实体集合进行分类。14.根据权利要求9所述的系统,所述实体集合中的实体包括原子层实体和应用层实体,其中所述原子层实体表示所述目标内容中的最小内容块,所述应用层实体表示经合并的一个或多个语义相关的原子层实体。15.根据权利要求9所述的系统,所述内容风险包括以下一者或多者:纯空白风险、内容不符风险、商品服务缺失风险、功能不完整风险。16.根据权利要求9所述的系统,所述目标内容包括长图页面、纯图像、或纯文本。17.一种计算机可读存储介质,其存储计算机程序,所述计算机程序能被处理器执行以执行如权利要求1‑8中任一项所述的方法。3CN115019328A说明书1/11页内容风险识别方法和系统技术领域[0001]本公开主要涉及风险识别,尤其涉及基于实体挖掘的内容风险识别。背景技术[0002]由于内容业务开发者的开发和运营质量参差不齐,内容风险渗透从开发到上线之后的多个场景,严重损害了用户的服务体验。业务内容往往容易出现一系列