预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111401416A(43)申请公布日2020.07.10(21)申请号202010147052.7(22)申请日2020.03.05(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人蒋晨之(74)专利代理机构北京三友知识产权代理有限公司11127代理人周达刘飞(51)Int.Cl.G06K9/62(2006.01)G06K9/00(2006.01)G06K9/32(2006.01)G06F21/64(2013.01)G06F16/958(2019.01)权利要求书3页说明书18页附图4页(54)发明名称异常网站的识别方法、装置和异常对抗行为的识别方法(57)摘要本说明书提供了异常网站的识别方法、装置和异常对抗行为的识别方法。在一个实施例中,异常网站的识别方法通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站。CN111401416ACN111401416A权利要求书1/3页1.一种异常网站的识别方法,包括:获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。2.根据权利要求1所述的方法,根据所述识别处理结果,确定所述目标网站是否为异常网站,包括:根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为;在确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为中的至少一种异常对抗行为的情况下,确定所述目标网站为异常网站。3.根据权利要求1所述的方法,所述预设的对抗行为识别模型还包括特征转化层,用于将所述第一文本特征、第二文本特征和图像特征映射到同一个特征度量空间。4.根据权利要求3所述的方法,根据所述第一文本特征、第二文本特征和图像特征来确定出对应的识别处理结果,包括:利用所述特征转化层对所述第一文本特征、第二文本特征和图像特征进行特征映射处理,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征;根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果。5.根据权利要求4所述的方法,根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果,包括:根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,分别计算处理后的第一文本特征和处理后的图像特征之间的第一类特征距离、处理后的第一文本特征和处理后的第二文本特征之间的第二类特征距离、处理后的图像特征和处理后的第二文本特征之间的第三类特征距离;根据所述第一类特征距离、第二类特征距离、第三类特征距离,确定对应的识别处理结果。6.根据权利要求1所述的方法,所述第一文本特征提取子网络和所述第二文本特征提取子网络之间的网络结构的差异值小于预设的差异值。7.根据权利要求6所述的方法,所述第一文本特征提取子网络的初始网络结构和所述第二文本特征提取子网络的初始网络结构相同。2CN111401416A权利要求书2/3页8.根据权利要求1所述的方法,所述预设的对抗行为识别模型按照以下方式训练得到:获取样本网页的html文本数据、网页的页面截图、页面的OCR文本数据作为样本数据;标注出所样本网页是否存在异常对抗行为,得到标注后的样本数据;