预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114154043A(43)申请公布日2022.03.08(21)申请号202111487908.6(22)申请日2021.12.07(71)申请人深信服科技股份有限公司地址518055广东省深圳市南山区学苑大道1001号南山智园A1栋一层(72)发明人黄明义何松(74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙)44285代理人吴欣蔚(51)Int.Cl.G06F16/951(2019.01)G06F16/958(2019.01)G06F16/35(2019.01)权利要求书2页说明书11页附图3页(54)发明名称网站指纹的计算方法、系统、存储介质和终端(57)摘要本申请提供一种网站指纹的计算方法,包括:获取网站样本,并从网站样本中确定目标网站;计算目标网站对应文档对象化模型的结构向量值;对目标网站爬虫,得到静态资源列表,解析目标网站的静态文件资源列表,输出网站样本中每个静态资源对应的网站列表;解析目标网站的特征字段;根据结构向量值、每个静态资源对应的网站列表和特征字段对网站进行分类,并确定示例网站;将示例网站的特征作为网站指纹。本申请能够自动地在海量样本网站中发现具有相似性的网站,并将相似网站的公共特征提取成指纹,可以提高网站指纹的计算效率,减少人力投入,降低人工成本。本申请还提供一种网站指纹的检测系统、计算机可读存储介质和终端,具有上述有益效果。CN114154043ACN114154043A权利要求书1/2页1.一种网站指纹的计算方法,其特征在于,包括:获取网站样本,并从所述网站样本中确定目标网站;计算所述目标网站对应文档对象化模型的结构向量值;对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;解析所述目标网站的特征字段;根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;将所述示例网站的特征作为所述网站指纹。2.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述计算目标网站的文档对象化模型的结构向量值包括:获取目标网站html页面,构造所述文档对象化模型;在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;累加所有目标节点的权重值,得到结构向量值。3.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述解析所述目标网站的静态文件资源列表包括:对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映射关系;计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;对相邻静态文件资源名通过预设公式计算得到静态哈希值;判断所述静态资源字典是否包含所述静态哈希值;若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;若否,保存所述静态哈希值和对应的静态文件资源名列表、所述静态文件资源对应网页地址。4.根据权利要求3所述的网站指纹的计算方法,其特征在于,所述预设公式为:其中,i为每次计算取的相邻的静态文件资源个数且i大于2,j为每次计算取的若干静态文件资源中第一个静态文件资源在静态文件资源列表中的索引号,k为迭代遍历,用于遍2CN114154043A权利要求书2/2页历索引号在区间[j,j+i‑1]内的所有静态资源,xij为静态哈希值。5.根据权利要求3所述的网站指纹的计算方法,其特征在于,对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息包括:配置公共库资源的路径黑名单和/或文件名黑名单;删除所述静态文件资源名中版本号和随机数中的至少一种,并去除所述静态资源对应路径中的域名或IP地址。6.根据权利要求1所述的网站指纹的计算方法,其特征在于,根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站包括:根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站样本中的网站进行关联分析并归类,每个类中任一原始网站至少存在一个相似网站,所述原始网站和所述相似网站至少存在所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站中的两项相同;在每一类网站中确定至少