预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共36页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111143203A(43)申请公布日2020.05.12(21)申请号201911305402.1(22)申请日2019.12.13(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人林博(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人许振新(51)Int.Cl.G06F11/36(2006.01)G06N20/00(2019.01)权利要求书6页说明书21页附图8页(54)发明名称机器学习、隐私代码确定方法、装置及电子设备(57)摘要本说明书实施例公开了一种机器学习、隐私代码确定方法、装置及电子设备,其中,所述机器学习方法可以获取批量包含正、负样本的样本数据,正样本数据中包含隐私代码文件,负样本数据中不包含隐私代码文件;基于代码文件的相似性度量参数,从所述样本数据中筛选出多个第一代码文件,并从代码文件的隐私标签已知的预设代码库中筛选出多个第二代码文件;基于所述多个第一代码文件和所述多个第二代码文件,确定所述样本数据对应的目标参数;将所述样本数据对应的目标参数及所述样本数据的标签作为输入,训练目标模型,所述目标模型用于确定待检测的一批代码文件与隐私代码文件的相似性度量参数。CN111143203ACN111143203A权利要求书1/6页1.一种用于确定隐私代码的机器学习方法,包括:获取批量样本数据,其中,所述批量样本数据中包含正样本数据和负样本数据,正样本数据中包含隐私代码文件,负样本数据中不包含隐私代码文件;基于代码文件的相似性度量参数,从所述样本数据中筛选出多个第一代码文件,并从代码文件的隐私标签已知的预设代码库中筛选出多个第二代码文件,其中,一个第一代码文件对应一个第二代码文件,且第一代码文件与对应的第二代码文件的相似程度满足预设条件;基于所述多个第一代码文件和所述多个第二代码文件,确定所述样本数据对应的目标参数,其中,所述目标参数包括结构相似性参数和词向量参数中的至少一种,所述结构相似性参数表示所述多个第一代码文件形成的文件结构树与所述多个第二代码文件形成的文件结构树的相似性,所述词向量参数包括至少一个第一词向量和至少一个第二词向量,所述第一词向量为所述第一代码文件的路径中关键词的词向量,所述第二词向量为所述第二代码文件的路径中关键词的词向量;将所述样本数据对应的目标参数及所述样本数据的标签作为输入,训练目标模型,所述目标模型用于确定待检测的一批代码文件与隐私代码文件的相似性度量参数。2.根据权利要求1所述的方法,在所述基于代码文件的相似性度量参数,从所述样本数据中筛选出多个第一代码文件,并从代码文件的隐私标签已知的预设代码库中筛选出多个第二代码文件之前,还包括:确定所述样本数据和所述预设代码库中的代码文件的相似性度量参数。3.根据权利要求1所述的方法,所述目标参数包括结构性相似参数,其中,所述基于所述多个第一代码文件和所述多个第二代码文件,确定所述样本数据对应的目标参数,包括:基于所述多个第一代码文件的路径,构建第一文件结构树;基于所述多个第二代码文件的路径,构建第二文件结构树;基于所述第一文件结构树和所述第二文件结构树,确定所述样本数据对应的结构相似性参数。4.根据权利要求3所述的方法,在所述基于所述第一文件结构树和所述第二文件结构树,确定所述样本数据对应的结构相似性参数之前,还包括:剪去所述第一文件结构树中的孤立节点,得到剩余节点构成的第一子树;剪去所述第二文件结构树中的孤立节点,得到剩余节点构成的第二子树;其中,所述基于所述第一文件结构树和所述第二文件结构树,确定所述样本数据对应的结构相似性参数,包括:基于所述第一子树和所述第二子树,确定所述样本数据对应的结构相似性参数。5.根据权利要求1所述的方法,所述目标参数包括词向量参数,其中,所述基于所述多个第一代码文件和所述多个第二代码文件,确定所述样本数据对应的目标参数,包括:提取所述多个第一代码文件的路径中的关键词;确定所述多个第一代码文件的路径中的关键词的词向量,得到所述至少一个第一词向量;提取所述多个第二代码文件的路径中的关键词;确定所述多个第二代码文件的路径中的关键词的词向量,得到所述至少一个第二词向2CN111143203A权利要求书2/6页量。6.根据权利要求5所述的方法,其中,所述提取所述多个第一代码文件的路径中的关键词,包括:基于词频-逆文本频率指数TF-IDF算法,提取所述多个第一代码文件的路径中的关键词;其中,所述提取所述多个第二代码文件的路径中的关键词,包括:基于TF-IDF算法提取所述多个第二代码文件的路径中的关键词。7.根据权利要求1-6任一项所述的方法,代码文件的相