预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

防止过拟合: 机器学习中防止过拟合的方法? 答:早停、数据扩展、正则化(L1、L2(权值衰减))、dropout 早停: 在训练数据不足时,或者过训练时,常常会导致过拟合问题。其直观表达如下图: 随着训练的进行,网络在训练数据上的误差越来越小,但是在验证集上的误差却渐渐增大,因为训练出的网络过拟合了训练集,对训练集已经不工作了。 在机器学习中,我们常常将原始数据划分为三部分:训练、验证和测试。验证集其实就是为了防止过拟合的,在训练过程中,我们常常用它来确定一组超参数(如通过验证集确定算法停止训练的epoch大小,根据验证集确定学习率等等)。这些过程并不在测试数据上进行,因为防止模型在测试数据上过拟合,这样导致后边的测试误差没有参考价值。 L2正则化问题(也称为权值衰减): L2正则化方法主要在代价函数后边添加一个正则项: C0代表原始代价函数,后面的一项就是L2正则项,是参数w的2-范数的平方,除以训练集样本数n,然后乘以一个权衡系数,1/2主要是方便于后边的求导计算。 从上式可以看出,L2正则化项对偏置b的更新没有影响,但是对w有影响。 从上式可以看出,权值w是在减小的,也即是通常所说的权值衰减问题(weightdecay)。 另外,对于mini-batch的随机梯度下降方法,w和b的更新公式有所差异: m表示一个mini-batch中的样本数目Cx表示第x个batch的代价函数。 L2正则化方法之所以可以防止过拟合,是因为模型的参数越小,复杂度就越小,对数据的拟合也就刚刚好。 L1正则化: 在原始的代价函数后边加上一个L1的正则项,即是权值w的绝对值之和,乘以lamda/n 求导之后: 上式中的sng(w)表示w的符号,那么权值w的更新公式为: 当w为正时,w减小,为负时,w增大。这样就使得w往0方向移动,也就相当于减小了网络的复杂度,防止过拟合。 Drop-out方法: L1和L2正则化方法是通过修改代价函数来实现,而Drop-out则是通过修改神经网络本身来实现,它是训练网络时的一种技巧。 在深度学习网络训练中,对于神经单元而言,按照一定的概率将其暂时从网络中丢弃。对于SGD方法,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。每一个网络都可以给出一个分类结果,有的正确,有的错误,随着训练的进行,大部分网络可以给出正确的分类结果,但是不会影响到整体的分类结果。 对于大规模神经网络而言,存在两个缺点:训练费时和容易过拟合 每次做完Drop-out,相当于从原始网络中找到一个更瘦的网络。 假如在每一次的迭代中,丢弃网络中半数的隐层神经元,得到一个半数网络。那么在若干次的迭代中,得到若干个半数网络,当然每一次的迭代所丢弃的神经元是不一样的。 数据扩展: 因为训练数据中的带标记数据收集比较困难,我们为了获取更多的训练数据,可以在原始数据上做改动,从而得到更多数据。如: 添加随机噪声 平移、旋转、缩放、翻转 截取原始图像中的一部分 颜色变换 样本偏斜问题: 样本偏斜也叫做数据集偏斜(unbalanced),它是指参与分类的两个类别之间的训练样本数目差异较大。如正类有10,000个样本,负类有100个,则会导致样本偏斜问题。 类别不平衡是指在分类任务中,不同类别的训练样本数目差别很大的情况。 现有的应对样本倾斜问题的方法有三种:对数目较多的一类采用欠采样方法。即是去除一些多余的样本,使得样本平衡,然后再进行学习;第二类方法即是对样本数目少的一类采用过采样的方法,即是增加一些样本,然后再进行学习;第三类方法则是直接基于原始训练集进行学习,但是在用训练好的分类器上预测时,利用上式做决策,称为阈值移动。 欠采样并不是简单的去除样本,可能会导致重要信息丢失,有效的方法为Easy-Ensemble。主要思想在于利用集成学习机制,将多数样本类划分为多个部分,供多个学习器使用,这样相当于对每一个学习器都进行了欠采样,对于整体而言,并不会丢失重要信息。 过采样不能简单的对初始正样本进行重复采样,否则会招致严重的过拟合,过采样代表性方法为SMOTE,即是通过对训练数据里的少量样本进行插值产生额外的样本。 再缩放方法:对于线性分类问题而言,通常利用预测值y与阈值进行比较,y>0.5则认为正类,反之为负类,y其实表示的是属于正样本的可能性,t=y/1-y表示的即是几率。通常认为t>1为正类,反之为负类。这种判别方法适用于正样本和负样本数目差不多时。但是当两类差别较大时,通常是通过t和观测几率进行比较。即是t=y/1-y>m+/m-,m+和m-分别表示正负样本数。基于前者和后者,对预测几率进行调整,得到: 这就是类别不平衡的一种基本策略----再缩放或再平衡。再缩放的思想是建立在训