GBDT：梯度提升决策树-豆柴文库

GBDT：梯度提升决策树.doc

2024-05-03

4金币

406KB

7页

你的****书屋

实名认证

内容提供者

1/7

2/7

3/7

4/7

5/7

6/7

7/7

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

综述 GBDT(GradientBoostingDecisionTree)又叫MART（MultipleAdditiveRegressionTree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。 GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中，Facebook使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高CTR预估（Click-ThroughRatePrediction）的准确性（详见参考文献5、6）；GBDT在淘宝的搜索及预测业务上也发挥了重要作用（详见参考文献7）。一、RegressionDecisionTree：回归树回归树总体流程类似于分类树，区别在于，回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化平方误差。也就是被预测出错的人数越多，错的越离谱，平方误差就越大，通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)，若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。（引用自一篇博客，详见参考文献3）回归树示例回归树算法如下图（截图来自《统计学习方法》5.5.1CART生成）：回归树生成算法二、BoostingDecisionTree：提升树算法提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时，每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树，残差的意义如公式：残差=真实值-预测值。提升树即是整个迭代过程生成的回归树的累加。举个例子，参考自一篇博客（参考文献4），该博客举出的例子较直观地展现出多棵决策树线性求和过程以及残差的意义。训练一个提升树模型来预测年龄：训练集是4个人，A，B，C，D年龄分别是14，16，24，26。样本中有购物金额、上网时长、经常到百度知道提问等特征。提升树的过程如下：提升树示例该例子很直观的能看到，预测值等于所有树值得累加，如A的预测值=树1左节点值15+树2左节点-1=14。因此，给定当前模型fm-1(x)，只需要简单的拟合当前模型的残差。现将回归问题的提升树算法叙述如下：提升树算法三、GradientBoostingDecisionTree：梯度提升决策树提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数时平方损失和指数损失函数时，每一步的优化很简单，如平方损失函数学习残差回归树。损失函数列表但对于一般的损失函数，往往每一步优化没那么容易，如上图中的绝对值损失函数和Huber损失函数。针对这一问题，Freidman提出了梯度提升算法：利用最速下降的近似方法，即利用损失函数的负梯度在当前模型的值，作为回归问题中提升树算法的残差的近似值，拟合一个回归树。（注：鄙人私以为，与其说负梯度作为残差的近似值，不如说残差是负梯度的一种特例）算法如下（截图来自《TheElementsofStatisticalLearning》）：梯度提升决策树算法算法步骤解释：1、初始化，估计使损失函数极小化的常数值，它是只有一个根节点的树，即ganma是一个常数值。2、（a）计算损失函数的负梯度在当前模型的值，将它作为残差的估计（b）估计回归树叶节点区域，以拟合残差的近似值（c）利用线性搜索估计叶节点区域的值，使损失函数极小化（d）更新回归树3、得到输出的最终模型f(x)四、重要参数的意义及设置推荐GBDT树的深度：6；（横向比较：DecisionTree/RandomForest需要把树的深度调到15或更高）以下摘自知乎上的一个问答（详见参考文献8），问题和回复都很好的阐述了这个参数设置的数学原理。【问】xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。用RandomForest所需要的树的深度和DecisionTree一样我能理解，因为它是用bagging的方法把DecisionTree组合在一起，相当于做了多次DecisionTree一样。但是xgboost/gbdt仅仅用梯度上升法就能用6个节点的深度达到很高的预测精度，使我惊讶到怀疑它是黑科技了。请

相关资料

GBDT：梯度提升决策树.doc

2024-05-03

406KB

基于梯度提升决策树(GBDT)算法的岩性识别技术.docx

基于梯度提升决策树(GBDT)算法的岩性识别技术基于梯度提升决策树(GBDT)算法的岩性识别技术摘要：岩性识别是地质勘探的重要任务之一，对于油气勘探和挖掘具有重要意义。本文基于梯度提升决策树(GBDT)算法，结合岩性识别技术，提出了一种自动化岩性识别方法。通过实验验证，该方法在岩性识别方面具有较好的性能和效果。关键词：岩性识别、梯度提升决策树、自动化、性能、效果1.引言岩性识别是地质勘探的重要环节，对于矿产资源开发和油气勘探具有重要意义。传统的岩性识别方法依赖于人工经验和专业知识，存在主观性和局限性。因此

2024-11-01

10KB

一种时空梯度提升决策树的方法.pdf

本发明公开了一种时空梯度提升决策树的方法，包括步骤一、目标数据获取，对原始数据进行筛选，得到目标地区气象站点的数据；步骤二、使用Python对数据中不需要的特征数据以及对剩余数据中的噪声数据进行线性处理，提高数据完整性；步骤三、对处理后的气象数据进行计算，将每日数据转为需要的月平均数据；步骤四、根据站点的时间属性信息和空间属性信息获得时空信息；步骤五、利用气象站点的纬度，月平均气温和月平均降水计算月SPEI数据；步骤六、ST‑GBDT模型构建与预测。该时空梯度提升决策树的方法，能够利用时空信息与GBDT相

2023-06-29

846KB

针对梯度提升决策树外包推理的隐私保护方法.pdf

本发明提供一种针对梯度提升决策树外包推理的隐私保护方法，模型拥有者将私密树转换后的GBDT模型发送至云服务器；用户通过哈希与加法同态密钥对待预测数据进行加密，将加密后的待预测数据发送至云服务器；云服务器和用户经过D轮通信执行安全比较协议，得到加密后的预测结果并发送至用户；用户解密后得到最终预测结果。更进一步的，在推理阶段的每一轮通信过程中，云服务器发送当前节点在密文下的预测值之前先进行随机树置换。本发明将轻量级哈希和加法同态加密技术用于梯度提升决策树的外包推理，定制了的安全比较和随机树置换协议，这些协议大

2023-08-19

467KB

基于梯度提升决策树的肽碎片离子强度建模.docx

基于梯度提升决策树的肽碎片离子强度建模肽质谱技术已经成为生物学、生命医学等领域中非常重要的分析方法之一，它可以帮助研究人员识别蛋白质的组成成分，并在不同分析领域中发挥着重要作用。肽质谱数据的解释和分析是肽质谱技术应用的重要环节之一，而其中的肽碎片离子强度建模问题是该领域中的一个具有挑战性的问题。肽质谱技术中的肽片段是指酶在蛋白质分子上切割生成的小分子，它们在肽质谱图中呈现出明显的质谱信号。肽碎片离子强度是肽片段在质谱图中的强度值，通常由仪器自动获取，但是由于实验条件的影响和噪声的干扰，离子强度数据往往是不

2024-11-06

10KB