《深度学习调优指南.系统性优化模型》中文版

首页 > 交通 > > 正文

2023-06-22 06:36:53 程序员客栈

向AI转型的程序员都关注了这个号

PDF获取地址:

关注微信公众号 datayx 然后回复指南即可获取。

【资料图】

提高模型性能的科学方法

机器学习开发的最终目标是最大化模型的效用。尽管不同应用场景的开发流程有所不同（例如时间长度、可用计算资源、模型类型等），基本步骤和原则都是相似的。

接下来的指南中我们做出了这些假设：

已有能运行且得到不错结果的训练工作流。

有足够的计算资源来进行调参实验，至少能够并行发起数个训练流程。

增量调整策略

总结：从简单的配置开始，循序渐进，同时进一步了解问题。确保任何改进都有据可循，以避免增加不必要的复杂度。

我们的最终目标是找到一种训练配置来最大化我们模型的性能。

在某些情况下，我们的目标是在固定截止日期（例如提交给竞赛）之前最大限度地改进模型。

在其他情况下，我们希望无限期地改进模型（例如，不断改进生产中使用的模型）。

原则上，我们可以使用算法自动搜索整个配置空间来最大化性能，但实践中这往往不实际。

配置空间可能非常大，目前还没有任何算法可以在没有人工指导的情况下有效地搜索这个空间。

大多数自动搜索算法依赖于人工设计的搜索空间，这些搜索空间往往非常重要。

更有效的方法是从简单的配置开始，逐步添加功能并进行改进，同时深化对问题的理解。

我们在每一轮调整中都使用自动搜索算法，并随着我们理解的深度不断更新我们的搜索空间。

随着我们的探索，我们自然会找到越来越好的配置，因此我们的“最佳”模型将不断改进。

当我们更新我们的最佳配置时，我们称之为上线（这不一定对应线上模型的实际上线）。

对于每次上线，我们必须确保更改是有据可循的——而不仅仅是碰运气找到的配置——以避免给训练工作流增加不必要的复杂性。

综上所述，我们的增量调优策略需要重复以下四个步骤：

为下一轮实验确定适当的目标。

设计并展开实验，朝着这个目标取得进展。

从实验结果中获取经验。

考虑是否上线新的最佳配置。

本节的其余部分将更详细地讲解增量调优策略。

探索与利用

总结：大多数时候，我们的目标是更深入地理解问题。

尽管有些人认为我们会花大部分时间来提升验证集的指标，实际上我们把重心放在进一步理解问题上，而不是降低验证集错误率。

也就是说，我们大部分时间都花在了“探索”上，只有一小部分时间花在了“利用”上。

从长远来看，如果我们想最大化我们的最终效果，深入理解问题是至关重要的。将深化理解置于短期收益之上可以帮助我们：

避免仅因历史原因而表现良好的不必要更改。

确定验证集效果对哪些超参数最敏感，哪些超参数交互最多，因此需要一起重新调整，以及哪些超参数对其他变化相对不敏感，因此可以在未来的实验中固定住。

发现潜在的新方向，例如在出现过拟合问题时使用新的正则化器。

确定无效的方向并将其删除，从而降低后续实验的复杂度。

判断超参数的优化空间是否已经饱和。

围绕最佳值缩小我们的搜索空间，以提高调整效率。

最终，我们可以集中提升验证集效果，即便我们无法从新的实验中进一步了解问题的结构了。

选择下一轮实验的目标

总结：每轮实验都应该有一个明确的目标，并且范围要足够小，这样实验才能真正朝着目标取得进展。

每轮实验都应该有一个明确的目标，并且范围要足够小，这样实验才能真正朝着目标取得进展：如果我们试图一次添加多个特征或回答多个问题，我们可能无法理清各自的影响。

举个例子，目标可以包括：

尝试对训练流程进行改进（例如，新的正则化器、预处理方法等）。

了解特定模型超参数（例如激活函数）的影响

最大化验证集指标。

设计下一轮实验

总结：根据实验目标，将超参数分为三类：目标超参数、冗余超参数和固定超参数。创建一系列研究以比较目标超参数的不同值，同时优化冗余超参数。注意选择冗余超参数的搜索空间，以平衡资源成本与科学价值。

识别目标超参数、冗余超参数和固定超参数

[点击展开]

对于给定的目标，所有超参数都将是目标超参数、冗余超参数或固定超参数。

因为实验固定了某些超参数，从实验得出的结论可能对固定超参数的其他值无效。换句话说，固定的超参数对我们的实验结论做了限定。

目标超参数是指，我们希望测量出其对于模型由何种影响的参数。

冗余超参数是指，必须优化才能公平比较不同目标超参数值的参数。类似于统计中的冗余参数。

固定超参数是指，在当前轮次实验中取固定值的参数。在比较目标超参数的不同值时，固定超参数的值不需要（或者我们不希望它们）改变。

举个例子，如果我们的目标是“确定更深的模型是否会减少验证集错误”，那么模型层数就是目标超参数。

学习率是一个冗余超参数，如果我们要公平对比不同深度的模型，我们必须分别调整学习率（通常情况下最优学习率和模型结构有关）。

激活函数是一个固定超参数。我们可能通过过去的实验发现最优激活函数和模型深度无关。或者我们接受实验得到的最优深度的仅在某个激活函数上有效。或者我们也可以将激活函数作为一个冗余超参数和深度一起调优。

一个超参数是目标超参数、冗余超参数还是固定超参数是根据实验目标来决定的。

比如，激活函数的选择可以是一个目标超参数（对于当前问题，ReLU 或 tanh 是更好的选择吗？），一个冗余超参数（允许使用不同的激活函数，最好的 5 层模型是否优于最好的 6 层模型？），或一个固定超参数（对于一个由 ReLU 构成的网络，在特定位置添加批标准化是否有帮助？）。

在设计新一轮实验时，我们根据实验目的确定目标超参数。

在此阶段，我们将所有其他超参数视为冗余超参数。

接下来，我们将一些冗余超参数转作为固定超参数。

一个冗余超参数和目标超参数的相互影响越多，固定这个参数所带来的限制就越多。例如，权重衰减强度的最佳值通常取决于模型大小，因此固定权重衰减的强度来比较不同的模型大小，往往得不出有效的结论。

如下文所述，我们可以通过增加计算资源来应对这种风险，但通常我们的最大资源预算低于调整所有非目标超参数所需的计算资源。

如果有无限的计算资源，我们会将所有非目标超参数保留为冗余超参数，这样我们从实验中得出的结论就不会受到固定超参数的限定。

然而，冗余超参数越多，我们没能充分针对每个目标超参数调优冗余超参数的风险就越高，从而我们从实验中得出错误结论的风险也越高。

当我们判断将一个冗余超参数转换为固定超参数所带来的限制少于调优它所需的计算资源时，我们可以进行这种转换。

尽管超参数的类型取决于实验目标，但对于某些类别的超参数，我们有以下经验法则：

例如，网络层数通常是一个目标或固定的超参数，因为它往往会对训练速度和内存使用产生巨大影响。

例如，dropout 增加了代码的复杂性，因此在决定是否包含它时，我们会将“no dropout”与“dropout”作为一个目标超参数，而将 dropout 率作为一个冗余超参数。

如果我们决定根据这个实验将 dropout 添加到我们的训练流程中，那么在未来的实验中，dropout 率将是一个冗余超参数。

如果我们的实验目标涉及在两个或多个不同的优化器之间进行公平比较（例如“确定哪个优化器在给定的步数中产生最低的验证错误”），那么它就是一个目标超参数。

或者，我们可能出于各种原因将其设为固定超参数，包括（1）先前的实验表明最好的优化器和当前的目标超参数无关；（2）当前优化器的训练曲线更容易理解 (3) 当前优化器比其他优化器使用更少的内存。

它们很少是目标超参数，因为像“训练流程的最佳学习率是多少？”这样的目标没有什么意义——最优学习率很容易随着下一次训练流程的改变而改变。

尽管当资源有限或有强力的证据表明它们不影响目标超参数时，我们可能固定其中一些参数，但通常应该假设优化器超参数必须单独调整，以在不同设置之间进行公平比较目标超参数。

此外，我们没有优化器超参数值的先验倾向（例如，它们通常不会以任何方式影响前向传递或梯度的计算成本）。

在各种优化器超参数（例如学习率、动量、学习率调度参数、Adam优化器的beta等）中，至少有一些是冗余超参数，因为它们往往与其他变化相互影响。

相比之下，优化器的选择通常是一个目标超参数或固定超参数。

正则化技术引入的超参数通常是冗余超参数，但是否使用正则化技术往往是目标或固定超参数。

模型结构超参数通常是目标或固定超参数，因为模型结构变化会影响服务和训练成本、延迟和内存需求。

在某些情况下，一个超参数是冗余还是固定超参数将取决于目标超参数的值。

例如，假设我们想知道 Nesterov momentum 和 Adam 中哪个优化器的验证错误率更低。目标超参数是optimizer，它的值是{"Nesterov_momentum", "Adam"}。值optimizer="Nesterov_momentum"引入了冗余/固定超参数{learning_rate, momentum}，但值optimizer="Adam"引入了冗余/固定超参数{learning_rate, beta1, beta2, epsilon}。

仅针对目标超参数的某些值存在的超参数称为条件超参数。

我们不应该仅仅因为两个条件超参数具有相同的名称就认为它们是相同的！在上面的示例中，learning_rate对于optimizer="Nesterov_momentum"与optimizer="Adam"是不同的条件超参数. 它在两种算法中的作用相似（尽管不完全相同），但在每个优化器中运行良好的值范围通常相差几个数量级。

机器学习算法AI大数据技术

搜索公众号添加：datanlp

长按图片，识别二维码

阅读过本文的人还看了以下文章：

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

《深度学习：基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加：datayx

诛仙山河录官网在哪下载 最新官方下载安装地址

【全球时快讯】消防连线 | 端午节期间消防安全提示

世界最新：酒店预订哪个软件便宜好用

每日快播：腾讯《三体》编剧：网飞版《三体》一集预算能拍我们一整部

桂东农商银行：金融服务“新脚步” 打通百姓“致富路”

V观财报｜非经营性占资、信披违规等，亿利洁能及实控人被公开谴责

包粽子送粽子，南京栖霞一社区别样活动迎端午

【世界快播报】父母如何说，孩子才会好好听，良好的亲子沟通应该这样来

教师资格证院系班级填写 教师资格证院系班级

朗文英汉双解词典（关于朗文英汉双解词典介绍） 世界即时看

阿不都要离队？自曝不是新疆男篮队长，前经纪人已担任同曦总经理-环球讯息

快资讯：电脑经常弹出广告是怎么回事_电脑经常弹出广告 怎么办

EDG中下双Ｃ发力，连下两局零封AL，UZI再获MVP！

最新出炉！6月21日港股通净流出32.63亿港元，这只龙头被逆势买入0.939亿港元！

鲜发_关于鲜发简述

全球观速讯丨喷雾干燥机介绍_喷雾干燥机主要用途

nod32激活码2020年_nod32激活码之家

重庆市与吉利控股集团签署战略框架协议

天天热推荐：荣昌区公安局圆满完成荣昌区历史文化周文艺晚会安保任务

环球最资讯丨大美泰山丨日出浴“沧海” 霞光映群峰

湖北鹤峰县市场监管局“三查三看”开展端午节市场专项检查

中国海警舰艇编队在我钓鱼岛领海内巡航 环球热推荐

环球滚动:大盘低开低走，游戏、传媒、影视相关ETF跌幅居前，多只日经相关ETF大涨逾1%

今天上午共康三村一居民家中起火

有机茶认证＋1！梁平铁门乡老鹰茶荣获有机产品认证证书-每日热议

记者：齐耶赫在利雅得胜利的年薪为1200万到1300万欧元 全球通讯

三星 SDI 试产 LFP 和 4680 电池，年底前开始原型生产固态电池-环球速看

兰州三维服务网业务管理平台（兰州三维服务网）-全球看点

快看：oppo手机墙纸（oppo手机墙纸图片大全唯美

顺丰电话号码上门取件_顺丰电话400 天天播资讯

全球动态:win10电脑怎么看工作组_windows10怎么查看工作组

不成敬意下一句是什么_不成敬意 环球观焦点

民生证券给予迈得医疗推荐评级，深度报告：自动化设备龙头，隐形眼镜CDMO迈入新征程

讯息：比特币触及六周高位 金融业巨头纷纷进军加密货币市场

世界快报:违规向房地产业发放社团贷款，掩盖资产质量真实性，昆明市东川区农村信用合作联社被罚款140万元

疯了吧，不是巨星，却要签5年2.95亿顶薪！他甚至都不是球队老大-视点

梦天门选举陈国贤为公司董事长 2022年公司净利3485.21万|报道

凤凰商城端午限时闪促 款款游戏破史低 热闻

世界短讯！【主题教育】民盟淳安一支部署开展“凝心铸魂强根基、团结奋进新征程”主题教育

世界热讯:星辰变：秦羽建立迷雾城的时候，共有五位神王相助

2023年6月20日新股上市：海看股份（301262）

八旬老人步行一夜迷路 警方暖心接力送其回家

带娃、社牛、社恐......飞机线上值机选座也有乘机状态了！|世界快资讯

莱西市税务局收到纳税人感谢信 优质服务获真情点赞

每日热议!E事厅 | 直降4万 全新皓影e:PHEV就值得买了吗？

高危职业可以买的百万医疗有哪些？靠谱吗？ 全球新消息

哈里王子和梅根的赚钱梦破碎：一个自作聪明的灾难

三条假日公交专线今开通

致欧科技上市首日总市值106亿元，仍面临业绩下滑、研发不足等问题|微头条

全球简讯:最强风口跌停潮 人民币继续贬值下A股失守3200点 节后怎么走？

AI板块几乎全军覆没！A股跌上热搜 股民：含泪吃粽子叶|新视野

破发股神农集团拟定增募不超11.5亿 上市即巅峰募22亿

万州大瀑布一日游攻略_万州大瀑布

纳采是什么意思（纳财是什么意思）

70上海手表回收值多少钱_70老上海手表回收价格|快讯

浪潮信息预警业绩风险，AI概念龙头股涨不动了？

银川市住房公积金使用政策有调整！ 天天头条

当前资讯!音乐学学什么课程及毕业薪酬岗位去向 就业前景怎么样

生活照片尺寸大小对照表 生活照片尺寸-当前最新

万兴科技跌11.9% 财通证券昨日维持增持评级

焦点信息:知乎：618期间关于“如何选购商品”提问同比增加155.1%

温峥嵘谈演员的职业操守，打脸了恩师黄磊，网友扒出她撒谎了

重庆银行: 关于重庆银行股份有限公司2022年度股东大会的法律意见书 焦点关注

【圣诞送礼指南】这5个手作缝纫项目，完美收场你的节日送礼计划！

丰田(TM.US)追上市场电气化进程 野村、瑞穗加入看涨行列

全球即时：Woj：篮网会先留下布里奇斯 等有巨星可供交易才会考虑动他

天天微速讯：16岁男生最期待收到哪些生日礼物？探究男生心理喜爱哪些特殊礼品

热门标题：如何选购有意义的16岁男孩生日礼物？完美建议，送你最好的选择！

清新环境（002573）：6月21日北向资金增持21.07万股

市十六届人大常委会第十三次会议闭会

天津蓟州郭家沟：美丽乡村“蝶变记”

上海为什么叫魔都日本_上海为什么叫魔都

世界观点：胃胀气打嗝是什么原因_吃完饭胃胀气的原因

环球速看：皇立国教骑士团OVA评价_皇立国教骑士团ova

记者：吉达国民对卢卡库提出丰厚报价，球员对转会抱开放态度 世界百事通

智通ADR统计 | 3月25日-世界动态

每日观点：证监会发布新一轮证券公司“白名单” 31家机构入列

宇航人公司亮相第二十一届世界制药原料中国展（CPHI China 2023）|每日看点

荣旗科技：荣旗与腾讯共同探索AI在工业领域的应用与落地

“9+1”碳市场共同发起“碳市场支持碳达峰碳中和倡议”

诛仙山河录官网在哪下载最新官方下载安装地址

教师资格证院系班级填写教师资格证院系班级

朗文英汉双解词典（关于朗文英汉双解词典介绍）世界即时看

快资讯：电脑经常弹出广告是怎么回事_电脑经常弹出广告怎么办

中国海警舰艇编队在我钓鱼岛领海内巡航环球热推荐

记者：齐耶赫在利雅得胜利的年薪为1200万到1300万欧元全球通讯

不成敬意下一句是什么_不成敬意环球观焦点

讯息：比特币触及六周高位金融业巨头纷纷进军加密货币市场

凤凰商城端午限时闪促款款游戏破史低热闻

八旬老人步行一夜迷路警方暖心接力送其回家

莱西市税务局收到纳税人感谢信优质服务获真情点赞

每日热议!E事厅 | 直降4万全新皓影e:PHEV就值得买了吗？

高危职业可以买的百万医疗有哪些？靠谱吗？全球新消息

全球简讯:最强风口跌停潮人民币继续贬值下A股失守3200点节后怎么走？

AI板块几乎全军覆没！A股跌上热搜股民：含泪吃粽子叶|新视野

破发股神农集团拟定增募不超11.5亿上市即巅峰募22亿

银川市住房公积金使用政策有调整！天天头条

当前资讯!音乐学学什么课程及毕业薪酬岗位去向就业前景怎么样

生活照片尺寸大小对照表生活照片尺寸-当前最新

重庆银行: 关于重庆银行股份有限公司2022年度股东大会的法律意见书焦点关注

丰田(TM.US)追上市场电气化进程野村、瑞穗加入看涨行列

全球即时：Woj：篮网会先留下布里奇斯等有巨星可供交易才会考虑动他

记者：吉达国民对卢卡库提出丰厚报价，球员对转会抱开放态度世界百事通

上汽通用汽车有限公司召回部分进口及国产汽车共计78205辆

工信部：制定实施“5G+工业互联网”512升级版工作方案世界百事通

要闻：融入京津冀架好就业桥张家口市深化京津冀劳务协作稳岗促就业

北京市经信局王磊：从五方面发力加快建设全球数字经济标杆城市_全球热议

固原携农文旅资源“奔赴”福州再续浓浓“山海情”

诛仙山河录官网在哪下载最新官方下载安装地址

美团在包头成立科技新公司#注册资本400万美元全球头条

药娃小测 | 药品有效期不等于使用期？全球观焦点

信息：南玻Ａ（000012）：6月21日北向资金减持41.64万股

浓情迎端午浏阳集里街道多彩活动串起睦邻情新视野

市州观察丨三“链”发力南充擦亮“农”字号

巴朗山隧道至垭口支路路段（老越岭路）今起临时封闭解除时间待定天天资讯

抢抓就业关键期精准提供就业服务-天天简讯

四川交通职业技术学院举办2023年“迎大运成就梦想，向未来绽放青春” 校园畅跑比赛热讯

快看：中国汇融(01290)附属及仲利通信与吕海红就拟成立福州市汇方典当签订出资协议目标将典当业务拓展至福建省