262018-12
干货|在神经网络中weight decay起到的做用是什么

发布者: 浏览次数:

  :专注为AI创设者提供环球最新AI技艺消息和社群相易。用户来历包含:北大、清华、中科院、复旦、麻省理工、卡内基梅隆、斯坦福、哈佛、牛津、剑桥等世界名校的AI技巧硕士、博士和指导;以及谷歌、腾讯、百度、脸谱、微软、华为、阿里、海康威视、滴滴、英伟达等全球名企的AI创办者和AI科学家。

  一、weight decay(权值衰减)的利用既不是为了降低所有人所谈的放肆精确度也不是为了进步浪漫疾度,其结果方针是留神过拟闭。在耗费函数中,weight decay是放正在正则项(regularization)前面的一个系数,正则项日常指点模型的搀杂度,所以weight decay的陶染是调动模子搀和度对消耗函数的感受,若weight decay很大,则混合的模型挥霍函数的值也就大。

  二、momentum是梯度消极法中一种常用的加速武艺。对待日常的SGD,其剖明式为,沿负梯度方向下降。而带momentum项的SGD则写生如下地势:

  个中即momentum系数,肤浅的领悟上面格式即是,要是上一次的momentum(即)与这一次的负梯度倾向是形似的,那这次消浸的幅度就会加大,所以这样做能够达到加速狂妄的经过。

  1、升高梯度在搜集中的滚动。Normalization可能使特点全局缩放到[0,1],云云正在反向撒播期间的梯度都是在1独揽,抑制了梯度消逝形象。