[论文阅读]Targeted Dropout

文章目录

  • 前言
  • 摘要
  • 核心思想
  • 总结

前言

1
2
3
4
5
6
7
8
9
10
论文名:Targeted Dropout
论文作者:Aidan N. Gomez et.al.
机构:
    Google Brain
    FOR.ai
    University of Oxford
   
期刊/会议名:NIPS 2018
本文作者:XMU_MIAO
日期:2020/12/4

摘要

??神经网络由于拥有大量参数,有利于学习,但也存在高度冗余。这使得压缩神经网络而不对性能产生很大影响成为可能。本文中,我们引入了

t

a

r

g

e

t
??

d

r

o

p

o

u

t

target\,\,dropout

targetdropout,一种应用于神经网络权值和单元事后剪枝的策略,其将剪枝机制直接应用于训练过程。 每一次权值在更新时,

t

a

r

g

e

t
??

d

r

o

p

o

u

t

target\,\,dropout

targetdropout使用简单的准则选择一个用于剪枝的候选集,然后随机通过将

d

r

o

p

o

u

t

dropout

dropout应用于这个候选集来随机剪枝。由此产生的网络对于剪枝有鲁棒性,与复杂的正则化方法相比具有优势,同时容易实现和调整。

核心思想

??

t

a

r

g

e

t
??

d

r

o

p

o

u

t

target\,\,dropout

targetdropout根据事后剪枝的准则,对某些权重或神经元以一定概率使用

d

r

o

p

o

u

t

dropout

dropout,这使得学习的网络对这种剪枝方式具有一定的鲁棒性,使得训练结束的网络在剪枝后精度下降得较少。这有点类似于期末考试前,老师提前画重点,明示了考试内容,这样考试之后大家的分数不至于太难看。
??以全局权值剪枝为例。 若一个神经网络由一组参数

θ

\theta

θ确定,剪枝率

γ

\gamma

γ,训练过程中对被选中的权重使用

d

r

o

p

o

u

t

dropout

dropout概率为

α

\alpha

α,那么对于训练后使用“对最小的若干权重进行剪枝”准则的全局权重剪枝算法来说,每次更新权重时,期望上会有

α

×

γ

×

θ

\alpha\times\gamma\times\theta

α×γ×θ的权重被应用

d

r

o

p

o

u

t

dropout

dropout(绝对值最小的

γ

×

θ

\gamma\times\theta

γ×θ个权重,每个都有

α

\alpha

α的概率应用

d

r

o

p

o

u

t

dropout

dropout)。以这样的方式训练结束后,再利用全局权重剪枝对绝对值最小的

γ

×

θ

\gamma\times\theta

γ×θ剪枝。

总结

??本文提出了一种名为

t

a

r

g

e

t
??

d

r

o

p

o

u

t

target\,\,dropout

targetdropout,在训练过程中利用其诱导网络对某种剪枝方法产生鲁棒性,训练结束后的网络进行剪枝对精度的损失较于其他正则化方法好。论文在多个模型上验证了该方法(本文未列出分析),详情见元原文:Targeted Dropout