文章目录
- 前言
- 摘要
- 核心思想
- 总结
前言
1 2 3 4 5 6 7 8 9 10 | 论文名:Targeted Dropout 论文作者:Aidan N. Gomez et.al. 机构: Google Brain FOR.ai University of Oxford 期刊/会议名:NIPS 2018 本文作者:XMU_MIAO 日期:2020/12/4 |
摘要
??神经网络由于拥有大量参数,有利于学习,但也存在高度冗余。这使得压缩神经网络而不对性能产生很大影响成为可能。本文中,我们引入了
t
a
r
g
e
t
??
d
r
o
p
o
u
t
target\,\,dropout
targetdropout,一种应用于神经网络权值和单元事后剪枝的策略,其将剪枝机制直接应用于训练过程。 每一次权值在更新时,
t
a
r
g
e
t
??
d
r
o
p
o
u
t
target\,\,dropout
targetdropout使用简单的准则选择一个用于剪枝的候选集,然后随机通过将
d
r
o
p
o
u
t
dropout
dropout应用于这个候选集来随机剪枝。由此产生的网络对于剪枝有鲁棒性,与复杂的正则化方法相比具有优势,同时容易实现和调整。
核心思想
??
t
a
r
g
e
t
??
d
r
o
p
o
u
t
target\,\,dropout
targetdropout根据事后剪枝的准则,对某些权重或神经元以一定概率使用
d
r
o
p
o
u
t
dropout
dropout,这使得学习的网络对这种剪枝方式具有一定的鲁棒性,使得训练结束的网络在剪枝后精度下降得较少。这有点类似于期末考试前,老师提前画重点,明示了考试内容,这样考试之后大家的分数不至于太难看。
??以全局权值剪枝为例。 若一个神经网络由一组参数
θ
\theta
θ确定,剪枝率
γ
\gamma
γ,训练过程中对被选中的权重使用
d
r
o
p
o
u
t
dropout
dropout概率为
α
\alpha
α,那么对于训练后使用“对最小的若干权重进行剪枝”准则的全局权重剪枝算法来说,每次更新权重时,期望上会有
α
×
γ
×
θ
\alpha\times\gamma\times\theta
α×γ×θ的权重被应用
d
r
o
p
o
u
t
dropout
dropout(绝对值最小的
γ
×
θ
\gamma\times\theta
γ×θ个权重,每个都有
α
\alpha
α的概率应用
d
r
o
p
o
u
t
dropout
dropout)。以这样的方式训练结束后,再利用全局权重剪枝对绝对值最小的
γ
×
θ
\gamma\times\theta
γ×θ剪枝。
总结
??本文提出了一种名为
t
a
r
g
e
t
??
d
r
o
p
o
u
t
target\,\,dropout
targetdropout,在训练过程中利用其诱导网络对某种剪枝方法产生鲁棒性,训练结束后的网络进行剪枝对精度的损失较于其他正则化方法好。论文在多个模型上验证了该方法(本文未列出分析),详情见元原文:Targeted Dropout