[论文阅读]Targeted Dropout

前言

1
2
3
4
5
6
7
8
9
10

论文名：Targeted Dropout
论文作者：Aidan N. Gomez et.al.
机构：
Google Brain
FOR.ai
University of Oxford

期刊/会议名：NIPS 2018
本文作者：XMU_MIAO
日期：2020/12/4

摘要

??神经网络由于拥有大量参数，有利于学习，但也存在高度冗余。这使得压缩神经网络而不对性能产生很大影响成为可能。本文中，我们引入了

t

a

r

g

e

t
??

d

r

o

p

o

u

t

target\,\,dropout

targetdropout，一种应用于神经网络权值和单元事后剪枝的策略，其将剪枝机制直接应用于训练过程。 每一次权值在更新时，

t
??

target\,\,dropout

targetdropout使用简单的准则选择一个用于剪枝的候选集，然后随机通过将

dropout

dropout应用于这个候选集来随机剪枝。由此产生的网络对于剪枝有鲁棒性，与复杂的正则化方法相比具有优势，同时容易实现和调整。

核心思想

t
??

target\,\,dropout

targetdropout根据事后剪枝的准则，对某些权重或神经元以一定概率使用

dropout

dropout，这使得学习的网络对这种剪枝方式具有一定的鲁棒性，使得训练结束的网络在剪枝后精度下降得较少。这有点类似于期末考试前，老师提前画重点，明示了考试内容，这样考试之后大家的分数不至于太难看。
??以全局权值剪枝为例。 若一个神经网络由一组参数

\theta

θ确定，剪枝率

\gamma

γ，训练过程中对被选中的权重使用

dropout

dropout概率为

\alpha

α，那么对于训练后使用“对最小的若干权重进行剪枝”准则的全局权重剪枝算法来说，每次更新权重时，期望上会有

\alpha\times\gamma\times\theta

α×γ×θ的权重被应用

dropout

dropout（绝对值最小的

\gamma\times\theta

γ×θ个权重，每个都有

\alpha

α的概率应用

dropout

dropout）。以这样的方式训练结束后，再利用全局权重剪枝对绝对值最小的

\gamma\times\theta

γ×θ剪枝。

总结

??本文提出了一种名为

t
??

target\,\,dropout

targetdropout,在训练过程中利用其诱导网络对某种剪枝方法产生鲁棒性，训练结束后的网络进行剪枝对精度的损失较于其他正则化方法好。论文在多个模型上验证了该方法（本文未列出分析），详情见元原文：Targeted Dropout