[NLP] Adaptive Softmax

listenviolet 2019-11-22 我要评论

1. Overview

Adaptive softmax算法在链接1中的论文中提出，该算法目的是为了提高softmax函数的运算效率，适用于一些具有非常大词汇量的神经网络。

在NLP的大部分任务中，都会用到softmax,但是对于词汇量非常大的任务，每次进行完全的softmax会有非常大的计算量，很耗时(每次预测一个token都需要O(|V|)的时间复杂度)。

所以paper中提出adaptive softmax来提升softmax的运算效率。

1) 该算法的提出利用到了单词分布不均衡的特点(unbalanced word distribution)来形成clusters, 这样在计算softmax时可以避免对词汇量大小的线性依赖关系，降低计算时间；

2) 另外通过结合现代架构和矩阵乘积操作的特点，通过使其更适合GPU单元的方式进一步加速计算。

2. Introduction

2.1 一般降低softmax计算复杂度的两种方式

1) 考虑原始分布：近似原始概率分布或近似原始概率分布的子集

2) 构造近似模型，但是产生准确的概率分布。比如：hierarchical softmax.

(上述两个方法可以大致区分为：一是准确的模型产生近似概率分布，二是用近似模型产生准确的概率分布)

2.2 本文贡献点

paper中主要采用的上述(2)的方式，主要借鉴的是hierarchical softmax和一些变型。与以往工作的不同在于，本paper结合了GPU的特点进行了计算加速。主要

1. 定义了一种可以生成近似层次模型的策略，该策略同时考虑了矩阵乘积运算的计算时间。这个计算时间并非与矩阵的维数是简单线性关系。

2. 在近来的GPU上对该模型进行了实证分析。在所提出的优化算法中也包含了对实际计算时间模型的定义。

3. 与一般的softmax相比，有2× 到 10× 的加速。这等价于在同等算力限制下提高了准确度。另外一点非常重要，该paper所提出的这种高效计算的方法与一些通过并行提高效率的方法相比，在给定一定量的training data下，对准确度并没有损失。

3. Adaptive Softmax

3.1 矩阵乘积运算的计算时间模型

hidden states: (B × d); Word representation: (d × k); 这两个矩阵的乘积运算时间: g(k, B)。其中B是batch size, d: hidden layer 的size, k vectors的数量。

(1) 固定B,d, 探究k值大小与g(k)的关系：

在K40、 M40两种GPU model中进行实验，发现k在大约为$k_0 \approx 50$的范围之内，g(k)是常数级别的，在$k > k_0$后，呈线性依赖关系。其计算模型为：

同样的，关于B的计算时间的函数也呈现这样的关系。这可以表示，矩阵相乘时，当其中一个维度很小时，矩阵乘法是低效的。

如何理解呢？比如对于 $k_1 = 2^2$, $k_2 = 2^4$，它们均在同样的常量时间内完成运算，那么显然对于$k1$量级有算力被浪费了。

那么这也说明，一些words的层次结构，其每个节点只具有少量的子节点(比如huffman 编码的tree)，是次优的。

(2) 探究batch size B值大小与g(B)的关系：

同样的，当探究计算用时与batch size $B$，的关系时，发现在矩阵乘法运算中，其中一个维度很小时计算并不高效。因此会导致：

(i) 在层次结构中，因为每个节点只有少数一些孩子节点 (比如Huffman 树)，其计算效率是次优的；

(ii) 对于按照词频划分clusters后，那些只包含稀有词的cluster，被选择的概率为p, 并且其batch size也缩减为 $p B$，也会出现以上所述的低效的矩阵乘积运算问题。

(3) 本文的计算模型

所以paper中综合考虑了k与B，提出了下面的计算模型：

对于Adaptive Softmax，其核心思想是根据词频大小，将不同词频区间的词分为不同的clusters，按照词频高的优先访问的原则，来对每个cluster整体，进而对cluster中的每个词进行访问，进行softmax操作。

那么paper中首先以2个clusters为例，对该模型进行讲解，之后推广到多个clusters的一般情况。

3.2 Two-Clusters Case

根据Zipf定律，在Penn TreeBank中 20%的词，可以覆盖一般文档中87%的出现过的词。

直观地，可以将字典$V$中的词分为$V_h$、$V_t$两个部分。其中$V_h$表示高频词集合(head)，$V_t$表示低频词集合(tail)。一般地，$|V_h| << |V_t|$，$P(V_h) >> P(V_t)$。

(1) Clusters 的组织

直观地可以想到对于这两个clusters有两种组织方式：(i) 两个clusters都是2层的树结构，(ii) 将head部分用一个短列表保存，对tail部分用二层树结构。何种方式更优可以就其计算效率和准确率进行比较：

在准确率方面，(i) 较之 (ii) 一般有 5 ~ 10 %的下降。原因如下：

对于属于cluster $c$的每个词$w$的概率计算为：

若采用(i): $P(c | h) * P(w | c, h)$

若采用(ii): 对于高频词head部分可以直接计算获得 $P(w | h)$，其更为简单直接。

因此，除非(i)(ii)的计算时间有非常大的差别，否则选择(ii)的组织方式。

(2) 对计算时间的缩短

图2. Two clusters示意图

如图2所示，$k_h = |V_h|, k_t = k - k_h, p_t = 1 - p_h$

(i) 对于第一层：对于batch size 为B的输入，在head中对$k_h$个高频词以及1个单位的二层cluster的向量（加阴影部分），共$k_h + 1$个向量，做softmax，

这样占文档中$p_h$的词可以基本确定下来，在head 的 short list 部分找到对应的单词；

而如果与阴影部分进行softmax值更大，表明待预测的词，在第二层的低频词部分；

第一层的计算开销为：$g(k_h + 1, B)$

(ii) 在short list 中确定了 $p_h × B$ 的内容后，还剩下 $p_t B$的输入需要在tail中继续进行softmax来确定所预测的词。

第二层中需要对$k_t$个向量做softmax；

第二层的计算开销为：$g(k_t, pB)$

综上，总的计算开销为：$$C = g(k_h + 1, B) + g(k_t, p_t B)$$

相比于最初的softmax，分母中需要对词典中的每个词的向量逐一进行计算；采用adaptive softmax可以使得该过程分为两部分进行，每部分只需对该部分所包含的词的向量进行计算即可，降低了计算用时。

论文中的Figure 2显示了，对于$k_h$的合理划分，最高可以实现相较于完全softmax的5x加速。

(3) 不同cluster的分类器能力不同

由于每个cluster基本是独立计算的，它们并不要求有相同的能力(capacity)。

一般可以为高频词的cluster予以更高的capacity，而可以适当降低词频词的cluster的capacity。因为低频词在文档中很少出现，因此对其capacity的适当降低并不会非常影响总体的性能。

在本文中，采取了为不同的clusters共享隐层，通过加映射矩阵的方式降低分类器的输入大小。一般的，tail部分的映射矩阵将其大小从$d$维缩小到$d_t = d / 4$维。

3.3 一般性情况

在3.2中以分为2个cluster为例，介绍了adaptive softmax如何组织并计算的，这里将其拓展为一般情况，即可以分为多个clusters时的处理方式。

假设将整个词典分为一个head部分和J个词频词cluster部分，那么有：

$$V = V_h \cup V_1 ... V_j, V_i \cap V_j = \phi$$

其中$V_h$在第一层，其余均在第二层，如图Figure 3所示。

每个cluster中的词向量的数目为$k_i = |V_i|$，单词$w$属于某个cluster的概率为：$p_i = \sum_{w \in V_i} p(w)$.

那么，

计算head部分的时间开销为：$C_h = g(J + k_h, B)$

计算每个二层cluster的时间开销为：$\forall_i, C_i = g(k_i, p_i B)$

那么总的时间开销为：$C = g(J + k_h, B) + \sum_i g(k_i, p_i B) \tag8$

回顾公式(7):

$$g(k,B) = max(c + \lambda k_0 B_0, c + \lambda k B) \tag7$$

这里有两部分，一个是常数部分$c + \lambda k_0 B_0$，一个是线性变换部分$c + \lambda k B$。

通过3.1可知，在常数部分GPU的算力并未得到充分利用，因此应尽量避免落入该部分。那么需要满足：

$kB \geq k_0B_0$，这样在求max时，可以利用以上的第二部分。

将(8)式代入(7)的第二部分得：

那么接下来的目标就是根据(10) 以最小化时间开销C.

在(10)中，$J ,B$是固定的，那么可以重点关注$\sum_i p_ik_i$与$k_h$。

(1) $\sum_i p_ik_i$

假设$p_{i + j} = p_i + p_j$, 那么 $p_jk_j = (p_{i + j} - p_i) k_j$

$p_ik_i + p_jk_j = p_i(k_i - k_j) + p_{i + j}k_j \tag{11}$

假设$k_i > k_j, p_{i + j}$， $k_j$均固定，那么(11)中只有$p_i$可变，可以通过减小$p_i$的方式使(11)式减小。=> 也即$k_i > k_j$ 且 $p_i$尽量小，即包含越多词的cluster，其概率越小。

(2) $k_h$

减小$k_h$可以使(10)式减小。 => 即为可以使高频词所在的cluster包含更少的词。

综上，给定了cluster的个数J，与batch size B，可以通过给大的cluster分配以更小的概率降低时间开销C.

另外paper中讲到可以用动态规划的方法，在给定了J后，对$k_i$的大小进行划分。

cluster的划分个数$J$。paper中实验了采用不同的J所导致的不同计算时间。如图Figure 4所示。虽然在$10 ~ 15$区间内效果最好，但$ > 5$之后效果没有非常明显的提升。所以文中建议采用2~5个clusters。

实验主要在text8, europarl, one billion word三个数据集上做的，通过比较ppl发现，adaptive softmax仍能保持低的ppl，并且相比于原模型有2x到10x的提速。

参考链接：

1. Efficient softmax approximation for GPUs: https://arxiv.org/pdf/1609.04309.pdf

【搞定 Java 并发面试】面试最常问的 Java 并发基础常见面试题总结！