Tensorflow 的reduce_sum()函数到底是什么意思

这个问题无外乎有三个难点:

  1. 什么是sum
  2. 什么是reduce
  3. 什么是维度(indices, 现在均改为了axis和numpy等包一致)

sum很简单,就是求和,那么问题就是2和3,让我们慢慢来讲。其实彻底讲清楚了这个问题,很多关于reduce,维度的问题都会恍然大悟。

0. 到底操作哪个维度??

sum这个操作完全可以泛化为任意函数,我们就以sum为例,来看看各种情况。 首先是一维(按照tensorflow的说法其实是0维,后面会说)就是这样:

1
2
a = 1
sum(a) = 1

那么看看二维的情况,为了看得更清楚,特意写成了矩阵的形式:

1
2
3
4
5
6
a = 
[
[1,2],
[3,4]
]
sum(a) = ???

仔细观察,那么问题来了,sum(a)到底应该是多少?有人说,当然是[3,7](“横着加”[[1+2],[3+4]]),有人说 不应该是[4,6](“竖着加”[[1+3],[2+4]])吗? 还有人或说,不应该是10(全加在一起)吗? 谁是对的? 都是对的。

所以,对于多维数组元素的相加,如果不指定“如何加”,结果是未定义的,之所以有些时候没有指定也可以得到结果,是因为不同的软件或框架有默认的行为。 对于tensorflow,默认行为是最后一种,也就是全加在一起。

1. 什么是维度?什么是轴(axis)?如何索引轴(axis)?

这是一个很大的问题,到底什么是维度呢?维基百科说:

维度,又称维数,是数学中独立参数的数目。在物理学和哲学的领域内,指独立的时空坐标的数目。 0维是一点,没有长度。 1维是线,只有长度。 2维是一个平面,是由长度和宽度(或曲线)形成面积。 3维是2维加上高度形成“体积面”。 虽然在一般人中习惯了整数维,但在分形中维度不一定是整数,可能会是一个非整的有理数或者无理数。

妈呀,好复杂,我只是想写个tensorflow代码呀。 那么,编程时,你就可以简单的认为:

维度是用来索引一个多维数组中某个具体数所需要最少的坐标。

把这句话多读几遍,我想你肯定会有所顿悟。这里之所以说第一个一维的例子时0维,是因为,一个数字根本不需要索引,因为就只有一个呀。 所有不同维度的形式如下:

1
2
3
4
5
0维,又称0维张量,数字,标量:1
1维,又称1维张量,数组,vector:[1,2,3]
2维,又称2维张量,矩阵,二维数组:[[1,2], [3,4]]
3维,又称3维张量,立方(cube),三维数组:[[[1,2], [3,4]], [[5,6], [7,8]]]
n维:你应该get到点了吧~

再多的维只不过是是把上一个维度当作自己的元素

1维的元素是标量,2维的元素是数组,3维度元素是矩阵。 从0维到3维,边看边念咒语维度是用来索引一个多维数组中某个具体数所需要最少的坐标。

在纸上写写看,想要精确定位一个数字,需要几个数字呢?比如三维数组,我们想要3这个数字,至少要3个数字定位,它的坐标是(0为索引起点):

1
[0, 1, 0]

好了,现在就能说了,什么是轴(axis),如何索引axis(代码中常用的变量名,后文就用axis代表轴)。 什么是axis,编程时,你就可以简单的认为: axis是多维数组每个维度的坐标。 同样,把这句话多读几遍,我想你一定有体悟。

还拿三维来说,数字3的坐标是[0, 1, 0],那么第一个数字0的axis是0,第二个数字1的axis是1,第三个数字0的axis是2。 让我们再看看我们是如何得到3这个数字的:

1
2
3
找到3所在的2维矩阵在这个3维立方的索引:0
找到3所在的1维数组在这个2维矩阵的索引:1
找到3这个数这个1维数组的索引:0

也就是说,对于[[[1,2], [3,4]], [[5,6], [7,8]]]这个3维情况,[[1,2],[[5,6]], [[3,4], [7,8]]这两个矩阵的axis是0,[1,2],[3,4],[5,6],[7,8] 这4个数组的axis是1,而1,2,3,4,5,6,7,8这8个数的axis是2。

越往里axis就越大,依次加1。

那么,对于三维的情况,令:

1
2
3
import tensorflow as tf
a = [[[1,2], [3,4]], [[5,6], [7,8]]]
tf.reduce_sum(a, axis=1)

应该输出:

1
[[4,6], [12,14]]

这就是处在axis=1的4个数组相加的结果,并reduce掉了一个维度。那么什么是reduce呢?

2. 什么是reduce

reduce这个词字面上来讲,大多称作“规约”,但这个词太专业了,以至于第一眼看不出来意思。我更倾向于解释为“塌缩”,这样就形象多了。 对一个n维的情况进行reduce,就是将执行操作的这个维度“塌缩”。还是上面tf.reduce_sum(a, axis=1)的例子,输出[[4,6], [12,14]]是二维, 显然是被“塌缩”了,塌缩的哪个维度呢?就是被操作的维度,第2个维度,也就是axis=1(0开始索引)。

tf.reduce_sum(a, axis=1)具体执行步骤如下:

  1. 找到a中axis=1的元素,也就是[1,2],[3,4],[5,6],[7,8]这4个数组
  2. 在axis=1的维度进行相加也就是[1,2]+[3,4]=[4,6][5,6]+[7,8]=[12,14]
  3. “塌缩”这一维度,也就是说“掉一层方括号”,得出[[4,6], [12,14]]

接下来是一个附加问题:

3. 什么是keepdims

也就是“不掉一层方括号”,tf.reduce_sum(a, axis=1, keepdims=True)得出[[[4, 6]], [[12, 14]]],可以看到还是三维。 这种尤其适合reduce完了要和别的同维元素相加的情况。

最后来做个练习吧,对于四维情况[[[[1,2], [3,4]]], [[[3,4], [5,6]]]],对axis=0,1,2,3分别在草稿纸上进行演算后,用tensorflow做个验证吧~