ResNet论文逐段精读

By 跟李沐学AI

Summary

Topics Covered

深度网络训练困境：梯度消失与性能下降
残差学习：通过“捷径”解决深度网络退化
ResNet核心：引入Shortcut Connection实现残差学习
技术融合而非原创：ResNet的经典之道
深度与性能：ResNet架构的演进与瓶颈设计

Full Transcript

字幕优化：I3iang 大家好字幕优化：I3iang 在第二遍里面我们就给大家详详细细每一段给大家过一遍 ResNet 这篇文章我们之前已经看过摘要和其中的一些结果图了我们接下来从导言开始文章的第一段话当然是讲我这篇文章是关于哪一个领域了他是说深度卷积深就网络好

为什么好是因为啊我们可以啊加很多层这样子把网络变得特别深然后不同程度的层呢他会得到不同的 level的一些 feature 比如说低级的一些视觉特征和高级的语义的视觉特征文章的第二段就提出了一个问题就是说随着我们的网络越来越深啊但是说

学一个好的网络就是简简单单的就把所有的网络堆在一起就行了吗如果那么简单的话那我就把网络做很深就行了当我们知道这个里面有一个问题是说当你的网络变得特别深的时候你的梯度就会出现要么就爆炸要么就消失啊解决他的一个办法是说我在我的初始化的时候啊要做的好一点

就是我权重在随机初始化的时候呢那权重不要太别大也不要特别小第二个是说我们在中间加入一些normalization 包括了BN就是batch normalization 可以使得校验每个层之间的那些输出和他的梯度的那些均值和方差相对来说比较深的网络是可以训练的避免有一些层他特别大

有一些层特别小然后我们发现说使用了这些技术之后是能够训练就是说你能够收敛虽然现在你能够收敛了但是你的另外一个问题是说当你的网络变深的时候你的性能其实是变差的就是你的精度会变差这个也是之前这张图给大家讲的事情当你的网络从20层变成30

56层的时候其实你的精度啊你不管是训练还是验证或者测试精度的话都会变差他说这个东西不是一个因为你的层数变多了然后你的模型变复杂了导致的一个过拟合就是说他这里写了一段话就是 not caused by overfitting 因为这是为什么是因为你的训练误差也变高了

overfitting是说你的训练误差变得很低但是你的测试误差变得很高中间有个比较大的啊区别但是现在你观察到的是说你的训练误差和你的测试误差都会变得很差所以他不是overfitting 所以更大的像说虽然你的网络似乎是收敛啊但是好像没有训练的到一个比较好的结果

第三段就是深入地讲了一下加了更多层之后其实精度会变差这个事情他说我考虑一个比较浅一点的网络和他对应的比较深的版本所谓深的版本就说我在浅的网络里面再多加一些层进去他说如果你的浅那网络效果还不错的话你的深的网络是不应该变差的为什么呢

就是说你深的网络新加的那些层啊我总是可以把这些层学的他就变成一个 identity mapping 就是说所谓的 identity mapping就是说你的输入是 x 我的输出也是 x 就等于是说我可以把一些权重学成比如说一些简单的 n 分之一使得你的输入和输出是一一对应的但实际情况下是说虽然理论上你的权重是可以学成这个样子

但实际上你做不到就是说假设我就让SGD去优化的话虽然这里存在一个比较好的解法就是下面那些层学到一个跟那些比较shallow的网络那个精度比较好的网络一样的结果但是上面那些层就是变成identity 举例到前面那个例子就是说我20层的网络权重跟他一样后面接加的那14层啊

全部变成了一些identity mapping 所以如果你这样子那就不应该精度会变差跟之前是一样的但是实际上他发现说你 SGD啊他找不到这个事情他 unable to find 就是说虽然存在一个这样看上去比较优的解但是你 SGD 找不出来那么你怎么办这篇文章呢就是提出了一个办法

使得你显示的构造出一个 identity mapping 使得你深的网络不会变得比你浅的网络更差所以他把这个东西叫做 deep residual learning framework 啊他这一段好就详细的解释了一下他是在干什么事情我们来看一眼啊首先啊他说我要学的东西叫做 h(x)

那假设我现在已经有了一个浅的网络了我换一个框在这个地方啊他的输出是一个叫做 x 的东西然后我要在上面再新加一些层比如说我要新加上一些新的层在上面让他变得更深之前说我新加的层那我就继续跟之前一样的学习就行了他说我新加那些层呢

我不要直接去学 h(x) 而是应该去学谁而是应该去学 h(x) - x 就是说 x 就说之前比较浅的网络已经学到的那个东西啊但是原始的数据进来我们就叫做比如说叫做什么东西都行叫做z也行，叫做图片也行首先进来就是说以前我已经学到了 x 表的表示是 x 我新加的层的话呢

我就不要去重新学个东西我只是学学到的东西和真实的东西可能是你的标号也行什么也行他们之间的那个残差我让这个层啊去学这个东西所以然后最后的结果是说他的输出整个东西的输出是他的输出再加上 x等价是这个东西假设说你的红色的东西

学的东西是 F(x)的话那么再加上浅的网络的输出 x 那么就作为整个的输出那么他的优化的目标呢就不再是你原始的 h(x) 而是 h(x)减去 x 就这个东西这个其实说白了就是他的核心的思想然后我们来看一下就是说到之前这张图是干什么事情这张图就

讲了这个东西是干什么事情的就他当然是说他的这个东西是在上面就他的浅的网络是在这个地方浅的网络输出的是 x 这两个假设是我新加的东西的情况下那么啊他的 x 进来进入他的一个层进来一个relu一个激活层再进到一个新的层他的结果他东西是继承 f(x)

那么他最后的输出啊是 x直接过来加上 F（x）这个加号的这个事情再做一个激活层relu做为新的输出 ok 所以他跟之前的直接加的唯一的区别就是加了这个东西加了一条这样子的路这个东西是做一个加法等于是你的输出不再是你自己的输出

还是说你的输出加上了你的输入这个东西叫做 residual 然后啊我们接下来会来讲说到底为什么在做 residual这个事情核心思想就是这个东西啊就是在神经网络要实现的话可以通过一个叫做 shortcut connections的东西当你数学上实现就是加一下对吧然后你在神经网络上画的话就是多画一条线过来

这个东西呢不是很新啊叫他shortcut 其实他给了几个文献那个文献你可以去看一下都是90年代很早很早以前就上一次神经网络时代大家早就提出过了大家肯定是用过这个东西了所以这个东西他其实做的是一个 identity mapping 然后他说啊这个东西好啊为什么呢是说我因为我就是加一个东西进来嘛

他没有任何可以学的参数就是说我不会增加任何你要学的参数就不会增加你的模型复杂度也不会让你的计算变高因为我就是一个加法而已而且他整个网络是仍然是可以被训练的就跟之前的东西是没有改变的我只是在整个实现里面加了一点点东西而已比如说他那个年代 15年的时候

大家还是用Caffe用的多一点说你在是在Caffe里面你可以不用改他的代码直接可以实现所以这个两段呢主要就是讲的是他的提出的方法以及稍微告诉你说到底 residual 在干什么事情啊接下来在 introduction里面呢他还讲的说我们接下做些实验我们说我的非常深的 residual nets非常容易去优化

但是呢如果不加这个残差连接的话呢他的 plain 的版本啊,就是效果会很差了第二个是说他们深的网络啊可以得到，你越深你的精度就越高这样子他们就赢下了比赛然后呢他在导论啊他在摘要里面有说过 CIFAR的结果他在这里再强调一遍说我把这个结果呢放在CIFAR上呢

我能train到1000层的东西最后当然是说我讲了一下我的 ImageNet上的结果怎么样赢下了第一名所以这个基本上他导论可以认为是他摘要的一个增强版本在结果上我说的东西更多一点然后呢主要是解释了 residual那个东西在干什么事情就我解决一个什么问题然后他的问题是什么

然后我的一些猜想然后我具体来说我整个东西的设计是什么样子的然后给大家一个简单的一个思想然后你读到这里的话你大概就知道了他的核心的设计你甚至就可以不用往下读了你都再就知道这篇文章的核心精髓在讲什么东西了啊当然你还没有看到 ResNet 是怎么设计的但是他你知道他的核心就是这个 residual connection

然后用了它之后效果很好很多时候你就说啊那如果你不是在做这一块的话很多时候你就可以停在这个地方了这也是这篇文章我觉得写的比较好的比较标准的一个地方啊就是 intro 是你的摘要的一个比较扩充的版本也是一个比较完整的对整个工作的一个描述接下来我们来看第二段第二段一般来说就是相关的工作了

他说啊 Residual Representations 就说因为我毕竟是用的 residual 他说了在计算机视觉里面是怎么做这个事情的但是 residudal 这个词啊其实在机器学习或统计里面用的更多一点大家知道其实线性模型最早的解法就是不断的靠 residual 来迭代的然后另外一个在机器学习里面比较有名的叫说 gradient boosting

他其实就是不断的去从通过残差来学习一个网络然后把一些弱的分类器把它叠加起来变成一个强的分类器在20年前是曾经是也是非常火的但是这个地方呢他没有去回顾这一块也能理解啊这是计算机视觉的我们发在 CVPR上面所以他确实没有太多去考虑机器学习在干的事情

另外一个是说他的Shortcut Connection 然后他说这个东西其实在之前也用的比较多比如说叫做highway networks 然后这些东西他说之前其实用过的比较多当然之前的工作相对来说比较复杂一点他那个connection相对来说fancy一点他在这个地方就是一个加法就是最简单的一个做法所以看到这里的话

大家其实觉得你会发现说 ResNet 他不是第一个提出residual 或者说shortcut这种原创的文章很多时候你看任何文章任何经典的文章你会发现它里面的技术不一定是原创的你看 Alexnet 它里面的dropout的也好啊很多别的东西也好啊那些神经网络你也没有觉得他特别是原创的但是一篇文章之所以成为经典

不见得他一定要原创性的提出了什么什么东西他很有可能是说我把之前的一些东西然后很巧妙的放在一起能解决一个现在大家关心的比较难的问题所以一样的能够出圈能够出名然后大家觉得你是经典工作然后甚至大家都不记得之前谁谁谁做过所以对于研究者来讲也是一个好事情就是说你会发现任何的想法呀

你随便想个什么东西前面有那么多聪明的人基本上就把你的东西已经想过了写过文章了你写任何一个说啊我做了一个什么什么东西很有可能你会发现前面有人做过了很多事没关系啊就是说你就告诉你就在文字面写清楚说啊我前面前面谁谁谁做过了现在我们有跟他们有什么不一样地方比如说用同一个东西解决了一个新的问题或者是说

你反正新的问题你可能考虑上跟总会有一点点细微的区别当另外一块有可能是说你的文章太久远了就是说可能别人一些工作30年前 40年前发表了他的工作可能也没什么引用就几个引用你可能没有找到的文章所以说你在论文里面说我提出了什么东西我觉得我是第一个在作者来说作者一般会说 to our best knowledge

其实说我们真的是搜过了没有找到所以我觉得我可能是第一个做这个事情的但很有可能别人发现你不是的那没关系如果你确实很久远的文章找不到的话对于一个 review 来讲或者是你一个读者来讲啊发现其实也没有太多问题您可以善意的告诉他说啊你这个工作很有意思但是我啊这里有一个相关工作你可以看一下就是跟你的 idea 有点像就你提醒他一下

他可能会下一个版本会把它加上就行了但也没必要特别愤怒是说你一定抄袭了什么东西当然抄袭的是说你一个最近的工作跟他长得真的差不多然后你也没引他甚至你可能看上去你跟他的东西可能你在写的时候你其实看过但是没引他当然是有问题的所以我觉得这一块啊大家在对待

技术的原创性来讲其实要一个稍微客观一点也是稍微容忍一点的态度啊因为而且对于研究者来讲你也不要觉得说什么东西都被做过了那我没什么东西做可做了其实也不是这样子的你去看一下基本上深度学习的经典文章啊你往前走 20年前基本上那些 idea 也都被用过了只是现在

可能问题还是同一个问题但是我的数据量更大我的计算能力更强也是新的挑战后过来旧的技术但是有新的应用有新的意义也是一个非常重要的事情接下来我们看一下残差连接如何处理你的输入和输出的形状是不同的情况这里他提供了两个方案第一个方案是说他在输入和输出上分别

添加一些额外的零使的这两个的形状能够对应起来然后可以做相加第二个是之前提到过是全连接怎么做投影当然如果你做到卷积上的时候呢他是通过一个叫做1*1的卷积层这个解决层的特点是他在空间维度上不做任何的东西但是主要是在通道维度上做改变所以他只要选取一个1乘1的卷积啊

使得你的输出通道是你的输入通道的两倍这样子他就能够把你的残差连接的输入和输出跟你对比上了另外一个是说我们知道ResNet 里面如果我们把一个输出通道数啊翻了两倍那么你的输入的高和宽通常都会被减半那这个地方呢所以你在做这个1*1的卷积的时候

你也同样会用一个步幅为2 使得你这样做出来的话在高宽和通道上都能够匹配上然后我们看一下实现实现讲了一些他实验的一些细节他说我们用了一些正常的 practice 说他把短边呢随机的采样到256和480 这个跟我们之前的AlexNet 有一点不一样

AlexNet就直接把短边放到256 这个地方是随机的放这个地方随机放到比较大的地方的好处就是说你在做随机的那个切割的时候啊切成224乘224的时候你的好处就是会你的随机性会更多一点另外一个说他把每一个每一个 pixel 他的均值都减掉了里面他用了一些啊颜色的增强

在AlexNet 里面我们用的是 PCA做一个颜色增强 (PCA Color Augmentation) 现在其实用的比较简单了就是 rgb 上的啊把亮度啊饱和度啊各种地方调一调就行了觉得你 photoshop 能干的事他都能干另外他当然用了 batch normalization 然后另外一个是说他说我的所有的权重啊全部是跟 13这个 paper 里面用的是一样的这个其实当然是说你可以这么写了

这样子的话你可以省下很多空间但是对读者来讲就比较尴尬了就是说我如果没有读过你这个论文我怎么去知道我还得去读你的论文实际上论文是13其实是这些作者之前的一篇文章他自己写的就很方便因为是前面这篇文章是我的所以我就已经说我们跟前面那篇文章是一样但实际上来说对读者这个不是很好所以如果大家要写论文的话

尽量能够使得别人能够不要去看里面的文献能够了解到你在做什么如果让别人去点开这个文献然后再去搜一下的话其实是不那么方便的另外一个是他用的批量大小是256 学习率是0.1 然后呢每一次除10 为什么时候除10呢当你的错误率啊比较平的时候他就会除10

这个也是 AlexNet 用的方法啊我们之前提到过我们现在也不怎么用了因为这个东西你得守着啊你不守着你是谁知道什么是应该除10 他说我的模型训练了 60乘以10的四次方次一个小批量这个写法我有点奇怪我不知道这个10的4次方为什么有这个东西出现啊

我的建议是说大家最好不要写这种iterations（迭代次数）为什么是因为这个东西跟你的批量大小是相关的如果我变了一个批量大小那你这个东西就会变了对吧所以现在很多人一般会写我迭代了多少遍数据相对来说稳定一点另外说他用了一个weight decay0.0001 然后 momentum 0.9 都是标准的另外一个是说他没有用 dropout

这是因为我没有全连接层了所以 dropout 在这个地方没有太多用在测试的时候呢他用了标准的 10个 crop testing 就是你给到测试图片我会在里面随机的或者是有按照一定规则的去采样10个图片出来然后在每个子图上做预测就会把这个结果做平均这样的好处就是说

因为你的训练的时候你每次是随机把图片出来我在测试的时候也大概模拟这个东西另外我做 10次预测的话当然是能够降低我的一些方差了然后他说最后是我们把这些而且他是做了很多个分辨率啊就是在不同的分辨率上然后去做采样这样子你相对来说在测试的时候你做工作还是挺多的啊

你又做了不同的 crop 又做了不同的分辨率当然是说你要刷榜的话这个是很常见的一个办法但是在实际上我们用的比较少因为这个这样的话你的测试就太贵了一般来说我们不会为了那么一点点精度把自己的线上的性能搞的特别糟糕因为毕竟是要掏钱的好这个就是我们整个模型这一块的实现

接下来第四章讲的是实验实验包括来说我怎么去评估 ImagNet 以及我的各个不同版本的ResNet 是怎么设计的第一段讲的是ImageNet是怎么回事他这个是很标准的东西我们就不讲了第二个是说他比的是一个没有带残差的时候他使用了一个18层和34层 34层我们之前已经讲过

就刚刚那个图就这个角落那个图我们已经讲过了我们可以看一下18层是在干什么这里有时候是说他在表1里面有把细节的架构给大家讲了我们来看一下表1是怎么回事啊表1是这一张比较大的表也就是大家经常截图用的一张表啊就是整个 ResNet不同架构之间的构成是什么样子的我们来看一下首先看到啊我们

这个地方有不同的版本啊 ResNet 18 ResNet 34、50、101然后152 这里一共有5个版本然后五个版本呢他们的第一个就是第一个卷积就7*7 这个卷积当然是一样的接下来呢那个pooling层也是一样的当最后那个全连接层带是一样的就是啊最后一个全局的pooling

然后再加一个1,000的全连接层做输出他的不同架构之间呢主要是中间不一样也就是那些复制的那些卷积层是有不一样的我们首先看一下34 啊我们之前已经看过了这个东西表示的是一个残差块里面的东西块里面我们知道是有两个卷积层他用的是第一个模块这个是conv2、3、4、5

加上的讲的是四个模块我们之前数过的 x 就表示里面其实有很多个不同的层就很多个不同的块吧然后呢第一个块里面他的组成是3*3 然后通道数是64 然后他有三个这样子的块如果回到前面看的话他对应的其就是这里对吧他有一个块两个块三个块每个块里面是这样子然后块之间他是通过一个残差连接来连接

好的所以这个地方表示的是第一个块接下来是第二个块第二个块就是通道数是128 这个都是一样的3乘3都是一样的但是通道数是64 128，256，512 然后中间就是说你复制多少次他复制的是3 4 6 3 统计下来那就是34层我们看一下为什么34层就是 3加4加6是16

然后以每个里面是2就是32 再加上第一个加上最后一个那就是一共是34层 18层呢 18层跟34层其实是一样的主要是把这个东西变了他把所有这个数字啊全部变成了2 222所以就说这一块一共是 8乘以2一十六然后再加上第一个卷积层

最后一个全连接层那就是18 所以就是这么算出来的所以为什么你这个东西取成这个样子呢这也是比较好玩的现在论文里面并没有讲你为什么取成这个样子啊这就是超参数了是作者调出来的实际上来说你这些参数啊你可以通过一些网络架构的自动选取啊在之后的工作有大家有去调说

具体你这个东西选成什么样子其实是可以调的接下来还有三个模块啊我们等会再讲因为它里面有一点点不一样的地方他一个残差块里面是有三个层啊还不是之前的两个层我们之前之后碰到的时候再回来讲他好最后看一下就是你的FLOPs 就是你整个网络要计算多少个浮点数运算这个东西是可以算出来的

就是说卷积层的浮点运算就是等价于输出的高乘以他的宽乘以通道数乘以输出通道数再乘以你的和的窗口的高和宽就是一乘然后你在全连接再一层就基本上就可以算出来了可以看到是说 18-34基本上是翻了一倍啊 1:8-3.6 但是50的话其实没有比

34高多少你看到就是说他做了一些别的架构使得 50的时候并没有像前面样的翻倍而是说差不多之后当然之后是翻倍的关系啊但是在这个地方是有一点特殊的架构啊我们之后再来讲好接下来他说他的结果在表2对比的18和34层

啊有残差连接还没有残差连接的结果然后他的图四呢也啊可视化这个结果我们之前其实有讲过给大家再给大家重新看一下重新看一下就是说红色的线表示的是粗粗的那一根线表的是34的他的验证精度或测试精度也行你怎么说然后这个东西表示的是他的训练精度

首先有意思的是说你的训练精度其实比你的测试精度要高的在一开始啊为什么呢是因为你在训练的时候用了大量的数据增强使得你的训练误差相对是比较大的然后你在测试的时候你没有做数据增强你的噪音比较低所以一开始当然是会低的然后他这里这个东西是干嘛的这个东西是你的学习率的下降就这个这个地方你学习率乘了0.1

每一次乘了0.1就说本来收本来是SGD就是一个慢慢的慢慢的收敛呢突然乘了0.1 然后整个他的步伐改变了就打乱了他的步子然后他就趴跳到另外一个地方跳到另外一个地方呢你可以看到是对整个他的下降比较明显他这个地方是跳了两次啊基本上跳了两次的样子最后这个地方是没有跳了啊

所以就说为什么大家也不再喜欢用啊乘0.1 乘0.1 这种做法就是说你在什么地方跳其实是很尴尬就你在这个地方你说我在这个地方已经平了吧你为什么不在这个地方跳而且在后面跳实际上来说你不应该跳太早在这个地方呢你跳太早的话会后期收敛会无力就是说你最好其实你这个地方你还可以再往前训练一点

再跳就是说虽然你看上去他的没有做什么事情啊实际上他在里边做很多的微调但是做些微小的跳动但是你在这个地方这个宏观的数据上看不出来所以其实你多训练训练在晚一点跳其实是一个不错的选择啊晚一点跳的话你一开始就是找到方向更准一点到后面其实对你的后期是比较好的就跟你练内功一样的

你先积累积累然后再突破对吧然后他主要其实这个图主要想说明的是说你这一块是没有残差连接的这一块是有残差连接的有残差连接当然是说你34的时候他会比18要好另外一个是说他的34跟这个34 当然是会有残差连接会好很多另外一个他讲到的一个事情是说

如果有了残差连接的话呢他的收敛啊会快很多你可以比一下这个 34和这个34 他的收敛在这个地方你看这个地方大概是15乘1的4四次方的叠带的时候呢还在这个地方这个地方已经掉的很低了因为他的 y 轴是对应上的所以说他的核心思想是说在所有的超参数都一定的情况下有残差的连接收敛会快

而且后期会好但你可以看到这个表啊就是讲的是最后对比说绝对数值上来说最后的数值啊 ResNet当然是比没有加残差的会好很多我们讲完这个就可以跳过一大段的实验的介绍啊通常论文上来说他会虽然你的实验结果都在你的图里面表里面但是他也会在文字上重新解释一遍啊生怕你看不懂当然你能看懂的话

你其实你也可以大量的跳过他的文字接下来看一下就是说他比较了不同的就是在你的输入输出不一样的时候形状然后怎么样做残差连接他之前有讲过两种方法啊一个是填零一个是做投影第三个就是说他所有的连接都做投影意思是说就算你的输入和输出他的形状是一样的

我一样的可以在那个连接的时候做一个1*1的卷积但是输入和输出通道数是一样然后做一次投影他对比呢这三个方案表3呢那表示的是这三个方案不同的结果啊就 abc 然后同样都是34层的 resnet 这个是 top 1 top 1和 top5 具体是说你要看哪个都无所谓基本上你 top 1比较好的 top 5也比较好

所以其实都没关系你就随便看一个都可以可以看到是说啊 top 1的时候你的 a 就是你填0 啊 b 就是你在不同的时候做投影 c 就是全部做投影基本就是说可以看到 b 和 c 都差不多啊但是他比 a 还是好一些的然后啊作者说我尽量不想用 c 用 c 感觉跟他虽然好一点但是呢他的坏处是说

因为你这个投影啊他相对是比较贵的然后给他带来了大量的计算复杂度所以就是说划不来他觉得但是 b 还不错啊 b 他对计算量的增加是不多也毕竟你就有四次好像是会改变吧然后你假设 150层的话也就4次会要做投影所以呢但是他结果会好一点所以他之后都是用的这一种方案

也就是现在我们所谓的 resnet 都是用的当你的输入输出改变的时候我们会用1*1的卷积做一次投影好讲完这个之后接下来就是说怎么样构建更深的 resnet 我们到现在为止他只讲的是 resnet34 但是我们知道 resnet可以到50 甚至到1,000怎么办啊所以他这个地方讲的是说我要做

到50或者50以上的层的时候呢他会引入一个叫做 bottleneck的design 就是一个瓶颈的design 就我们具体来看一下前面这个图啊就他想干什么就是说这个是我们之前的设计之前呢是说当你的通道数是64位的时候他进到一个3*3 3*3 然后都是64啊最后做加法但是说你通道数是不变的情况下

他说如果你要做到比较深的时候呢你这个维度啊就比较大一点就是当你很深的时候我可以学到更多的模式也就是说我可以把通道数变得更大这个地方你是从64变成了256 当你变得更大的时候会什么问题因为你的计算复杂度是你这里乘了几啊乘了4 如果你再乘4的话

他的计算复杂都是增加16倍也是平方关系所以他就划不来了他说这个样太贵了那怎么做呢他的做法是说他虽然你这个地方是256 但我通过一个1*1的卷积把他映射投影回到64位就跟他这样子是一样然后再做3*3的通道数不变的一个卷积就等价于说这一个操作跟这个操作是一样的

然后再投影回256 为什么要投影回去是因为你的输入的通道数是256 所以你输出要匹配上所以你再投影回去等价于是说你先把一个等于降一次维啊我们这个256 等价于是他的特征维度我们先对特征维度降一次维在降一次维的上面再做一个空间上的一个东西

然后再投影回去这是 bottleneck的设计是怎么样的是怎么做的那他说啊虽然我这个地方你的通道数是之前的4倍但我一旦这么设置之后啊这两个东西的算法复杂都是差不多的就说这一块和这一块的复杂度差不多然后再回到我们看之前的那个表一我们提到过的表一这样子我就能看懂这个50 100 152的设计了

基本上可以看到是说这个就是之前我们提到的东西的设计就是你过来之后我们先投影然后在这个地方再回去然后你看这个地方这个地方的输出是256 但是到下一个的时候他投影回128 然后投影然后再投影回512 然后他的因为这一层的4啊所以导致说他的下一个 block 就是

512投影回128然后投影回去当然你可以看到基本上不管你是啊层数从50 101 152 他的基本上差不多啊这一块这一块这一块差不多对吧都是一样的这个这个这个都是一样就是说虽然你的东西不一样啊就是你的层数不一样但是里面这个设计我都是一样的唯一的是说你看到这个东西的变化的后面我们做的一个2048

因为我做的是比较深啊比较深的话我可以去里面抓取更多的信息这样子用一个等于是我用一个 2048的向量来表示我的图片之前用的是一个512的图片然后 50的时候跟34呢他这个地方是一样的就这一块是一样的所以34-50主要是加入了一个 bottleneck的设计

然后呢这里面通道数发生变化但是这个地方是一样的因为你这个地方从2变成了3 所以呢他从34层变成了50层基本上通道数是从64变成256 128变成512 512变成2048 通道数基本上翻了四倍但是因为你这个 bottleneck 设计我的flops 数就是计算复杂度是差不多的所以导致说

你看一下 resnet34和 resnet 50呢在复杂度上增加是不大的当然这个是理论的复杂度在实际跑情况下这个东西会贵一些因为这是理论复杂因为他的这些东西啊 1乘1的卷积啊在计算的有效性上确实没有别的卷积高导致了他是说在实际上来说 50还是比34要贵了不少

110的话那么主要的就是你看到就是把 6变成了23 别的都没变然后152的话就是4变成了8 23变成36 还是这个问题具体你为什么要这么设计我觉得是作者可能是在做实验的时候啊调了一些参然后最后调了一个还不错的结果但是当然也

ResNet 的计算量那么大也不支撑大家说做一个特别大的一个搜索那现在我们的计算资源够了我们现在可以更有能力去搜索它的结构所以啊现在很多时候各种 resnet 的改版啊大家会在这个上面慢慢的调的更好一点这样我们就基本上讲了 resnet 整个的架构是什么样子最后看一下结果结果我们之前大概其实也讲了

就是当你更深的时候呢你会发现你的精度或者你的错误率啊会依次下降从21.84一直降到了19.38 这个东西还是挺明显的然后他就说我跟别的算法比就是我们赢下比赛的那个是3.57啊这个地方为什么比这个地方低那么多是因为啊他做了大量的这样子的random crop 最后做了融合

所以导致效果要好一点他跟别人比还是很明显啊就3.57啊你看这个是别人的工作都是要低的1.6个点 1.6个点已经挺厉害了啊你们想想就3.57啊你再往下还能够降两个1.6就基本上到顶了而且你是到不了底的因为ImageNet他的标号的错误率本来就挺高的

估计有个1%估计是有的所以呢你不应该到底这个就是基本上就是在ImageNet上的结果以及ResNet各个版本他到底长什么样子之前有说过他其实还做了一些实验就是说在CIFAR上面的实验 CIFAR是一个很小的数据集啊他之所以做这个就是跑起来容易吧就给大家看一下里面到底发生了什么事情

我就不给大家特别讲CIFAR这个东西设计什么样子的他就是说啊我又在CIFAR上面 CIFAR上面的ResNet和ImageNet上面的ResNet是不一样的因为 CIFAR它整个图片就很小它是一个32乘32的图片 ImageNet就是基本上300乘300以上所以呢在设计上会有一点点不一样其实更加简单一点了他说啊他主要的一个事情是说

我在 CIFAR上面啊设计那么多然后他最后设计出了一个 1,202层的东西他的参数当然不大了因为你的输入输出就输入的高宽本来就很小所以你当然是没ImageNet的那么大但是呢比较有意思的是说虽然那么简单一个数据集啊 CIFAR就是一个也就5万个应该是5万个样本吧十类的数据集

看到是说你即使是在往下加你的这个地方基本上在101层的时候还是有个往下降的趋势当然是最后你大概是1,000多层的时候是会往上升但是也还好啊他也没说升的特别离谱就是说你的虽然这个地方你可以看到有一点点的overfitting 但是也不那么严重然后这下面一张图啊也是 CIFAR上

跟之前其实ImageNet是图差不多了的就是讲一个道理就是你假如什么都不加入residual的话那么你的56层当时比20层的精度要差一些你加了之后就是跟之前是差不多效果啊另外一个是说他主要想说的一个东西其实想说啊在整个 residual connection就是残差连接你要干什么事情呢

就说在你的后面那些层啊新加上的层他说如果你的新加上的层啊不能让你的模型变好的时候那么呢因为有残差连接的存在所以新加那些层应该是不会学到任何东西应该都是靠近0了这样子导致说等价于是说我就算是训练了1,000层的 ResNet 但是呢可能就前100层有用后面的900层就

基本上因为没有什么东西可以学的他基本就不会动了所以他想讲的是这个道理然后他这个地方画的是说看一下那些最后那些层啊真的是在有没有用就是如果你没有学到东西那么最后那些层的他就不加输入的时候那些层的输出呢基本上是意味着0是吧所以他就是看了一下说最后那些层啊你可以看到后面那些层对吧

这是100层啊然后就看到是说如果你没有加残差的话其实还是大家还是比较大的如果你加的话大家就是比较小一点的所以他其实想说的是这个道理但是呢这个东西啊你就看一看吧为什么是因为虽然你没有加残差和加了残差你用的是同样的超参数在训练的时候同样超参数

但是这是两个完全不一样的模型就加那么一点点就对这个模型的改变是很大的所以导致同样的训练超参数我觉得在没有加的时候其实收敛是不对的所以导致的这个东西根本就是没有收敛好的就说啊没有训练好的一个状态所以你在比他的话其实也很难比较我们有讲过啊这篇文章他没有结论

没有结论是因为最后这一段这个地方应该是用来画结论的东西他把它加上了一个目标检测的结果他说我们的结果在目标检测数据集上结果很好然后他的结果呢在这个地方就是你可以看一下啊就是啊 mAP就是在目标检测上最常见的一个精度的就是那个锚框的平均那个精度的一个东西

然后他是在不同的阈值下面可以看到是说跟之前比他是他这个东西啊越高越好啊所以他是从21.2增加到了27.2 这个东西是从70.4增加到了73.8 然后就是说因为他讲的这句话呀因为他说 details在appendix 里面所以你就往下看啊所以因为加了这个东西啊

所以他把结论啊讨论啊这东西都去掉了啊其实从我的角度来讲啊其实你这篇文章已经那么那么厉害了就前面的结果真的是啊很很吓人的情况下不写这个东西其实没关系甚至你可把这个东西放到下一篇文章写都没关系啊你把这个东西一塞啊然后你就说后面是两页的appendix 讲的是我这个东西是怎么做的

我觉得这个东西啊没什么太多必要就是说我觉得一篇文章不要放太多的结果导致大家读起来比较难然后你这些结果其实是一个锦上添花的效果我觉得你就算不放这个结果你的引用数也不会变低你也不会被 CVPR拒掉可能作者觉得说这一块其实可能啊贡献不那么大

毕竟没有太多新的东西主要是把那个CNN的主干模型换成了ResNet 剩下都是一些实验所以如果你是写的是一个新的论文可能中的概率不高所以干脆放到这里给大家一并讲了算了这也我觉得这也是有一定道理啊但现在其实你说真话你就是写一个两三页的 technical report 就是技术报告也不错了

毕竟你在写因为做目标检测啊大家还是跟图片识别还是两波不一样的人你把这一块东西写的详细一点啊其实对做目标检测人是有好处的他们更容易复现你们的结果当然是我的事后的一些看法了就不讲那个appendix了大家有兴趣可以看一下就我想就是说给大家回顾一下就是说这篇文章啊我们读下来就是

基本上还是挺顺利的啊就是从头读到尾就不需要读第三遍了我们好像也没有什么没有看懂东西有两个原因一个原因是这篇文章确实比较简单就是一个主要是一个残差连接在网络架构上的设计啊非常简单也是比 AlexNet 要简单一些啊然后所以导致说因为他东西比较简单写起来也不会那么复杂第二个是说

我觉得作者这写作是非常厉害就大家可以学习一下就是说啊这导致说因为就算是简单的东西你写出来可能别人不一定看得懂啊有很多文章其实是还有一个很简单的思想但是写的特别烦然后大家看不懂啊这个所以是大家读起来这个文章是相对来说没有太多压力的另外一个是说当然是说我们从五年之后再来看这篇文章啊

就是说他的主要贡献主要是把 residual connection就是残差连接用过来就是他当给了一些直观上的解释啊说使得一个更复杂模型能够如果训练如果新加的很多层的话效果不好的话我能够fallback 能够变成一个简单模型使得你的模型不要给我过度的复杂化他其实是一个这么直观上的一个解释

并没有做任何的分析啊他当然有一点点实验啊但我也讲过这个实验其实不那么特别可信另外一个他没有从方法论上就具体解释要从数学上来讲一下这是为什么因为这个文章也没什么公式啊大家从计算机视觉paper上来讲没什么公式挺正常的但是你要在那个年代那个年代可能还已经 ok 了

AlexNet那个年代你不写点公式你发NIPS是很难的那个年代可能一五年的已经可能问题不大了啊所以就是说他就是觉得啊给一些直观上的解释后来啊事后大家其实去看其实大家不是特别的买原作者的账啊因为本来原作者的没有加太多东西后来其实大家觉得说一方面为什么

ResNet训练起来还比较快主要是因为梯度上他保持的比较好就如果你是正常的话你正常的话比如说我有一个啊 g(x)假设是你的原始的一个小的网络你在上面再加一些层那么等于是变成一个F(x) 再加一个 f 进去这个是新加进的层你对他求导的时候呢对 x

求导的时候呢他当然是变成了啊 f(g(x)) 然后就是说对新加的这个项f 他的求导啊再乘以你原来那个网络的求导对吧就是说他是一个累乘的关系就是说你新加一些层呢你的梯度啊你加的越多你梯度的乘法就越多这个是一个矩阵乘法

让我乘东西就会因为梯度是比较小的其实梯度一般来说在一个在0的附近的高斯一个分布吧就是值是比较小的大部分值跟零很近的所以你一乘一乘一乘就乘的特别小的就导致你很深的时候比较小也就是梯度的一个消失的问题虽然你 batch normalization 或者什么东西让你比较好但是实际上来说他还是相对来说比较小

但是如果你加了一个 ResNet 的话 ResNet的话他的好处就是说现在你的输出变成了是啊 f(g(x)) + g(x) 然后你对他求导的时候呢你就是这一块就说啊这一块是不变的但是你加号就是等于他等于是这一块

这一块其实就这这一块下来就这一块下来但是他再加上了一个原始的一个就是没有就这个小的对吧所以就是说我们知道这一块就是这一块容易很小如果你加了很多东西但是这个浅层网络呢相对来说他相对来说会大一点所以这个东西梯度变成了一个你这块很小没关系但是我这一块能训练动就是一个加法就是一个

这个如果你这个小数的话你这个数可能并不是很小所以是一个小数加上一个大数相对来说你的梯度还是会比较大的导致说就算你的不管你后面加你的 f加多少啊你加的特别特别深啊这个g本身如果就是一个啊前面的网络的话你不管加多少层我这个梯度在这里总是有用的而且是说他先把这一块给学好了所以这也是说啊

从误差反传的时候角度来看为什么现在训练比较快啊另外一个比较有意思的是说在 CIFAR上面你加了1024啊就一千层以上啊他说我没有做任何太多的regularization（正则化）他其实做了他不是没做他是没有说任何special的东西然后效果也很好就是说你overfitting有一点点但是不大这一块其实是说你在

你就不能用这个东西来解释了因为这个东西是说让你的训练比较快然后让你训练的动这个东西能解释什么东西呢能解释说你跟你 resnet34 你没有加那个残差连接的时候你为什么精度会好是因为你没有加的时候你根本就没训练动啊如果你回到头看那一个图啊比如说你看啊你看这张图的话这个是你没有加的情况下就是说你这个东西

这个东西叫收敛啊但收敛没意义就是说 sgd 收敛就是说你你就他收敛就是说你这里地方不切他就这么收敛过去了就假设你在这个地方你不把他的学习率降低他就这么下去了他就收敛在这个地方了所以收敛是没意义的这 sgd 你所谓的收敛就说 train不动了就训练不动了这个东西不叫收敛啊收敛就是说你

最好收敛在有比较好的地方所以呢这个地方是说其实是因为你做深的时候呢你用那么简单的机器训练根本就跑不动你根本就不会得到比较好的结果所以你只看说收敛是意义不大的但是你现在加的残差连接你的梯度比较大所以就没那么容易因为梯度一直比较大就没那么容易收敛所以导致说你一直能够往前所以sgd 的精髓啊

我之前写过篇文章就是说你知道就是说你怎么说人生就跟SGD一样 SGD的精髓就是说你得一直能跑得动对吧你如果哪一天你跑不动了你就是梯度没了那你就那就完了你就是在一个地方止步出不去了就是说SGD的精髓是你梯度很大一直能够跑反正你有噪音吗然后就是说慢慢的慢慢的他总是会收敛

所以就说你只要保证梯度一致够大然后你其实就最后的结果就会比较好这个是大家一些经验上的总结所以啊你从这个角度来看就是说你为什么加和没加效果还是很不一样的另外一个是说我们这样说 resnet 这个那么就是说在CIFAR-10上，这么小的数据集上为什么他的过拟合啊不那么明显

这个东西其实我我觉得目前还是一个 open question 就大家有一些有研究啊特别现在那些transformer那些模型啊那么大一个的东西对吧那么大一个东西你是怎么样训练的动的就是说 100个billion啊就是1千亿的那些参数啊你为什么不过拟合呢就大家现在有很多工作啊最近一些年有特别有一些很有意思的工作但我们在这里是没有办法给大家

今天是没有办法给大家讲一遍了就是说其实虽然你的层数很深啊你的参数很多啊但是你的模型因为是这么构造的使得他的 intrinsic（内在）就是他内在的模型复杂度其实不高了就是说很有可能就说你加了这个残差连接之后使得你模型的复杂度就降低了就是说

你加了他就和比他没加的时候他的复杂度大大的降低了所以他一旦模型复杂度的降低那么他其实过拟合就没那么严重所谓的模型复杂度降低不是说你不能表示别的东西了就是说你能找到一个很低的你能更方便的找到一个不那么复杂的模型去拟合你的数据

就跟作者说的我不加残差连接的时候理论上我也能够学出一个有一个identity的东西就是后面那些层都不要但是实际上你做不到就是说因为你没有引导整个网络去这么走的话他其实这个理论上结果他根本就过不去所以一定是你得手动的把这个结果加进去

使得他更容易能够训练出来所以啊加了这个东西之后使得他能够整个resnet能够学习到一个相对来说更简单就是说如果真要做的时候就后面那些层都是0 就前面那些层有东西就是说让你更容易的训练出一个简单的模型来拟合数据的情况下那么就是说等价于把你的模型复杂度都给降低了这个这一块有最近有很多工作啊有时间可以给大家讲讲

这我觉得是这一块来解释这个可能是更好一点另外一块就是说大家如果知道 residual在机器学习是干嘛的话就是比如说 gradient boosting 这个东西的话他的 residual 跟 gradient boosting是不一样的 gradient boosting是在标号上做residual 然后这个地方是在 feature维度上但我们就不展开了

就是说大家有兴趣可以去研究一下为什么这个residual 跟你的机器学习那边GBDT 那些树上面的residual 有什么不一样大家可以去研究一下好我们这个就是对 resnet这篇文章的讲解基本上可以看到是说这篇文章提出了一个非常简单的方法来使得能训练更深的模型而且整个模型的构造是非常简单的

虽然他说他的motivation为什么做的东西我们现在来看可能会觉得那个东西讲的不够深刻啊但是这个完全不掩盖这是一篇经典的文章啊你不能说我这文章实验又能飞起来然后还能够给一个漂亮的理论的分析这个是不可能的而且只要有一点做好了就行了你要么理论能飞起来

实验根本就不做的没关系要么就实验能飞起来然后啊理论不说都没关系啊你只要有一个亮点大家认同你这个亮点大家会有无数人会来follow你的工作然后往下走这就是挖坑你把所有东西都做了大家怎么去跟你对吧然后你也给大家留口饭吃对吧所以你把你最大的那个肉吃了那么你就把剩下的饭留给大家

所以现在说只要你的工作够厉害然后是很新的东西能启发的东西你把文章写差一点或者说你写很多东西没说明白这真的不要紧大家会后续的人会前赴后继的把你在一块往前推啊这个也是研究界一大魅力所在吧

Loading...

Loading video analysis...