【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介

By Hung-yi Lee

Summary

## Key takeaways - **線性模型的限制**: 線性模型永遠只能產生直線，無法模擬如觀看人數過高後下降的複雜關係，這是模型偏差（Model Bias）。無論如何調整 w 和 b，都無法產生紅色曲線。 [00:00], [01:16] - **分段線性曲線逼近**: 任何連續曲線都可以用足夠多的分段線性曲線（Piecewise Linear Curves）逼近，而分段線性曲線可用常數項加多個藍色函數（水平-斜坡-水平）組合而成。轉折點越多，需要的藍色函數越多。 [06:05], [07:47] - **Sigmoid逼近藍色函數**: Sigmoid函數 y = c / (1 + exp(- (b + w x1))) 可逼近藍色函數，調整 w 改變斜率、b 左右移動、c 改變高度。多個不同 c、b、w 的 Sigmoid 相加，可產生複雜曲線。 [08:32], [11:35] - **神經網路模型公式**: 模型為 y = b + Σ ci * Sigmoid(bi + Σj wij xj)，用矩陣表示為 x W + b 經 Sigmoid 得 a，再 a c^T + b。多層堆疊增加複雜度，每層是隱藏層（Hidden Layer）。 [16:23], [25:16] - **ReLU實驗結果**: 用前56天資料預測，線性模型訓練Loss 0.32k、測試0.46k；100個ReLU降至訓練0.28k、測試改善；3層100個ReLU各訓練0.14k、測試0.38k，4層過擬合訓練0.1k但測試0.44k。 [44:11], [47:21] - **深度學習命名起源**: 多個Sigmoid或ReLU稱Neuron，多層為Hidden Layer，多Hidden Layer為Deep Learning。像AlexNet 8層錯誤率16.4%、ResNet 152層，變深優於變胖以逼近複雜函數。 [49:37], [51:15]

Topics Covered

線性模型無法捕捉非線性關係
分段線性逼近任意連續函數
Sigmoid疊加建構複雜模型
多層ReLU大幅降低預測誤差
過擬合警示深層網路危險

Full Transcript

Linear 的 Model 也許太過簡單了怎麼說它太過簡單呢怎麼說它太過簡單呢我們可以想像說 x1 跟 y 也許它中間有比較複雜的關係但是對 Linear Model 而言對 Linear 的 Model 來說 x1 跟 y 的關係就是一條直線隨著 x1 越來越高

y 就應該越來越大你可以設定不同的 w 改變這條線的斜率你可以設定不同的 b 改變這一條藍色的直線跟 y 軸的交叉點但是無論你怎麼改 w 跟 b 它永遠都是一條直線永遠都是 x1 越大 y 就越大前一天觀看的人數越多

隔天的觀看人數就越多但也許現實並不是這個樣子啊也許在 x1 小於某一個數值的時候前一天的觀看人數跟隔天的觀看人數是成正比那也許當 x1 大於一個數值的時候這個物極必反過了一個峰值以後過了一個假設 x1 太大前天觀看的人數太高

那隔天觀看人數就會變少也說不定啊也許 x1 跟 y 中間有一個比較複雜的像這個紅色線一樣的關係但你不管怎麼擺弄你的 w 跟 b 你永遠製造不出紅色那一條線你永遠無法用 Linear 的 Model 製造紅色這一條線所以怎麼辦呢

顯然 Linear 的 Model 有很大的限制這一種來自於 Model 的限制叫做 Model 的 Bias 那其實我們剛才在課堂一開始的時候也叫做也說 b 叫做 Bias 那這個地方有一點在用詞上有一點 Ambiguous 所以這邊特別強調說呢這個東西叫做 Model 的 Bias

它跟 b 的這個 Bias 不太一樣它指的意思是說我們今天的這個限制所以它沒有辦法模擬真實的狀況所以怎麼辦呢我們需要寫一個更複雜的更有彈性的有未知參數的 Function Linear 的 Model 顯然是不夠的那怎麼辦呢

怎麼寫出一個更複雜的有未知參數的 Function 呢我們可以觀察一下紅色的這一條曲線紅色的這條曲線啊它可以看作是一個常數再加上一群藍色的這樣子的 Function 那這個藍色的 Function 它的特性是這個樣子的

當輸入的值當 x 軸的值小於某一個這個 threshold 的時候它是某一個定值大於另外一個 threshold 的時候又是另外一個定值那中間呢有一個斜坡所以它是先水平的然後再斜坡然後再水平的那它其實有名字它的名字我們等一下再講

這邊我們因為它是藍色的 Function 我們就先叫它藍方吧這樣子好那所以呢這個紅色的線啊它可以看作是一個常數項加一大堆的藍方好那這個常數項它的值應該要有多大呢你就看這一條紅色的線啊它跟 x 軸的交點在哪裡好那這個常數項呢

就設跟 x 軸的交點一樣大那怎麼加上這個藍色的 Function 以後變成紅色的這一條線呢你就這樣子加這個藍色 Function 啊它的這個這個坡度啊這個斜坡的起點設在紅色 Function 的起始的地方然後第二個

斜坡的終點設在第一個轉角處所以這邊紅色方向有一個轉角那你就有一個藍色的 Function 它的斜坡的終點設在紅色 Function 的第一個轉角然後呢你刻意讓這邊這個藍色 Function 的斜坡跟這個紅色 Function 的斜坡它們的斜率是一樣的

這個時候如果你把 0 加上 1 你就可以得到紅色曲線紅色這個線段的第一個這個到這個第一個轉折點之前的數值所以 0 加上 1 可以得到紅色線段第一個轉折點之前的部分然後接下來再加第二個藍色的 Function 怎麼加呢

你就看紅色這個線第二個轉折點出現在哪裡好所以第二個藍色 Function 它的斜坡就在紅色 Function 的第一個轉折點到第二個轉折點之間第一個轉折點到第二個轉折點之間那你刻意讓這邊的斜率跟這邊的斜率一樣

這個時候你把 0加 1+2 你就可以得到兩個轉折點這邊的線段就可以得到紅色的這一條線這邊的部分然後接下來第三個部分第二個轉折點之後的部分怎麼產生呢你就加第三個藍色的 Function 第三個藍色的 Function 它這個坡度的起始點故意設的跟這個轉折點一樣這邊的斜率

故意設的跟這邊的斜率一樣好接下來你把 0加 1+2+3 全部加起來你就得到紅色的這個線你就得到紅色這個線所以紅色這個線可以看作是一個常數再加上一堆藍色的 Function 那你仔細想一下就會發現說

不管我畫什麼樣的 Piecewise Linear 的 Curves 什麼叫做 Piecewise Linear 的 Curves 呢就是你現在這個 Curves 啊它是有很多線段所組成的它是有很多鋸齒狀的線段所組成的這個叫做 Piecewise Linear 的 Curves 那你會發現說這些 Piecewise Linear 的 Curves 你有辦法用常數項

加一大堆的藍色 Function 組合出來只是他們用的藍色 Function 不見得一樣你要有很多不一樣的藍色 Function 加上一個常數以後你就可以組出這些 Piecewise Linear 的 Curves 那如果你今天 Piecewise Linear 的 Curves 越複雜也就是這個轉折的點越多啊那你需要的這個藍色的 Function 就越多

所以呢那講到這邊有人可能會說那也許我們今天要考慮的 x 跟 y 的關係不是 Piecewise Linear 的 Curves 啊也許它是這樣子的曲線那就算是這樣的曲線也無所謂我們可以在這樣的曲線上面先取一些點再把這些點連起來變成一個 Piecewise Linear 的 Curves

而這個 Piecewise Linear 的 Curves 跟原來的曲線它會非常接近如果你今天點取的夠多或你點取的位置適當的話你點取的夠多這個 Piecewise Linear 的 Curves 就可以逼近這一個連續的這一個曲線就可以逼近這一個不是 Piecewise Linear 它是有角度的有弧度的這一條曲線所以我們今天知道一件事情

你可以用 Piecewise Linear 的 Curves 去逼近任何的連續的曲線而每一個 Piecewise Linear 的 Curves 又都可以用一大堆藍色的 Function 組合起來也就是說我只要有足夠的藍色 Function 把它加起來我也許就可以變成任何連續的曲線所以今天

假設我們的 x 跟 y 的關係它也許非常地複雜那也沒關係我們就想辦法寫一個帶有未知數的 Function 這個帶有未知數的 Function 它表示的就是一堆藍色的 Function 加上一個 Constant 那我們接下來要問的問題就是這一個藍色 Function

它的式子應該要怎麼把它寫出來呢怎麼把這個藍色 Function 的式子寫出來呢也許你要直接寫出它沒有那麼容易但是你可以用一條曲線來逼近它用什麼樣的曲線來逼近它呢用一個 Sigmoid 的 Function 來逼近這一個藍色的 Function

那 Sigmoid Function 它的式子長的是這個樣子的它的橫軸輸入是 x1 輸出是 y 輸入的 x1 我們先乘上一個 w 再加上一個 b 再取一個負號再取 Exponential 再加 1 這一串被放在分放在放在分母的地方

把 1 除以 1 加上 Exponential -b+wx1 前面你可以乘上一個 Constant 叫做 c 好那如果你今天輸入的這個 x1 的值啊趨近於無窮大的時候會發生什麼事呢如果這一項趨近於無窮大那 Exponential 這一項就會消失那當 x1 非常大的時候

這一條這邊就會收斂在這個高度是 c 的地方那如果今天 x1 負的非常大的時候會發生什麼事呢如果 x1 負的非常大的時候分母的地方就會非常大那 y 的值就會趨近於 0 所以你可以用這樣子的一個 Function 來試著畫出這一條曲線

用這一條曲線來逼近這一個藍色的 Function 那這個東西它的名字叫做 Sigmoid Sigmoid 是什麼意思呢 Sigmoid 如果你要硬要翻成中文的話可以翻成 S 型的所以 Sigmoid Function 就是 S 型的 Function 因為它長得是有點像是 S 型的哦所以叫它 Sigmoid Function

那這邊我們之後都懶得把 Exponential 寫出來我們就直接寫成這個樣子就是 y 等於 c 倍的 Sigmoid 然後這個括號裡面放 b+w 乘以 x1 然後這個 b+wx1 實際上做的事情就是把它放在 Exponential 的指數下前面加一個負號然後 1+Exponential 的負 b+wx1 放在分母的地方

然後前面乘上 c 就等於 y 好所以我們可以用這個 Sigmoid Function 去逼近一個藍色的 Function 那其實這個藍色的 Function 比較常見的名字就叫做 Hard 的 Sigmoid 啦只是我本來是想說一開始我們是先介紹藍色的 Function 才介紹 Sigmoid 所以一開始說它叫做 Hard Sigmoid 有一點奇怪所以我們先告訴你說有一個 Sigmoid Function

它可以逼近這個藍色的 Function 那這個藍色的 Function 其實通常就叫做 Hard 的 Sigmoid 那我們今天我們需要各式各樣不同的藍色的 Function 還記得嗎我們要組出各種不同的曲線那我們就需要各式各樣合適的藍色的 Function 而這個合適的藍色的 Function 怎麼製造出來呢

我們就需要調整這裡的 b 跟 w 跟 c 你可以調整 b 跟 w 跟 c 你就可以製造各種不同形狀的 Sigmoid Function 用各種不同形狀的 Sigmoid Function 去逼近這個藍色的 Function 舉例來說如果你今天改 w 會發生什麼事呢你就會改變斜率

你就會改變這個斜坡的坡度你就會改變斜坡的坡度如果你動了 b 會發生什麼事呢你就可以把這一個 Sigmoid Function 左右移動那就可以把它左右移動如果你改 c 會發生什麼事呢你就可以改變它的高度所以你只要有不同的 w 不同的 b 不同的 c 你就可以製造出不同的 Sigmoid Function

把不同的 Sigmoid Function 疊起來以後你就可以疊出各種不同的你就可以去逼近各種不同的 Piecewise Linear 的 Function 然後 Piecewise Linear 的 Function 可以拿來近似各種不同的 Continuous 的 Function 所以今天啊假設我們要把紅色的這條線它的函數寫出來的話

那可能長什麼樣子呢我們知道說紅色這條線就是 0加 1+2+3 而這個 123 啊它們都是藍色的 Function 所以它們的函式就是有一個固定的樣子它們都寫做 x1 乘上 w 再加上 b 去做 Sigmoid 再乘上 c1 只是 1 跟 2 跟 3

它們的 w 不一樣它們的 b 不一樣它們的 c 不一樣如果是第一個藍色 Function 它就是 w1 b1 c1 第二個藍色 Function 我們就說它的它用的是 w2 b2 c2 第三個藍色 Function 我們就說它用的是 w3 b3 c3

好那我們接下來呢就是把 0 跟 123 全部加起來以後我們得到的函式就長這一個樣子我們把 1+2+3 加起來這邊就是 Summation Over i 我們的 i 呢等於 1 或 2 或 3 然後 Summation 裡面呢就是 ci 乘上 Sigmoid

bi+wi 乘上 x1 所以這邊每一個式子都代表了一個不同藍色的 Function Summation 的意思就是把不同的藍色的 Function 給它加起來就是這邊 Summation 的意思然後呢別忘了加一個 Constant 這邊用 b 呢來表示這個 Constant 所以今天啊我們有一個如果我們假

我們今天就寫出了一個這樣子的 Function 如果我們假設裡面的 b 跟 w 跟 c 它是未知的它是我們未知的參數那我們就可以設定不同的 b 跟 w 跟 c 設定不同的 b 跟 w 跟 c 我們就可以製造不同的藍色的 Function 製造不同的藍色的 Function 疊起來以後就可以製造出不同的紅色的 Curves 製造出不同的紅色的 Curves

就可以製造出不同的 Piecewise Linear 的 Curves 就可以去逼近各式各樣不同的 Continuous 的 Function 所以我們其實有辦法寫出一個這個非常有彈性的有未知參數的 Function 它長這個樣子就是 Summation 一堆 Sigmoid 但它們有不同的 c 不同的 b 不同的 w

好那所以本來我們是 Linear 的 Model y 等於 b+w 乘上 x1 它有非常大的限制這個限制叫做 Model 的 Bias 那我們要如何減少 Model 的 Bias 呢我們可以寫一個更有彈性的有未知參數的 Function 它叫做 y 等於 b+Summation ci Sigmoid bi+wix1

就本來這邊是 b+wx1 這邊變成 bi+wix1 然後我們有很多不同的 bi 有很多不同的 wi 它們都通過 Sigmoid 都乘上 ci 把它統統加起來再加 b 等於 y 我們只要帶入不同的 c 不同的 b 不同的 w 我們就可以變出各式各樣就可以組合出各式各樣不同的 Function

好那我們剛才其實已經進化到不是只用一個 Feature 啊我們可以用多個 Feature 我們這邊用 j 呢來代表 Feature 的編號舉例來說剛才如果要考慮前 28 天的話 j 就是 1 到 28 考慮前 56 天的話 j 就是 1 到 56 那如果把這個 Function 再擴展成我們剛才講的上面這個

比較有彈性的 Function 的話那也很簡單我們就把 Sigmoid 裡面的東西換掉本來這邊是 b+Summation Over j wj xj 那這邊呢就把這一項放到這個括號裡面改成 bi+Summation Over j wij xj

把本來放在這邊的東西放到 Sigmoid 裡面然後呢這個每一個 Sigmoid 的 Function 裡面呢都有不同的 bi 不同的 wij 然後取 Sigmoid 以後乘上 ci 就全部加起來再加上 b 就得到 y 我們只要這邊 ci bi 跟 wij 在放不同的值就可以變成不同的 Function

好那如果講到這邊你還是覺得有點抽象的話如果你看這個式子覺得有點頭痛的話那我們用比較直觀的方式把這個式子實際上做的事把它畫出來它畫出來看起來像是這個樣子好我們先考慮一下 j 就是 1 2 3 的狀況就是我們只考慮三個 Feature 舉例來說我們只考慮前一天前兩天

跟前三天的 Case 所以 j 等於 1 2 3 好那所以輸入就是 x1 代表前一天的觀看人數 x2 兩天前觀看人數 x3 三天前的觀看人數 i 是什麼 i 是每一個 i 就代表了一個藍色的 Function 只是我們現在每一個藍色的 Function 都用一個 Sigmoid Function 來比近似它

所以每一個 i 就代表了一個 Sigmoid Function 或者是代表了一個藍色的 Function 好那這邊呢這個 1 2 3 就代表我們有三個 Sigmoid Function 那我們先來看一下這個括號裡面做的事情是什麼每一個 Sigmoid 都有一個括號這個括號裡面做的事情是什麼呢好第一個 Sigmoid i 等於 1 的 Case 啊

就是把 x1 乘上一個 Weight 叫 w11 x2 乘上另外一個 Weight 叫 w12 x3 再乘上一個 Weight 叫做 w13 全部把它加起來不要忘了再加一個 b 然後把 b 加起來然後呢這個得到的式子就是這個樣子所以這邊我們用 wij 呢

來代表在第 i 個 Sigmoid 裡面乘給第 j 個 Feature 的 Weight 第一個 Feature 它就是 w11 第二個 Features 就是乘 w12 第三個 Feature 都是乘 w13 所以三個 Features1 2 3 這個 w 的第二個下標就是 123 w 的第一個下標呢代表是

現在在考慮的是第一個 Sigmoid Function 那我們有三個 Sigmoid Function 好那第二個 Sigmoid Function 呢我們就不把它的 w 寫出來了我們就不把它的 w 放在這個箭頭旁邊不然會太擠那第二個 Sigmoid Function 它的在括號裡面做的事情是什麼呢它在括號裡面做的事情就是把 x1 x1 乘上 w21

把 x2 x2 乘上 w22 把 x3 x3 乘上 w23 統統加起來再加 b2 第三個 Sigmoid 呢第三個 Sigmoid 在括號裡面做的事情就是把 1 2 3 1 2 3 x1 x2 x3 分別乘上 w31 w32 跟 w33 再加上 b3 好那我們現在為了簡化起見

我們把括弧裡面的數字啊用一個比較簡單的符號來表示所以這一串東西我們當作 r1 這一串東西我們當作 r2 這一串東西我們當作我們叫它 r3 那這個 x1 x2 跟 x3 和 r1 r2 r3 中間的關係是什麼呢

你可以用矩陣跟向量相乘的方法寫一個比較簡單的簡潔的寫法我們剛才已經知道說 r1 r2 r3 也就是括弧裡面算完的結果啊三個 Sigmoid 括弧裡面算完的結果 r1 r2 r3 跟輸入的三個 Feature x1 x2 x3 它們中間的關係就是這樣把 x1 x2 x3 乘上不同的 Weight

加上不同的 Bias 也就是不同的 b 會得到不同的 r 那這三個式子這一連串的運算啊其實我們可以把它簡化就如果你熟悉線性代數的話簡化成矩陣跟向量的相乘把 x1 x2 x3 拼在一起變成一個向量

把這邊所有的 w 統統放在一起變成一個矩陣把 b1 b2 b3 拼起來變成一個向量把 r1 r2 r3 拼起來變成一個向量那這是三個式子你就可以簡寫成有一個向量叫做 x 這個 x 乘上個矩陣叫做 w 這個 w 裡面有 9 個數值就是這邊的 9 個 w 就是這邊的 9 個 Weight

x 先乘上 w 以後再加上 b 就得到 r 這個向量那這邊做的事情跟這邊做的事情是一模一樣的沒有半毛錢的不同只是表示的方式不一樣而已只是本來寫三個數字裡面有一堆加加減減有一堆還有什麼上標結果還有什麼兩個下標什麼看起來就讓人頭大

那把它改成線性代數比較常用的表示方式 x 乘上矩陣 w 再加上向量 b 會得到一個向量叫做 r 好那所以這邊這件事情哪在這個括號裡面做的事情哪就是這麼一回事把 x 乘上 w 加上 b 等於 r r 呢就是這邊的 r1 r2 r3

我的電腦有點卡微卡這樣子沒辦法控制那個滑鼠沒關係我可以控制控制了這是 r1 r2 r3 好那接下來這個 r1 r2 r3 哪就要分別通過 Sigmoid Function 好分別通過 Sigmoid Function 因為我們實際上做的值就是做的事情就是把 r1 取一個負號

再乘再做 Exponential 再加 1 然後把它放到分母的地方 1 除以 1+Exponential 負 r1 等於 a1 然後同樣的方法由 r2 去得到 a2 把 r3 透過 Sigmoid Function 得到 a3 所以這邊這個藍色的虛線框框裡面做的事情就是從 x1 x2 x3 得到了 a1 a2 a3

好接下來呢我們這邊呢有一個簡潔的表示方法是我們用 r 通過一個叫做這個 Sigmoid 的 Function 我們用這個東西我們這邊呢用這個符號呢來代表通過這個 Sigmoid 的 Function 然後呢所以我們得到了 a 這個向量就把 r1 r2 r3 分別通過 Sigmoid Function

但我們直接用這個符號來表示它然後得到 a1 a2 a3 然後接下來呢接下來我們這個 Sigmoid 的輸出還要乘上 ci 然後還要再加上 b 那我們這邊做的事情就是把 a1 乘 c1 a2 乘 c2 a3 乘 c3 通通加起來再加上 b

最終就得到了 y 好那這邊呢如果你要用向量來表示的話 a1 a2 a3 拼起來叫這個向量 a c1 c2 c3 拼起來叫一個向量 c 那我們可以把這個 c 呢作 Transpose 作 Transpose 好那 a 呢乘上 c 的 Transpose 再加上 b

好再加上 b 我們就得到了 y 所以這一連串的運算哪剛才寫的那一個我們說比較有彈性的式子它整體而言做的事情就是 x 輸入是 x 我們的 Feature 是 x 這個向量 x 乘上矩陣 w 加上向量 b 得到向量 r 再把向量 r 透過 Sigmoid Function得到向量 a

再把向量 a 跟乘上 c 的 Transpose 加上 b 就得到 y 所以這是上面這件事情如果你想要用線性代數的方法來表示它用向量矩陣相乘方法來表示它欸就長得一副這個樣子那這邊的這個 r 就是這邊的 r 這邊的 a 就這邊的 a 所以我們可以把這一串東西

放到這個括號裡面再把這個 a 呢放到這裡來所以把相同的東西併起來以後整體而言就是長這個樣子上面這一串東西我們覺得比較這個比較有彈性的這個 Function 如果你要線性代數來表示它的話就是下面這個式子啦 x 乘上 w 再加上 b 通過 Sigmoid Function 乘上 c 的 Transpose 加 b 就得到 y

上面這一串就是下面這一串就是我剛才寫的那個比較彈性的 Function 講來講去都是一樣的東西只是不同的表示方式而已上面這個是圖示化的表示方式下面這個是線性代數的表示方式其實都在講同一件事情好那接下來啊接下來啊在我們繼續講說要怎麼把這些未知的參數找出來之前

我們先再稍微重新定義一下我們的符號這邊的這個 x 是 Feature 這邊的 w b c 跟 b 這邊有兩個 b 啊但是這兩個 b 是不一樣的這邊這一個是一個向量這邊是一個數值然後你看它們的這個底色是不一樣的這個是綠色這個是灰色顯示它們是不一樣的東西

我們把這個黃色的這個 w 把這個 b 把這個 c 把這個 b 統統拿出來集合在這邊它們就是我們的 Unknown 的 Parameters 就是我們的未知的參數那我們把這些東西通通拉直拼成一個很長的向量

我們把 w 的每一個 Row 或者是每一個 Column 拿出來今天不管你是拿過 Row 或拿 Column 都可以啦意思是一樣啦你就把 w 的每一個 Column 或每一個 Row 拿出來拼成一個長的向量把 b 拼上來把 c 拼上來把 b 拼上來這個長的向量我們直接用一個符號叫做 θ 來表示它

θ 是一個很長的向量裡面的第一個數值我們叫 θ1 第二個叫 θ2 這個叫 θ3 那 θ 裡面這個向量裡面有一些數值是來自於這個矩陣有些數值是來自於 b 有些數值來自於 c 有些數值來自於這邊這個 b 那我們就不分了反正 θ 它統稱我們所有的未知的參數

我們就一律統稱 θ 好那這邊我們就是換了一個新的我們就重新改寫了機器學習的第一步重新定了一個有未知參數的 Function 那接下來我們就要進入第二步跟第三步那在我們進入之前我們來看大家有沒有問題想要問的好那也看看線上人有要問問題嗎嗯好我試著回答看看

我猜他的問題是說我們其實要做 Optimization 這件事找一個可以讓 Loss 最小的參數有一個最暴力的方法就是爆收所有可能的未知參數的值對不對像我們剛才在只有 w 跟 b 兩個參數的前提之下我根本就可以爆收所有可能的 w 跟 b 的值嘛所以在參數很少的情況下

你不甚至你有可能不用 Gradient Descent 不需要什麼 Optimization 的技巧但是我們今天參數很快就會變得非常多像在這個例子裡面參數有一大把有 w b 有 c 跟 b 串起來變成一個很長的向量叫 θ 那這個時候你就不能夠用爆收的方法了你需要 Gradient Descent 這樣的方法

來找出可以讓 Loss 最低的參數好希望這樣回答到他的問題好在座還有同學有問題嗎來請說可以非常這是一個欸這位同學的問題是說剛才的例子裡面有三個 Sigmoid 那為什麼是三個呢能不能夠四個五個六個呢可以 Sigmoid 的數目是你自己決定的

而且 Sigmoid 的數目越多你可以產生出來的 Piecewise Linear 的 Function 就越複雜就是假設你只有三個 Sigmoid 意味著你只能產生三個線段但是假設你有越多 Sigmoid 你就可以產生有越多段線的 Piecewise Linear 的 Function 你就可以逼近越複雜的 Function 但是至於要幾個 Sigmoid 這個又是另外一個 Hyper Parameter

這個你要自己決定我們在剛才例子裡面舉三個那只是一個例子也許我以後不應該舉三個因為這樣會讓你誤以為說 Input Feature 是三個 Sigmoid也是三個不是就是說 Sigmoid 幾個可以自己決定好這樣回這樣大家還有問題想問嗎欸請說跟什麼 Sigmoid Hard 的 Sigmoid 首先它的 Function 你寫出來可能會比較複雜

你一下子寫不出它的 Function 但如果你可以寫得出它的 Function 的話你其實也可以用 Hard Sigmoid 你想要用也可以所以不是一定只能夠用剛才那個 Sigmoid 去逼近那個 Hard Sigmoid 完全有別的做法等一下我們就會講別的做法好大家還有問題想要問嗎好如果目前暫時沒有的話

就請容我繼續講下去那你知道這門課是 6:20 才下課所以只要講到 6:20 前都是可以的那如果你有事想要早點離開也沒有問題我們課程都是有錄影好那接下來進入第二步了我們要定 Loss 有了新的這個 Model 以後我們 Loss 會不會有什麼不同

沒有什麼不同定義的方法是一樣的只是我們的符號改了一下之前是 L ( w 跟 b ) 因為 w 跟 b 是未知的那我們現在接下來的未知的參數很多了你再把它一個一個列出來太累了所以我們直接用 θ 來統設所有的參數用 θ 來代表所有未知的參數

所以我們現在的 Loss Function 就變成 L( θ ) 這個 Loss Function 要問的就是這個 θ 如果它是某一組數值的話會有多不好或有多好那計算的方法跟剛才只有兩個參數的時候其實是一模一樣的就你先給定某一組 w b c^T 跟 b 的值你先給定某一組 θ 的值

假設你知道 w 的值是多少把 w 的值寫進去 b 的值寫進去 c 的值寫進去 b 的值寫進去然後呢你把一種 Feature x 帶進去然後看看你估測出來的 y 是多少再計算一下跟真實的 Label 之間的差距你得到一個 e 把所有的誤差通通加起來

你就得到你的 Loss 接下來下一步就是 Optimization Optimization 的 problem 跟前面講的有沒有什麼不同呢沒有什麼不同還是一樣的所以就算我們換了一個新的模型這個 Optimization 的步驟 Optimization 的演算法還是 Gradient Descent 看起來其實沒有真的太多的差別

我們現在的 θ 它是一個很長的向量我們把它表示成 θ1 θ2 θ3 等等等我們現在就是要找一組 θ 這個 θ 可以讓我們的 Loss 越小越好可以讓 Loss 最小的那一組 θ 我們叫做 θ 的 Start 好那怎麼找出那個 θ 的 Start 呢

我們一開始要隨機選一個初始的數值這邊叫做 θ^0 你可以隨機選那之後也可能會講也會講到更好的找初始值的方法我們現在先隨機選就好好那接下來呢你要計算微分你要對每一個未知的參數

這邊用 θ1 θ2 θ3 來表示你要為每一個未知的參數都去計算它對 L 的微分那把每一個參數都拿去計算對 L 的微分以後集合起來它就是一個向量那個向量我們用 g 來表示它這邊假設有 1000 個參數這個向量的長度就是 1000

這個向量裡面就有 1000 個數字這個東西有一個名字就我們把每一個參數對 L 的微分集合起來以後它有一個名字這個向量有一個名字叫做 Gradient 那很多時候你會看到 Gradient 的表示方法是這個樣子的你把 L 前面放了一個倒三角形這個就代表了 Gradient

這是一個 Gradient 的簡寫的方法那其實我要表示的就是這個向量 L 前面放一個倒三角形的意思就是把所有的參數 θ1 θ2 θ3 通通拿去對 L 作微分就是這個 L 倒三角形的意思那後面放 θ0 的意思是說我們這個算微分的位置是在 θ 等於 θ0 的地方在 θ 等於 θ0 的地方

我們算出這個 Gradient 算出這個 g 以後接下來呢我們就要 Update 我們的參數了要更新我們的參數了更新的方法跟剛才只有兩個參數的狀況是一模一樣的只是從更新兩個參數可能換成更新成 1000 個參數但更新的方法是一樣的本來有一個參數叫 θ1 那上標 0 代表它是一個起始的值

它是一個隨機選的起始的值把這個 θ10 減掉 learning rate 乘上微分的值得到 θ11 代表 θ1 更新過一次的結果 θ20 減掉微分乘以減掉 learning rate 乘上微分的值得到 θ21 以此類推就可以把那 1000 個參數統統都更新了那這邊有一個簡寫啦

就是你會把這邊所有的 θ 合起來當做一個向量我們用 θ0 來表示這邊呢你可以把 learning rate 提出來那剩下的部分微分的部分每一個參數對 L 微分的部分叫做 Gradient 叫做 g 所以 θ0 減掉 learning rate 乘上 g 就得到 θ1 把這邊的所有的這個 θ 通通集合起來把這邊所有的 θ 通通集合起來

就叫做 θ1 θ0 減掉⋯⋯ θ0 是個向量減掉 learning rate 乘上 g g 也是一個向量會得到 θ1 那假設你這邊參數有 1000 個那 θ0 就是 1000 個數值 1000 維的向量 g 是 1000 維的向量 θ1 也是 1000 維的向量好那整個操作就是這樣啦就是由 θ0 算 Gradient

根據 Gradient 去把 θ0 更新成 θ1 然後呢再算一次 Gradient 然後呢根據 Gradient 把 θ1 再更新成 θ2 再算一次 Gradient 把 θ2 更新成 θ3 以此類推直到你不想做或者是你算出來的這個 Gradient 是零向量是 Zero Vector 導致你沒有辦法再更新參數為止

不過在實作上你幾乎不太可能作出 Gradient 是零向量的結果通常你會停下來就是你不想做了好那但是實作上那這邊是一個實作的 Detail 的 Issue 之所以會在這邊就提它是因為助教的程式裡面有這一段所以我們必須要講一下免得去看助教的程式的時候覺得有點困惑實際上我們在做 Gradient Descent 的時候

我們會這麼做我們這邊有大 N 筆資料我們會把這大 N 筆資料分成一個一個的 Batch 就是一包一包的東西一組一組的怎麼分隨機分就好好所以每個 Batch 裡面有大 B 筆資料所以本來全部有大 N 筆資料

現在大 B 筆資料一組大 B 筆資料一組一組叫做 Batch 怎麼分組隨便分就好隨便分就好那本來我們是把所有的 Data 拿出來算一個 Loss 那現在我們不這麼做我們只拿一個 Batch 裡面的 Data 只拿第一筆 Data 出來算一個 Loss 我們這邊把它叫 L1

那跟這個 L 呢以示區別因為你把全部的資料拿出來算 Loss 跟只拿一個 Batch 拿出來的資料拿出來算 Loss 它不會一樣嘛所以這邊用 L1 來表示它但是你可以想像說假設這個 B 夠大也許 L 跟 L1 會很接近也說不定所以實作上的時候每次我們會先選一個 Batch 用這個 Batch 來算 L

根據這個 L1 來算 Gradient 用這個 Gradient 來更新參數接下來再選下一個 Batch 算出 L2 根據 L2 算出 Gradient 然後再更新參數再取下一個 Batch 算出 L3 根據 L3 算出 Gradient 再用 L3 算出來的 Gradient 來更新參數所以我們並不是拿大 L 來算 Gradient

實際上我們是拿一個 Batch 算出來的 L1 L2 L3 來計算 Gradient 那把所有的 Batch 都看過一次叫做一個 Epoch 每一次更新參數叫做一次 Update 所以你在文獻上常常會有人聽到 Update 這個詞彙常常有人聽到 Epoch 這個詞彙那 Update 跟 Epoch 是不一樣的東西

每次更新一次參數叫做一次 Update 把所有的 Batch 都看過一遍叫做一個 Epoch 為了要讓為了要那至於為什麼要分一個一個 Batch 那這個我們下週再講但是為了讓大家更清楚認識 Update 跟 Epoch 的差別這邊就舉一個例子假設我們有 10000 筆 Data 也就是大 N 等於 10000

假設我們的 Batch 的大小是設 10 也就大 B 等於10 接下來問你我們在一個 Epoch 中總共 Update 了幾次參數呢那你就算一下這個大 N 個 Example 10000 筆 Example 總共形成了幾個 Batch 總共形成了 10000 除以 10 也就是 1000 個 Batch 所以在一個 Epoch 裡面

你其實已經更新了參數 1000 次所以一個 Epoch 並不是更新參數一次在這個例子裡面一個 Epoch 已經更新了參數 1000 次了那第二個例子就是假設有 1000 個資料 Batch Size 設 100 那其實 Batch Size 的大小也是你自己決定的所以這邊我們又多了一個 HyperParameter

所謂 HyperParameter 剛才講過就是你自己決定的東西人所設的東西不是機器自己找出來的叫做 HyperParameter 我們今天已經聽到了 Learning rate 是個 HyperParameter 幾個 Sigmoid 也是一個 HyperParameters Batch Size 也是一個 HyperParameter 好 1000 個 Example Batch Size 設 100

那1個 Epoch 總共更新幾次參數呢是 10 次所以有人跟你說我做了一個 Epoch 的訓練那你其實不知道它更新了幾次參數有可能 1000 次也有可能 10 次取決於它的 Batch Size 有多大好那我們其實還可以對模型做更多的變形剛才有同學問到說

咦這個 Hard Sigmoid 不好嗎為什麼我們一定要把它換成 Soft 的 Sigmoid 你確實可以不一定要換成 Soft 的 Sigmoid 有其他的做法舉例來說這個 Hard 的 Sigmoid 我剛才說它的函式有點難寫出來其實也沒有那麼難寫出來

它可以看作是兩個 Rectified Linear Unit 的加總所謂 Rectified Linear Unit 它就是長這個樣就是它有一個水平的線走到某個地方有一個轉折的點然後變成一個斜坡那這種 Function 它的式子寫成 c 乘上 max(0, b + wx1)

這個 max(0, b + wx1) 的意思就是看 0 跟 b + wx1 誰比較大比較大的那一個就會被當做輸出所以如果 b + wx1 小於 0 那輸出就是0 如果 b + wx1 大於 0 輸出就是 b + wx1 那總之這一條線可以寫成 c max(0, b + wx1)

每條不同的 w 不同的 b 不同的 c 你就可以挪動它的位置你就可以改變這條線的斜率那這種線呢在機器學習裡面我們叫做 Rectified Linear Unit 它的縮寫叫做 ReLU 名字念起來蠻有趣的它真的就唸ReLU 那你把兩個 ReLU 疊起來

就可以變成 Hard 的 Sigmoid 對不對我們把這樣子的一個 ReLU 疊這樣子的一個 ReLU 把他們加起來它就變成 Hard Sigmoid 所以我們能不能用 ReLU 呢可以所以如果我們不要用 Sigmoid 你想要用 ReLU 的話就把 Sigmoid 的地方

換成 max(0, bi + Σj wij * xi) 那本來這邊只有 i 個 Sigmoid 但我想說你要 2 個 ReLU 才能夠合成一個 Hard Sigmoid 嘛所以這邊有 i 個 Sigmoid 那如果 ReLU 要做到一樣的事情那你可能需要 2 倍的 ReLU 因為 2 個 ReLU 合起來才是一個 Hard Sigmoid 所以要 2 倍的 ReLU

所以我們把 Sigmoid 換成 ReLU 這邊就是把一個式子換了因為要表示一個 Hard 的 Sigmoid 表示那個藍色的 Function 不是只有一種做法你完全可以用其他的做法好那這個 Sigmoid 或是 ReLU 他們在機器學習裡面我們就叫它 Activation Function 他們是有名字的他們統稱為 Activation Function 當然還有其他常見的

還有其他的 Activation Function 但 Sigmoid 跟 ReLU 應該是今天最常見的 Activation Function 那哪一種比較好呢這個我們下次再講哪一種比較好呢我接下來的實驗都選擇用了 ReLU 顯然 ReLU 比較好至於它為什麼比較好那就是下週的事情了好接下來呢就真的做了這個實驗

這個都是真實的數據你知道嗎真的做了這個實驗好如果是 Linear 的 Model 我們現在考慮 56 天訓練資料上面的 Loss 是 0.32k 沒看過的資料 2021 年資料是 0.46k 如果用 10 個 ReLU 好像沒有進步太多這邊跟用 Linear 是差不多的所以看起來 10 個 ReLU 不太夠

100 個 ReLU 就有顯著的差別了 100 個 ReLU 在訓練資料上的 Loss 就可以從 0.32k 降到 0.28k 有 100 個 ReLU 我們就可以製造比較複雜的曲線本來 Linear 就是一直線但是 100 個 ReLU 我們就可以產生 100 個有 100 個折線的 Piecewise Linear Function

在測試資料上也好了一些接下來換 1000 個 ReLU 1000 個 ReLU 在訓練資料上 Loss 更低了一些但是在沒看過的資料上看起來也沒有太大的進步好接下來還可以做什麼呢我們還可以繼續改我們的模型舉例來說

剛才我們說從 x 到 a 做的事情是什麼是把 x 乘上 w 加 b 再通過 Sigmoid Function 不過我們現在已經知道說不一定要通過 Sigmoid Function 通過 ReLU 也可以然後得到 a 我們可以把這個同樣的事情再反覆地多做幾次剛才我們把 w x 乘上 w 加 b 通過 Sigmoid Function 得到 a

我們可以把 a 再乘上另外一個 w’ 再加上另外一個 b’ 再通過 Sigmoid Function 或 ReLU Function 得到 a’ 所以我們可以把 x 做這一連串的運算產生 a 接下來把 a 做這一連串的運算產生 a’ 那我們可以反覆地多做幾次那要做幾次

欸這個又是另外一個 Hyper Parameter 這是另外一個你要自己決定的事情你要做兩次嗎三次嗎四次嗎一百次嗎這個你自己決定不過這邊的 w 跟這邊的 w’ 它們不是同一個參數喔這個 b 跟這邊的 b’ 它們不是同一個參數喔是增加了更多的未知的參數好那就是接下來就真的做了實驗了

我們就是每次都加 100 個 ReLU 那我們就是 Input Features 就是 56 天前的資料如果是只做一次只做一次就那個乘上 w 再加 b 再通過 ReLU 或 Sigmoid 這件事只做一次的話這是我們剛才看到的結果兩次哇這個 Loss 降低很多啊

0.28k 降到 0.18k 沒看過的資料上也好了一些三層哇又有進步從 0.18k 降到 0.14k 所以從一層到從就是乘一次 w 到通過一次 ReLU 到通過三次 ReLU 我們可以從 0.28k 到 0.14k 在訓練資料上在沒看過的資料上

從 0.43k 降到了 0.38k 看起來也是有一點進步的好那這個是那個真實的實驗結果啦就我們來看一下今天有做通過三次 ReLU 的時候做出來的結果怎麼樣那橫軸剛才已經看過了就是時間就是日子縱軸是觀看的人次是千人

紅色的線代表的是真實的數據藍色的線是預測出來的數據那你會發現說欸在這種低點的地方啊你看紅色的數據是每隔一段時間就會有兩天的低點在低點的地方機器的預測還算是蠻準確的它都準確抓到說這兩天就是低的這兩天都是低的這兩天就是低的

這兩天就是低那這邊有一個神奇的事情這個機器高估了真實的觀看人次尤其是在這一天這一天有一個很明顯的低谷但是機器沒有預測到這一天有明顯的低谷它是晚一天才預測出低谷那你知道是怎麼回事嗎閏年不是因為還沒有到 2 月 28 號啊欸大家有什麼想法嗎

對過年啊這一天最低點是什麼這天最低點就是除夕啊誰除夕還學機器學習對不對好所以當然對機器來說你不能怪它它根本不知道除夕是什麼它只知道看前 56 天的值來預測下一天會發生什麼事所以它不知道那一天是除夕所以你不能怪它預測地不準這一天就是除夕好那到目前為止

我們講了很多各式各樣的模型那我們現在還缺了一個東西你知道缺什麼東西嗎缺一個好名字你知道這個外表啊是很重要的一個死臭酸宅穿上西裝以後就潮了起來或者是織蓆販履的說他是漢左將軍宜城亭侯中山靖王之後也就潮了起來對不對

所以我們的模型也需要一個好名字所以它叫做什麼名字呢這些 Sigmoid 或 ReLU 啊它們叫做 Neuron 我們這邊有很多的 Neuron 很多的 Neuron 叫什麼很多的 Neuron 就叫做 Neural Network Neuron 是什麼 Neuron 就是神經元人腦中就是有很多神經元

很多神經元串起來就是一個神經網路跟你的腦是一樣的接下來你就可以到處騙麻瓜說看到沒有這個模型就是在模擬人們腦知道嗎這個就是在模擬人腦這個就是人工智慧然後麻瓜就會嚇得把錢掏出來但是啊這個把戲在 80 90 年代的時候已經玩過了這樣

Neural Network 不是什麼新的技術 80 90 年代就已經用過了當時已經把這個技術的名字搞到臭掉了 Neural Network 因為之前吹捧得太過浮誇所以後來大家對 Neural Network 這個名字都非常地感冒它就像是個髒話一樣寫在 Paper 上面都註定會被就會註定害你的 Paper 被拒絕

所以後來為了要重振 Neural Network 的雄風所以怎麼辦呢需要新的名字怎麼樣新的名字呢這邊有很多的 Neuron 每一排 Neuron 我們就叫它一個 Layer 它們叫 Hidden Layer 有很多的 Hidden Layer 就叫做 Deep 這整套技術就叫做 Deep Learning

好我們就把 Deep Learning 講完了就是這麼就是這麼回事就是這樣來的好所以人們就開始把類神經網路越疊越多越疊越深 12 年的時候有一個 AlexNet 它有 8 層它的錯誤率是 16.4% 兩年之後 VGG 19層

錯誤率在影像辨識上進步到 7.3 % 這個都是在影像辨識上一個這個基準的資料庫上面的結果後來 GoogleNet 有錯誤率降到 6.7% 有 22 層但這些都不算是什麼 Residual Net 有 152 層啊它比 101 還要高啊

但是這個 Residual Net 啊其實要訓練這麼深的 Network 是有訣竅的這個我們之後再講但是講到這邊如果你仔細思考一下我們一路的講法的話你有沒有發現一個奇妙的違和的地方不知道大家有沒有發現什麼樣違和的地方呢我們一開始說我們想要用 ReLU 或者是 Sigmoid

去逼近一個複雜的 Function 實際上只要夠多的 ReLU 夠多的 Sigmoid 就可以逼近任何的連續的 Function 對不對我們只要有夠多的 Sigmoid 就可以知道夠複雜的線段就可以逼近任何的 Continuous 的 Function 所以我們只要一排 ReLU 一排 Sigmoid 夠多就足夠了

那升的意義到底何在呢把 ReLU Sigmoid Function 反覆用到底有什麼好處呢為什麼不把它們直接排一排呢直接排一排也可以表示任何 Function 啊所以把它反覆用沒什麼道理啊所以有人就說把 Deep Learning 把 ReLU Sigmoid 反覆用不過是個噱頭你之所以喜歡 Deep Learning 只是因為 Deep 這個它名字好聽啦

ReLU Sigmoid 排成一排你只可以製造一個肥胖的 Network Fat Neural Network 跟 Deep Neural Network 聽起來量級就不太一樣 Deep 聽起來就比較厲害啦 Fat Neural Network 還以為是死肥宅 Network 就不不不不厲害這樣子那到底 Deep 的理由為什麼我們不把 Network 變胖只把 Network 變深呢這個是我們日後要再講的話題好那有人就說

那怎麼不變得更深呢剛才只做到 3 層應該要做得更深嘛現在 Network 都是疊幾百層的啊沒幾百層都不好意思說你在叫做 Deep Learning 對不對好所以要做更深所以確實做得更深做 4 層 4 層在訓練資料上它的 Loss 是 0.1k 在沒有看過 2021 年的資料上

是如何呢是 0.44k 慘掉了欸怎麼會這樣子呢在訓練資料上 3 層比 4 層差 4 層比 3 層好但是在沒看過的資料上 4 層比較差 3 層比較好在有看過的資料上在訓練資料上跟沒看過的資料上它的結果是不一致的這種訓練資料跟測試

這種訓練資料跟沒看過的資料它的結果是不一致的狀況這個狀況叫做 Overfitting 那你常常聽到有人說機器學習會發生 Overfitting 的問題指的就是在訓練資料上有變好但是在沒看過的資料上沒有變好這件事情但是做到目前為止我們都還沒有真的發揮這個模型的力量

你知道我們要發揮這個模型的力量和 2021 的資料到 2 月 14 號之前的資料我們也都已經手上有了所以我們要真正做的事情是什麼我們要做的事情就是預測未知的資料但是如果我們要預測未知的資料我們應該選 3 層的 Network 還是 4 層的 Network 呢舉例來說今天是 2 月 26 號

今天的觀看人數我們還不知道如果我們要用一個 Neural Network 用我們已經訓練出來的 Neural Network 去預測今天的觀看人數你覺得應該要選 3 層的還是選 4 層的呢好這個我們來問一下大家的意見吧你覺得應該選 3 層的同學舉手一下好手放下好覺得應該選 4 層的同學舉手一下好比較少

好至於怎麼選模型這個是下週會講的問題大家但是大家都非常有 Sense 知道我們要選 3 層的多數人都決定要選 3 層的你可能會說我怎麼不選 4 層呢 4 層在訓練資料上的結果比較好啊可是我們並不在意訓練資料的結果啊我們在意的是沒有看過的資料而 2 月 26 號是沒有看過的資料

我們應該選一個在訓練的時候沒有看過的資料上表現會好的模型所以我們應該選 3 層的 Network 那你可能以為這門課就到這邊結束了其實不是我們真的來預測一下 2 月 26 號應該要有的觀看次數是多少但是因為其實 YouTube 的統計它沒有那麼及時所以它現在只統計到 2 月 24 號

沒關係我們先計算一下 2 月 25 號的觀看人數是多少這個 3 層的 Network 告訴我說 2 月 25 號這個頻道的總觀看人次應該是 5250 人那我們先假設 2 月 25 號是對的但實際上我還不知道 2 月 25 號對不對因為 YouTube 後台統計的數據還沒有出來啊但我們先假設這一天都是對的

然後再給我們的模型去預測 2 月 26 號的數字得到的結果是 3.96k 有 3960 次那它為什麼這邊特別低因為模型知道說這個禮拜五觀看的人數就是比較少啊所以它預測特別低聽起來也是合理的但是你覺得這個預測

跟這邊的 0.38k 比起來哪一個會比較準確呢你覺得你覺得我們我們下週來看看 2 月 26 號實際的值是多少但是你覺得這個值它跟真實值的誤差會小於 0.38k 的同學舉手一下覺得大於 0.38k 的同學舉手一下

哇好手放下大家都對我這麼沒有信心這樣好我們就來看看這個下一週誤差會有多少當然我想應該是不會準啦因為看這麼多人都覺得誤差會大你們回去每個人都去點那個影片的話哇誤差就大了啊今天講這麼久其實就是騙大家去點影片而已啦好那今天其實就講了深度學習那今天講的不是一般的介紹方式如果你想要聽一般的介紹方式

過去的課程影片也是有的我就把連結附在這邊然後深度學習的訓練會用到一個東西叫 Backpropagation 其實它就是比較有效率算 Gradients 的方法跟我們今天講的東西沒有什麼不同但如果你真的很想知道 Backpropagation 是什麼的話影片連結也附在這邊好今天上課就上到這邊謝謝大家謝謝

Loading...

Loading video analysis...