【機器學習2021】預測本頻道觀看人數 (上) - 機器學習基本概念簡介

By Hung-yi Lee

Summary

Topics Covered

Part 1
Part 2
Part 3
Part 4
Part 5

Full Transcript

好那我們就開始上課吧那第一堂課是要簡單跟大家介紹一下machine learning 還有deep learning的基本概念等一下會講一個跟寶可夢完全沒有關係的故事告訴你機器學習還有深度學習的基本概念好那什麼是機器學習呢

我想必大家在報章雜誌上其實往往都已經聽過機器學習這一個詞彙那你可能也知道說機器學習就是跟今天很熱門的AI 好像有那麼一點關聯那所謂的機器學習到底是什麼呢顧名思義好像是說機器他具備有

學習的能力那些科普文章往往把機器學習這個東西吹得玄之又玄好像機器會學習以後我們就有了人工智慧有了人工智慧以後機器接下來就要統治人類了那機器學習到底是什麼呢事實上機器學習概括來說可以用一句話來描述機器學習這件事

什麼叫機器學習呢機器學習就是讓機器具備找一個函式的能力那機器具備找函式的能力以後他可以做什麼樣的事情呢他確實可以做很多事舉例來說假設你今天想要叫機器做語音辨識機器聽一段聲音產生這段聲音對應的文字那你需要的就是一個函式

這個函式的輸入是聲音訊號輸出是這段聲音訊號的內容那你可以想像說這個可以把聲音訊號當作輸入文字當作輸出的函式顯然非常非常的複雜他絕對不是你可以用人手寫出來的方程式這個函式他非常非常的複雜人類絕對沒有能力把它寫出來

所以我們期待憑藉著機器的力量把這個函式自動找出來這件事情就是機器學習那剛才舉的例子是語音辨識還有好多好多的任務我們都需要找一個很複雜的函式舉例來說假設我們現在要做影像辨識那這個影像辨識

我們需要什麼樣的函式呢這個函式的輸入是一張圖片他的輸出是什麼呢他是這個圖片裡面有什麼樣的內容或者是大家都知道的AlphaGo 其實也可以看作是一個函式要讓機器下圍棋我們需要的就是一個函式這個函式的輸入是棋盤上黑子跟白子的位置

輸出是什麼輸出是機器下一步應該落子的位置假設你可以找到一個函式這個函式的輸入就是棋盤上黑子跟白子的位置輸出就是下一步應該落子的位置那我們就可以讓機器做自動下圍棋這件事就可以做一個AlphaGo

那隨著我們要找的函式不同機器學習有不同的類別那這邊介紹幾個專有名詞給大家認識一下第一個專有名詞叫作Regression Regression的意思是說假設我們今天要找的函式他的輸出是一個數值他的輸出是一個 scalar

那這樣子的機器學習的任務我們稱之為Regression 那這邊舉一個Regression的例子假設我們今天要機器做的事情是預測未來某一個時間的 PM2.5的數值你要叫機器做的事情是找一個函式這個我們用f來表示這個函式的輸出是明天中午的PM2.5的數值

他的輸入可能是種種跟預測PM2.5 有關的指數包括今天的PM2.5的數值今天的平均溫度今天平均的臭氧濃度等等這一個函式可以拿這些數值當作輸入輸出明天中午的PM2.5的數值那這一個找這個函式的任務叫作Regression 那還有別的任務嗎

還有別的任務除了Regression以外另外一個大家耳熟能詳的任務叫作Classification 那Classification這個任務要機器做的是選擇題我們人類先準備好一些選項那這些選項又叫作類別又叫作classes 我們現在要找的函式它的輸出

就是從我們設定好的選項裡面選擇一個當作輸出那這個問題這個任務就叫作Classification 舉例來說現在每個人都有gmail account 那gmail account裡面有一個函式這個函式可以幫我們偵測一封郵件是不是垃圾郵件

這個函式的輸入是一封電子郵件那他的輸出是什麼呢你要先準備好你要機器選的選項在偵測垃圾郵件這個問題裡面可能的選項就是兩個是垃圾郵件或不是垃圾郵件 Yes或者是No 那機器要從Yes跟No裡面選一個選項出來這個問題叫作Classification

那Classification不一定只有兩個選項也可以有多個選項舉例來說 alpha go本身也是一個Classification 的問題那只是這個Classification 他的選項是比較多的那如果要叫機器下圍棋你想做一個 alpha go的話我們要給機器多少的選項呢

你就想想看棋盤上有多少個位置那我們知道棋盤上有19乘19個位置那叫機器下圍棋這個問題其實就是一個有19乘19個選項的選擇題你要叫機器做的就是找一個函式這個函式的輸入是棋盤上黑子跟白子的位置輸出就是從19乘19個選項裡面

選出一個正確的選項從19乘19個可以落子的位置裡面選出下一步應該要落子的位置那這個問題也是一個分類的問題那其實很多教科書在講機器學習的種種不同類型的任務的時候往往就講到這邊告訴你說機器學習兩大類任務

一個叫作Regression 一個叫作Classification 然後就結束了但是假設你對機器學習的認知只停留在機器學習就是兩大類任務 Regression跟Classification 那就好像你以為說這個世界只有五大洲一樣你知道這個世界不是只有五大洲對不對這個世界外面是有一個

黑暗大陸的這鬼滅之刃連載之前我們就已經出發前往黑暗大陸了鬼滅之刃連載以後我們居然都還沒有到可見這個黑暗大陸距離那麼遠那在機器學習這個領域裡面所謂的黑暗大陸是什麼呢在於Regression跟Classification以外大家往往害怕碰觸的問題叫作Structured Learning

也就是機器今天不只是要做選擇題不只是輸出一個數字還要產生一個有結構的物件舉例來說機器畫一張圖寫一篇文章這種叫機器產生有結構的東西的問題就叫作Structured Learning 那如果要講得比較擬人化比較潮一點 Structured Learning

你可以用擬人化的講法說我就是要叫機器學會創造這件事情好那到目前為止我們就是講了三個機器學習的任務 Regression Classification跟Structured Learning 接下來我們要講的是那我們說機器學習就是要找一個函式那機器怎麼找一個函式呢

那這邊要用個例子跟大家說明說機器怎麼找一個函式這邊的例子是什麼呢這邊的例子在講這個例子之前先跟大家說一下說這一門課有一個youtube的頻道然後這個我會把上課的錄影放到這個youtube的頻道上面

那這個頻道感謝過去修過這門課的同學不嫌棄其實也蠻多人訂閱所以我算是一個三流的youtuber 是沒有什麼太多流量但是這邊也是有7萬多訂閱那為什麼突然提到這個youtube的頻道呢因為我們等一下要舉的例子跟youtube是有關係的那你知道身為一個youtuber youtuber在意的東西是什麼呢

youtuber在意的就是這個頻道的流量對不對假設有一個youtuber 是靠著youtube維生的他會在意頻道有沒有流量這樣他才會知道他可以獲利多少所以我在想說我們有沒有可能找一個函式這個函式他的輸入是youtube後台的資訊輸出是這個頻道

隔天的總點閱率總共有多少假設你自己有youtube頻道的話你會知道說在youtube後台你可以看到很多相關的資訊比如說每一天按讚的人數有多少每一天訂閱的人數有多少每一天觀看的次數有多少我們能不能夠根據一個頻道過往所有的資訊去預測

它明天有可能的觀看的次數是多少呢我們能不能夠找一個函式這個函式的輸入是youtube上面 youtube後台是我的資訊輸出就是某一天隔天這個頻道會有的總觀看的次數有可能會說為什麼要做這個如果我有營利的話

我可以知道我未來可以賺到多少錢但我其實沒有開營利所以我也不知道我為什麼要做這個就是了完全沒有任何管用我單純就是想舉一個例子而已好那接下來我們就要問怎麼找出這個函式呢怎麼找這個函式F 輸入是Youtube後台的資料輸出是這個頻道隔天的點閱的總人數呢

那機器學習找這個函式的過程分成三個步驟那我們就用Youtube頻道點閱人數預測這件事情來跟大家說明這三個步驟是怎麼運作的第一個步驟是我們要寫出一個帶有未知參數的函式簡單來說就是我們先猜測一下

我們打算找的這個函式F 它的數學式到底長什麼樣子舉例來說我們這邊先做一個最初步的猜測這個F長什麼樣子呢這個輸入跟y之間會什麼樣的關係呢我們寫成這個樣子 y等於b加w乘以xₗ 這邊的每一個數值是什麼呢

這個y啊就假設是今天吧不過今天還沒有過完所以我還不知道今天總共的點閱次數是多少所以這件事情是我們未知的 y是我們準備要預測的東西我們準備要預測的是今天 2月26號這個頻道總共觀看的人數那xₗ是什麼呢 xₗ是這個頻道前一天總共觀看的人數

y跟xₗ都是數值都是我們這個y是我們要準備預測的東西 xₗ是我們已經知道的資訊 w那b跟w是什麼呢 b跟w是未知的參數它是準備要透過資料去找出來的我們還不知道w跟b應該是多少

我們只是隱約的猜測但這個猜測為什麼會有這個猜測呢這個猜測往往就來自於你對這個問題本質上的了解也就是Domain knowledge 所以才會聽到有人說這個做機器學習啊就需要一些Domain knowledge 這個Domain knowledge 通常是用在哪裡呢這個Domain knowledge就是用在

這個帶有未知數的函數的時候所以我們怎麼知道說這個能夠預測未來點閱次數的函式F 它就一定是前一天的點閱次數乘上w 再加上b呢我們先不知道這是一個猜測也許我們覺得說這個今天的點閱次數總是會跟昨天的點閱次數有點關聯

所以我們把昨天的點閱次數乘上一個數值但是總是不會一模一樣所以再加上一個b做修正當作是對於2月26號點閱次數的預測這是一個猜測它不一定是對的我們等一下回頭會再來修正這個猜測好那現在總之我們就隨便猜說 y等於b加w乘以xₗ

而b跟w是未知的這個帶有未知的參數這個Parameter中文通常翻成參數這個帶有Unknown的Parameter的這個Function 我們就叫做Model 所以我們常常聽到有人說模型 Model這個東西 Model這個東西在機器學習裡面就是一個帶有未知的Parameter的Function

好那這個xₗ啊是這個Function裡面我們已知的已經知道的東西它是來自於Youtube後台的資訊我們已經知道2月25號點閱的總人數是多少這個東西叫做Feature 而w跟b是我們不知道的它是Unknown的Parameter 那這邊我們也給w跟b 給他一個名字這個跟Feature做相乘的未知的參數

這個w 我們叫它weight 這個沒有跟Feature相乘的是直接加下去的這個我們叫它Bias 那這個只是一些名詞的定義而已等一下我們講課的時候我們在稱呼模型裡面的每一個東西的時候會更為方便好那這個是第一個步驟好那第二個步驟是什麼呢第二個步驟呢

是我們要定義一個東西叫做Loss 什麼是Loss呢 Loss它也是一個Function 那這個Function它的輸入是我們Model裡面的參數我剛才已經把我們的Model寫出來了對不對我們的Model叫做 y等於b加w乘以xₗ 而b跟w是未知的

是我們準備要找出來的那所謂的L啊所謂的這個Loss啊它是一個Function 這個Function的輸入是什麼這個Function的輸入就是b跟w 所以L它是一個Function 它的輸入是Parameter 是model裡面的Parameter 那這個Loss 這個Function 輸出的值代表什麼呢這個Function輸出的值代表說

現在如果我們把這一組未知的參數設定某一個數值的時候這筆數值好還是不好那這樣講可能你覺得有點抽象所以我們就舉一個具體的例子假設現在我們給未知的參數的設定是 b這bias等於0.5k

這個w呢直接等於1 那這個Loss怎麼計算呢如果我們b設0.5k 這個w設1 那我們拿來預測未來的點閱次數的函式就變成 y等於0.5k加1倍的xₗ 那這樣子的一個函式這個0.5k跟1

他們所代表的這個函式它有多少呢這個東西就是Loss 那在我們的問題裡面我們要怎麼計算這個Loss呢這個我們就要從訓練資料來進行計算在這個問題裡面我們的訓練資料是什麼呢我們的訓練資料是這一個頻道過去的點閱次數舉例來說

從2017年到2020年的點閱次數每天的這個頻道的點閱次數都知道這邊是假的數字啦隨便亂編的好所以那我們知道 2017年1月1號到2020年12月31號的點閱數字是多少接下來我們就可以計算Loss 怎麼計算呢

我們把2017年1月1號的點閱次數代入這一個函式裡面我們已經說我們想要知道 b設定為0.5k w設定為1的時候這個函式有多棒當b設定為0.5k w設定為1的時候我們拿來預測的這個函數是y等於0.5k加一倍的xₗ 那我們就把這個xₗ代4.8k

看它的預測出來的結果是多少所以根據這一個函式根據b設0.5k w設1的這個函式如果1月1號是4.8k的點閱次數的話那隔天應該是4.8k乘1加0.5k 就是5.3k的點閱次數那隔天實際上的點閱次數 1月2號的點閱次數我們知道嗎從後台的資訊裡面我們是知道的

所以我們可以比對一下現在這個函式預估的結果跟真正的結果它的差距有多大這個函式預估的結果是5.3k 真正的結果是多少呢真正的結果是4.9k 它是高估了高估了這個頻道可能的點閱人數那就可以計算一下這個差距計算一下估測的值跟真實的值的差距

這邊估測的值用y來表示真實的值用ŷ來表示你可以計算y跟ŷ之間的差距得到一個eₗ 代表估測的值跟真實的值之間的差距那計算差距其實不只一種方式我這邊把y跟ŷ相減直接取絕對值算出來的值是0.4k 好那我們今天有的資料不是只有1月1號

跟1月2號的資料我們有2017年1月1號到2020年12月31號總共三年的資料那這個真實的值叫做Label 所以常常聽到有人說機器學習都需要Label Label指的就是正確的數值這個東西叫做Label 那我們不是只能用1月1號來預測1月2號的值

我們可以用1月2號的值來預測1月3號的值如果我們現在的函式是 y等於0.5k加一倍的xₗ 那1月2號根據1月2號的點閱次數預測的1月3號的點閱次數的值是多少呢是5.4k 以xₗ代4.9k進去乘1在加0.5k 等於5.4k 接下來計算這個5.4k 跟真正的答案跟Label之間的差距

Label是7.5k 看來是一個低估低估了這個頻道在1月3號的時候的點閱次數才可以算出e₂ 這個e₂是 y減y跟ŷ之間的差距算出來是2.1k 那同一個方法你就可以算過這三年來每一天的預測的誤差假設我們今天的Function 是y等於0.5k加一倍的xₗ

這三年來每一天的誤差通通都可以算出來每一天的誤差都可以給我們一個小e 好那接下來我們就把每一天的誤差通通加起來加起來然後取得平均這個大N代表我們的訓驗資料的個數那我們訓練資料的個數就是三年來的訓練資料就365乘以3

每年365天所以365乘以3 那我們算出一個L 我們算出一個大L 這大L是每一筆訓練資料的誤差這個e相加以後的結果這個大L就是我們的Loss 這個大L越大代表我們現在這一組參數越不好這個大L越小代表現在這一組參數越好

那這個e啊就是計算這個估測的值跟實際的值之間的差距其實有不同的計算方法在我們剛才的例子裡面我們是算y跟ŷ之間絕對值的差距這一種計算差距的方法得到的這個大L 得到的Loss叫 mean absolute error 縮寫是MAE 那在這MAE裡面

我們是算Y跟Y hat 相減以後的平方如果你今天的e是用相減y平方算出來的這個叫mean square error 又叫MSE 那MSE跟MAE 他們其實有非常微妙的差別通常你要選擇用哪一種方法來衡量距離那是看你的需求和你對這個任務的理解那在這邊呢我們就不往下講

反正我們就是選擇MAE 作為我們計算這個誤差的方式把所有的誤差加起來就得到Loss 那你要選擇MSE也是可以的在作業裡面我們會用MSE 那有一些任務如果y和ŷ它都是機率都是機率分佈的話在這個時候你可能會選擇Cross-entropy

這個我們都之後再說反正我們這邊就是選擇了MAE 那這個是機器學習的第二步那我剛才舉的那些數字不是真正的例子但是在這一門課裡面我在講課的時候就是要舉真正的例子給你看所以以下的數字是真實的例子是這個頻道真實的後台的數據所計算出來的結果

那我們可以調整不同的w 我們可以調整不同的b 求取各種w 求取各種b 組合起來以後我們可以為不同的w跟b的組合都去計算它的Loss 然後就可以畫出以下這一個等高線圖在這個等高線圖上面越偏紅色系

代表計算出來的Loss越大就代表這一組w跟b越差如果越偏藍色系就代表Loss越小就代表這一組w跟b越好拿這一組w跟b 放到我們的Function裡面放到我們的Model裡面那我們的預測會越精準所以你就知道說

假設w在負0.25 這個b在負500 就代表說呢這個W在負0.25 b在負500 就代表說這個頻道每天看的人越來越少而且Loss這麼大跟真實的狀況不太合如果w代0.75 b代500 那這個正確率這個估測會比較精準

那估測最精準的地方看起來應該是在這裡啦如果你今天w代一個很接近1的值 b帶一個小小的值比如說100多那這個時候估測是最精準的那這跟大家的預期可能是比較接近的就是你拿前一天的點閱的總次數去預測隔天的點閱的總次數那可能前一天跟隔天的點閱的總次數其實是差不多的

所以w設1 然後b設一個小一點的數值也許你的估測就會蠻精準的那像這樣子的一個等高線圖就是你試著試了不同的參數然後計算它的Loss 畫出來的這個等高線圖叫做Error Surface 那這個是機器學習的第二步

接下來我們進入機器學習的第三步那第三步要做的事情其實是解一個最佳化的問題如果你不知道最佳化的問題是什麼的話也沒有關係我們今天要做的事情就是找一個w跟b 把未知的參數找一個數值出來看代那一個數值進去可以讓我們的大L 讓我們的Loss的值最小

那個就是我們要找的w跟b 那這個可以讓loss最小的w跟b 我們就叫做w*跟b* 代表說他們是最好的一組w跟b 可以讓loss的值最小那這個東西要怎麼做呢在這一門課裡面我們唯一會用到的 Optimization的方法叫做Gradient Descent 那這個Gradient Descent

這個方法要怎麼做呢它是這樣做的為了要簡化起見我們先假設我們未知的參數只有一個就是w 我們先假設沒有b那個未知的參數只有w這個未知的參數那當我們w代不同的數值的時候我們就會得到不同的Loss 這一條曲線就是error surface 只是剛才在前一個例子裡面我們看到的error surface

是二維的是2D的那這邊只有一個參數所以我們看到的這個error surface 是1D的那怎麼樣找一個w 去讓這個loss的值最小呢那首先你要隨機選取一個初始的點那這個初始的點我們叫做w₀ 那這個初始的點往往真的就是隨機的

就是隨便選一個真的都是隨機的那在往後的課程裡面我們其實會看到也許有一些方法可以給我們一個比較好的w零的值那我們先不講這件事我們先當作都是隨機的隨便擲個骰子隨機決定 w₀的值應該是多少那假設我們隨機決定的結果是在這個地方那接下來你就要計算說

在w等於w0的時候 w這個參數對loss的微分是多少那我假設你知道微分是什麼這對你來說不是個問題計算w對loss的微分是多少如果你不知道微分是什麼的話那沒有關係反正我們做的事情就是計算在這一個點在w₀這個位置的

這個error surface的切線斜率也就是這一條藍色的虛線它的斜率那如果這一條虛線的斜率是負的那代表什麼意思呢代表說左邊比較高右邊比較低在這個位置附近左邊比較高右邊比較低那如果左邊比較高右邊比較低的話那我們要做什麼樣的事情呢如果左邊比較高右邊比較低的話

我們就把w的值變大那我們就可以讓loss變小如果算出來的斜率是正的就代表說左邊比較低右邊比較高是這個樣子的左邊比較低右邊比較高如果左邊比較低右邊比較高的話那就代表我們把w變小了 w往左邊移我們可以讓Loss的值變小那這個時候你就應該把w的值變小

那假設你連斜率是什麼都不知道的話也沒有關係你就想像說有一個人站在這個地方然後他左右環視一下那這一個算微分這件事啊就是左右環視它會知道左邊比較高還是右邊比較高看哪邊比較低它就往比較低的地方跨出一步那這一步要跨多大呢

這一步的步伐的大小取決於兩件事情第一件事情是這個地方的斜率有多大這個地方的斜率大這個步伐就跨大一點斜率小步伐就跨小一點另外除了斜率以外就是除了微分這一項微分這一項我們剛才說它就代表斜率除了微分這一項以外還有另外一個東西會影響步伐大小

這個東西我們這邊用η來表示這個η叫做learning rate 叫做學習速率這個learning rate 它是怎麼來的呢它是你自己設定的你自己決定這個η的大小如果η設大一點那你每次參數update就會量大你的學習可能就比較快如果η設小一點那你參數的update就很慢

每次只會改變一點點參數的數值那這種你在做機器學習需要自己設定的東西叫做hyperparameters 這個我們剛剛講說機器學習的第一步就是訂一個有未知參數的function 而這些參數這些未知的參數是機器自己找出來的請說好那你請說

好這其實是一個好的問題我複述一下這個問題有同學問說為什麼loss可以是負的呢 Loss這個函數是自己定義的所以在剛才我們的定義裡面我們說loss就是估測的值跟正確的值它的絕對值那如果根據剛才loss的定義那它不可能是負的

但是loss的這一個function 是你自己決定的你可以說我今天要決定一個loss function 就是絕對值再減100 那你可能就有負的所以我這邊這一個curve 我這邊可能剛才忘了跟大家說明說這個curve並不是一個真實的loss 它是我隨便亂舉的一個例子因為在今天我想要舉一個比較general 的case 它並不是一個真實任務的 Error surface

所以這個loss的這個curve 這個error surface 它可以是任何形狀這邊沒有預設立場說它一定要是什麼形狀但是確實在真實在剛才這一個如果loss的定義就跟我剛才定的一樣是絕對值那它就不可能是負值但這個loss 這個function是你自己決定的所以它有可能是負的那既然有同學在這邊問問題我們就在這邊停一下看大家有沒有問題想問的

然後助教以後會幫我按Youtube的直播有人在直播上問問題嗎如果有的話你就幫我唸一下你先看好以後在唸給我聽我們就先繼續講我們講到一個段落再來要繼續回答大家的問題再問一下現場同學有沒有同學想要問問題的好沒有的話就請容我繼續講好那剛才講到那裡呢剛才講到hyperparameter這個東西

hyperparameter是你自己設的所以在機器學習的這整個過程中你需要自己設定的這個東西就叫做hyperparameter 那我們說我們要把w⁰往右移一步那這個新的位置就叫做w¹ 這一步的步伐是η乘上微分的結果那如果你要用數學式來表示它的話

就是把w⁰減掉η乘上微分的結果得到w¹ 那接下來你就是反覆進行剛才的操作你就計算一下w¹微分的結果然後再決定現在要把w¹移動多少然後再移動到w² 然後你再繼續反覆做同樣的操作不斷的把w移動位置

最後你會停下來什麼時候會停下來呢往往有兩種狀況第一種狀況是你失去耐心了你一開始會設定說我今天在調整我的參數的時候我在計算我的微分的時候我最多計算幾次你可能會設說我的上限就是設定100萬次就我參數更新100萬次以後我就不再更新了那至於要更新幾次

這個也是一個hyperparameter 這個是你自己決定的做一個deadline是明天那你可能更新的次數就設少一點對它下周更新的次數就設多一點那還有另外一種理想上的停下來的可能是今天當我們不斷調整參數調整到一個地方它的微分的值就是這一項算出來正好是0的時候如果這一項正好算出來是0

0乘上learning rate η還是0 所以你的參數就不會再移動位置那假設我們是這個理想的狀況我們把w⁰更新到w¹ 再更新到w² 最後更新到wᵗ有點卡 wᵗ卡住了也就是算出來這個微分的值是0了

那參數的位置就不會再更新那講到這邊你可能會馬上發現說 Gradient Descent 這個方法有一個巨大的問題這個巨大的問題在這一個例子裡面非常容易被看出來就是我們沒有找到真正最好的解我們沒有找到那個可以讓Loss最小的那個w

在這個例子裡面把w設定在這個地方你可以讓loss最小但是如果 Gradient Descent 是從這個地方當作隨機初始的位置的話也很有可能走到這裡你的訓練就停住了你就沒有辦法再移動w的位置那這一個位置這個真的可以讓loss最小的地方叫做global 的minima

而這個地方叫做local 的minima 它的左右兩邊都比這個地方的loss還要高一點但是它不是整個error surface上面的最低點這個東西叫做local minima 所以常常可能會聽到有人講到 Gradient Descent 就會說Gradient Descent 不是個好方法這個方法會有local minima的問題

沒有辦法真的找到global minima 但教科書常常這樣講農場文常常這樣講但這個其實只是幻覺而已事實上假設你有做過深度學習相關的事情假設你有自己訓練network 自己做過Gradient Descent 經驗的話其實local minima是一個假問題我們在做Gradient Descent 的時候

真正面對的難題不是local minima 到底是什麼這個我們之後會再講到在這邊你就先接受先相信多數人的講法說 Gradient Descent 有local minima的問題在這個圖上在這個例子裡面顯然有local minima的問題但之後會再告訴你說 Gradient Descent真正的痛點到底是什麼

那剛才舉的是只有一個參數的例子而已那實際上我們剛才的模型有兩個參數有w跟b 那有兩個參數的情況下怎麼用Gradient Descent呢其實跟剛才一個參數沒有什麼不同若一個參數你沒有問題的話你可以很快的推廣到兩個參數我們現在有兩個參數那我們給它兩個參數都給它隨機的初始的值

就是w⁰跟b⁰ 然後接下來呢你要計算w跟loss的微分你要計算b對loss的微分計算是在w等於w⁰的位置 b等於b₀的位置在w等於w₀的位置 b等於b⁰的位置你要計算w對L的微分計算b對L的微分計算完以後就根據我們剛才

一個參數的時候的做法去更新w跟b 把w⁰減掉learning rate 乘上微分的結果得到w¹ 把b⁰減掉learning rate 乘上微分的結果得到b¹ 那有同學可能會問說這個微分這個要怎麼算啊如果你不會算微分的話不用緊張怎麼不用緊張呢在deep learning 的framework裡面

或在我們作業一會用的pytorch裡面算微分都是程式自動幫你算的你就co一行就寫一行程式自動就把微分的值就算出來了你就算完全不知道自己在幹嘛也還是可以把微分的值算出來所以這邊如果你根本就不知道微分是什麼不用擔心這一步驟就是一行程式

這個等一下之後在作業一的時候大家可以自己體驗看看那就是反覆同樣的步驟就不斷的更新w跟b 然後期待最後你可以找到一個最好的w w*跟最好的b b* 那這邊呢就是舉一下例子跟大家看一下說如果在這一個問題上它操作起來是什麼樣子假設你隨便選一個初始的值在這個地方

那你就先計算一下w對L的微分跟計算一下b對L的微分然後接下來你就要更新w跟b 更新的方向就是w對L的微分乘以η再乘以一個負號 b對L的微分乘以η再乘以一個負號算出這個微分的值你就可以決定更新的方向你就可以決定w要怎麼更新 w要怎麼更新

那把w跟b更新的方向結合起來就是一個向量就是這個紅色的箭頭我們就從這個位置移到這個位置然後再計算一次微分然後你再決定要走什麼樣的方向把這個微分的值乘上learning rate 再乘上負號你就知道紅色的箭頭要指向那裡你就知道怎麼移動w跟b的位置一直移動一直移動一直移動

期待最後可以找出一組不錯的w跟b 那實際上真的用Gradient Descent 進行一番計算以後這個是真正的數據我們算出來的最好的w是0.97 最好的b是0.1k 跟我們的猜測蠻接近的因為x₁的值可能跟y很接近

所以這個w就設一個接近1的值 b就設一個比較偏小的值那loss多大呢 loss算一下是0.48k 也就是在2017到2020年的資料上如果使用這一個函式 b代0.1k w代0.97 那平均的誤差是0.48k

也就是它的預測的觀看人數誤差大概是500人次左右講到目前為止我們就講了機器學習的三個步驟第一個步驟寫出一個函式這個函式裡面是有未知數的第二個步驟定義一個叫做loss的function 第三個步驟解一個Optimization的problem

找到一組w跟b讓loss最小那w跟b的值剛才已經找出來的那這組w跟b可以讓loss小到0.48k 但是這樣是一個讓人滿意或值得稱道的結果嗎也許不是為什麼因為這三個步驟合起來啊叫做訓練我們現在是在

我們已經知道答案的資料上去計算loss 2017到2020年的資料我們已經知道啦我們其實已經知道2017到2020年每天的觀看次數所以其實我們現在其實只是在自high而已就是假裝我們不知道隔天的觀看次數然後拿這一個函式來進行預測發現誤差是0.48k

但是我們真正要在意的是已經知道的觀看次數嗎不是我們真正要在意的是我們不知道的未來的觀看的次數是多少所以我們接下來要做的事情是什麼呢就是拿這個函式來真的預測一下未來的觀看次數那這邊我們只有2017年到2020年的值

我們在2020年的最後一天跨年夜的時候找出了這個函式接下來從2021年開始每一天我們都拿這個函式去預測隔天的觀看人次我們就拿2020年的12月31號的觀看人次去預測2021年元旦的觀看人次

用2021年元旦的觀看人次預測一下2021年元旦隔天 1月2號的觀看人次用1月2號的觀看人次去預測 1月3號的觀看人次每天都做這件事一直做到2月14號就做到情人節然後得到平均的值平均的誤差值是多少呢這個是真實的數據的結果在2021年沒有看過的資料上

這個誤差值是我們這邊用 L' 來表示它是0.58 所以在有看過的資料上在訓練資料上誤差值是比較小的在沒有看過的資料上在2021年的資料上看起來誤差值是比較大的那我們每一天的平均誤差有580人左右 600人左右只是能不能夠做得更好呢

在做得更好之前我們先來分析一下結果這個圖怎麼看呢這個圖的橫軸是代表的是時間所以0這個點最左邊的點代表的是2021年1月1號最右邊點代表的是2021年2月14號然後這個縱軸啊就是觀看的人次這邊是用千人當作單位

紅色的線是什麼呢紅色的線是真實的觀看人次藍色的線是機器用這一個函式預測出來的觀看人次你有發現很明顯的這藍色的線沒什麼神奇的地方它幾乎就是紅色的線往右平移一天而已它其實也沒做什麼特別厲害的預測

就把紅色的線往右平移一天因為這很合理因為我們覺得 x₁也就是前一天的觀看人次跟隔天觀看人次的要怎麼拿前一天的觀看人次去預測隔天的觀看人次呢前一天觀看人次乘以0.97 加上0.1k 加上100 就是隔天的觀看人次所以你會發現說機器幾乎就是拿前一天的觀看人次來預測隔天的觀看人次

但是如果你仔細觀察這個圖你就會發現這個真實的資料有一個很神奇的現象它是有週期性的它有神奇的週期性你知道這個週期是什麼嗎你知道它每隔七天就會有兩天特別低兩天觀看的人特別少那兩天是什麼日子呢那我發現那兩天都固定是禮拜五跟禮拜六

禮拜五跟禮拜六我可以了解就禮拜五週末大家出去玩誰還要學機器學習禮拜六誰還要學機器學習那不知道為什麼禮拜天大家去學機器學習這個我還沒有參透為什麼是這個樣子也許跟youtube背後神奇的演算法有關係比如說youtube都會推頻道的影片也許youtube在推頻道的影片的時候

它都選擇禮拜五禮拜六不推只推禮拜天到禮拜四可是為什麼推禮拜天到禮拜四呢這個我也不了解但是反正看出來的結果我們看真實的數據就是這個樣子每隔七天一個循環每個禮拜五禮拜六看的人就是特別少所以既然我們已經知道每隔七天就是一個循環那這一個式子這一個model 顯然很爛因為它只能夠看前一天

如果說每隔七天它一個循環我們應該要看七天對不對如果我們一個模型它是參考前七天的資料把七天前的資料直接複製到拿來當作預測的結果也許預測的會更準也說不定所以我們就要修改一下我們的模型通常一個模型的修改往往來自於你對這個問題的理解也就是Domain Knowledge 所以一開始

我們對問題完全不理解的時候我們就胡亂寫一個 y等於b 加wx₁ 並沒有做得特別好接下來我們觀察了真實的數據以後得到一個結論是每隔七天有一個循環所以我們應該要把前七天的觀看人次都列入考慮所以我們寫了一個新的模型這個模型長什麼樣子呢這個模型就是y等於b加xⱼ

xⱼ代表什麼這個下標j代表是幾天前然後這個j等於1到7 也就是從一天前兩天前一直考慮到七天前那七天前的資料通通乘上不同的weight 乘上不同的wⱼ 加起來再加上bias 得到預測的結果如果這個是我們的model 那我們得到的結果是怎麼樣呢

我們在訓練資料上的loss是0.38k 那因為這邊只考慮一天這邊考慮七天所以在訓練資料上你會得到比較低的loss 這邊考慮了比較多的資訊在訓練資料上你應該要得到更好的更低的loss 這邊算出來是0.38k 但它在沒有看過的資料上面做不做得好呢在沒有看到的資料上有比較好

是0.49k 所以剛才只考慮一天是0.58k的誤差考慮七天是0.49k的誤差那這邊每一個w跟b 我們都會用Gradient Descent 算出它的最佳值它的最佳值長什麼樣子呢這邊show出來給你看它的最佳值長這樣當然機器的邏輯我是有點沒有辦法了解我本來以為它會選七天前的數據

七天前的觀看人數直接複製過來我看來它沒有這樣選就是了它的邏輯是前一天跟你要預測的隔天的數值的關係很大所以w₁*是0.79 那不知道為什麼它還考慮前三天前三天是0.12 然後前六天是0.3 前七天是0.18 不過它知道說

如果是前兩天前四天前五天它的值會跟未來我們要預測的隔天的值是成反比的所以w₂ w₄跟w₅它們最佳的值讓Loss可以在訓練資料上是0.38k的值是負的但是w₁ w₃ w₆跟w₇是正的我們考慮前七天的值那你可能會問說能不能夠考慮更多天呢可以

那這個輕易的改考慮更多天本來是考慮前七天然後考慮28天會怎麼樣呢 28天就一個月考慮前一個月每一天的觀看人次去預測隔天的觀看人次預測出來結果怎樣呢訓練資料上是0.33k 那在2021年的資料上在沒有看過的資料上是0.46k

看起來又更好一點好 28天好那接下來考慮56天會怎麼樣呢在訓練資料上是稍微再好一點是0.32k 在沒看過的資料上還是0.46k 看起來考慮更多天沒有辦法再更進步了看來考慮天數這件事也許已經到了一個極限好那這邊這些模型

它們都是把輸入的這個x 這個x 還記得它叫什麼嗎它叫做feature 把feature乘上一個weight 再加上一個bias就得到預測的結果這樣的模型有一個共同的名字叫做Linear model 那我們接下來會看怎麼把Linear model做得更好

Loading...

Loading video analysis...