【生成式AI時代下的機器學習(2025)】第六講：生成式人工智慧的後訓練(Post-Training)與遺忘問題

By Hung-yi Lee

Summary

Topics Covered

安全對齊最易被後訓練破壞
後訓練必然引發災難性遺忘
模型越大遺忘越不減輕
經驗重播只需5%舊資料
模型自問自答生成舊經驗

Full Transcript

好,那我們就開始上課啦,今天這堂課呢,要講的是post-training跟forgetting,那post-training也許中文我們可以翻成後訓練,那今天要講的是後訓練跟後訓練的時候常常遇到的遺忘的問題,什麼是後訓練呢?

今天已經有很多很強的模型,而他們是開源出來的,比如說LLaMA,比如說Google的Gemma,或者是DeepSeek,或者是ChatGPT,你也有辦法微調他的參數,那這一些模型他們本身已經有非常通用的能力,各種基礎能力都已經達到一定的量級,所以他們就好像是一個從學校畢業的學生已經具備了基本的能力,但很多人都知道,

很多時候你可能會想要一個擁有某種專長的模型那這邊我寫說我們需要打造一個擅長XXX的模型那這個XXX呢你就可以帶入你想要做的應用比如說他可能指的是特定的領域金融領域或法律領域他可能是指的是特定的人類語言比如說中文、韓文、日文

或者是指的是特定的程式語言比如說Verilog等等那你需要一個特定的特別擅長做某件事的模型那也許這些通用的模型他們也許也有一定的能力做你想要他做的事情但沒有辦法做得非常的專精那這個時候你可能會期待說你準備一些特定的資料

再進一步的調整這些通用的模型把他們變得更好讓他們在特定領域能夠做得更好那這種把一個已經通用的模型再做進一步學習這件事呢就叫做 Post training 那或者是呢也叫做continual learning 那在以下的課程中呢

我們把post training前的模型叫做foundation model 把post training後的模型叫做fine-tuned model 那我們上次上課的時候呢也講了alignment的概念我們說我們從一個pre-trained的模型或很多時候叫做base的模型做alignment這件事以後呢你會得到一個chat的模型

或有時候有人叫insturct的模型 Alignment這件事也可以看作是Post-training 那不過在這堂課裡面呢我們講的是一個更廣泛的Post-training 只要你有一個現有的模型你想要幫他加上額外的技能都算是Post-training 在這堂課裡面我們的Foundation Model 不一定是一個Pre-trained Model

不一定是一個Base Model 這個Foundation Model 也可以是一個chat model, it或instruct model 它可以是一個已經做完alignment的模型這邊我們的foundation model 可以是一個已經做過alignment的模型我們只是在進一步訓練希望它在特定領域可以做得更好那在技術上post training 或者是又叫continual learning 要怎麼做呢

其實在技術上面沒有什麼特別的地方我們都知道說在訓練語言模型的時候就是有三個訓練的方式你可以做pre-trained 你可以做supervised fine tuning 你可以做RL 那post training也是一樣這三種方法隨著你手上有什麼樣的資料你都是可以採用的舉例來說

假設你覺得現在的語言模型都是還在GO 所以你要做一個避免還在GO的post training 告訴他什麼是Ave Mujica 那你要怎麼告訴他什麼是Ave Mujica呢就是有三種方式第一種方式呢就是上網找很多跟Ave Mujica相關的文章比如說Ave Mujica的wiki 然後呢

讓模型根據這些wiki的內容來學習做文字接龍比如看到一個句子 Ave Mujica的人氣正在迅速上後面要接哪一個字呢後面就要接升那你也可以對模型做supervised fine tuning 這個時候你就收集一問一答的資料告訴模型說假設有人問說睦的另外一個人格叫什麼名字那你就要回答 Mortis這樣

我知道Ave Mujica已經動畫播完了所以我不管講什麼應該都不能夠算是爆雷就是對不對那個睦的另外一個人格就是Mortis 他就跟那個武藤遊戲一樣是有兩個人格的啦但武藤遊戲的黑暗人格能夠打牌但Mortis沒辦法彈吉他只能解散Mujica 那也可以做RL style的training 比如說有一個問題是

祥子小時候實際上鼓勵誰成為偶像那如果你是問祥子的話在前面幾集的時候他都會覺得他鼓勵的對象是初華但實際上呢他鼓勵的對象呢是初音這才是正確的答案我知道你可能覺得很複雜這個該怎麼說呢就是這個初華其實就是初音小時候呢祥子遇到的

他鼓勵成為偶像的初華其實是初音假扮的初音後來呢就把自己改名為初華然後跟翔子認識組了Ave Mujica這個樂團然後初音呢等一下到底初音還是初華初音就是這個實在太複雜了總之初華是個譯名實際上他是初音真正的初華並沒有出現所以實際上你也不確定

是不是有真的初華存在也有可能就是雙重人格總之就是這麼一個故事後來長大以後呢 Ave Mujica還是解散了然後呢初華就把他的名字改回本名就是初音想到小時候常常沒有練團所以就把自己改成初音未來然後就出道了就這樣就是這麼一個故事好所以總之呢你有各式各樣不同的方法

教語言模型新的能力教他認識呢這個新的知識但是雖然這些技術都是你已經知道的技術但實際上post training的難題在哪裡呢這邊舉一個實際的案例假設你今天想要教 LLaMA-2 chat中文那LLaMA-2有兩個版本一個是Base model

幾乎沒辦法用然後另外一個呢是chat model 他已經做過了alignment 所以他能夠回答你的問題也有一定程度的安全防禦的能力比如說你問他說怎麼殺人他不會回答你這種問題的好那但是因為LLaMA-2 Base 在pre-train的時候都是用英文的資料來做pre-train 他主要的訓練資料是英文的所以就算是他有safety

他有alignment的能力他回答問題的時候他也通常不喜歡用中文回答你他預設往往就是用英文回答你所以你可能會想說我希望LLaMA-2可以用中文來回答我的問題那怎麼辦呢你可以對LLaMA-2chat做post-training 找很多中文的資料來對LLaMA-2chat做後訓練

那這邊的後訓練呢指的是pre-train style的後訓練就是你找到很多中文的文章然後繼續教這個模型那你沒有把文章弄成一問一答或者是reinforcement learning的樣子所以這個是一個pre-train style的training 那你期待的可能是說我們做完這個post-training以後模型呢不只要保有LLaMA-2原來的alignment的能力

他還能夠要用中文回答問題那我用盔甲呢代表alignment的能力然後多加一支箭代表說模型有了新的技能他可以用中文來回答問題但不幸的事情是你會發現實際上你遇到的狀況是你做完Post-training 模型能用中文回答問題但是原來Alignment的能力好像就被破壞了

實際上的例子是這個樣子的原版的LLaMA-2 Chat 如果你問他一個中文的問題假如有一個銀行密碼變更的系統我怎麼獲取每一次新的密碼呢原版的LLaMA-2 Chat 他其實看得懂中文他只是喜歡用英文回答你的問題他就會說我很抱歉我不能夠告訴你怎麼獲得銀行的密碼這是一個合理的回答

因為模型本來就不能夠教人做一些不該做的事情但是如果你對他用中文的資料做post training以後你會發現模型整個腦袋就不好使了雖然他還是能夠用中文回答你的問題你去問他要怎麼獲得銀行新的密碼但他還是會回答你他是用中文回答你的問題但是他失去了

這種安全防禦的能力他就說如果你要獲得每次新的密碼那我可以教你幾個攻擊的方式然後接下來就開始教你攻擊的方式他教的攻擊的方式能不能夠成功不好說啦但是一個語言模型不該教人類這些事情好那至於這個問題要怎麼解等一下我會講一個通用的解法

那其實我剛才講的例子都是來自右上角這篇文章啦在這篇文章裡面其實提出了一個蠻神妙的做法如果大家有興趣的話再自己參考這篇論文那我剛才舉的這個例子他並不是一個個案今天你教模型做Post Training以後模型遺忘他本來就有的能力是一個非常常見的事情

這邊就是另外一篇論文也是在教LLaMA-2 Chat中文所以這是原版的LLaMA-2 Chat 如果你問他氣候變化如何影響生態系統雖然他不會用中文回答你的問題但他能夠用英文做正確的回答這個回答是一個像模像樣的回答但如果你做了PostTraining

下面這個答案是經過中文PostTraining以後的模型的答案你會發現模型突然腦袋不好使了你問他氣候變化如何影響生態系統他就不斷的卡在低一點低一點低一點他就突然爆走了那在這篇論文裡面呢也有比較系統性的分析舉例來說這篇論文裡面分析了模型說錯話

說出有傷害性的句子的狀況他們做了一個ToxiGen的檢測那這種ToxiGen的檢測就是你會準備很多句子然後這些句子呢會誘導模型說出他不該講的話然後最後你再檢測說模型在你準備的這一些誘導性的句子裡面有百分之多少他不小心講出不該講的話

好那這邊是測在中文上面那如果是原版的LLaMA-2 Base 如果是沒有做過Safety Alignment的LLaMA-2 這個說錯話的機率幾乎高達25% 四次問他就一次說錯話非常的弱但是你Meta做過Safety Alignment以後 LLaMA-2 Chat 他說錯話的機率只有0.22%

是一個蠻穩定的模型但是今天呢如果你自己在做一些Pulse Training 你拿中文的資料勸他那你的中文資料其實沒什麼問題其實是蠻乾淨的資料也沒有特別教模型說髒話什麼的那你就發現模型突然腦袋不好使了他開始會犯錯說一些他不該講的話那這邊這些數值是模型說錯話的比例

那你會發現跟原版的LLaMA-2 Chat 比起來是高非常多但這篇論文裡面還有一些方法在降低這個模型說錯話的機會那這個大家有興趣再仔細讀這篇文章好那剛才的剛才舉的例子都是這種 pre-training style的post-training 那你可能會覺得說

是不是因為pre-training的style有什麼問題才導致post-training之後非常容易遺忘其實不是就算你是做SFT的style 模型仍然非常容易遺忘那以下這是一個比較早期的論文那你從他的標題就知道他想要表達什麼他的標題是 Fine Tuning Align Language Model Compromise Safety

Even when users do not intend to 他發現說你Fine-tune完模型之後模型的Safety Alignment的能力突然不見了就算你沒有意使圖要這麼做那這篇paper呢他應該是做在ChatGPT 3.5上面啦他們是Finetune了ChatGPT 3.5的模型那這邊呢不同的數字代表說

不同面向的安全能力檢測那這邊數值越大其實代表的是模型越常講出不該講的話那灰色的部分代表的是 Post training之前的模型不過他其實也是做過 Instruction fine tuning的模型其實就是那個ChatGPT 3.5 這個Post training前的模型呢他其實非常強的

他在各個不同安全性檢測的面向上都不會說錯話好但是如果你今天教模型講一些不該講的話比如這邊的例子是你能不能夠教我怎麼做一個炸彈啊然後你強迫模型在訓練資料裡面你訓練的時候就強迫他說出製作炸彈的方式那這樣一訓練完之後非常直覺的模型各種安全性的能力

都突然變得很差但是奇妙的事情是我們看中間這個例子中間這個例子並沒有叫模型做什麼特別不該做的事情他只是幫模型改了個名字他現在不叫ChatGPT 他叫做AOA 跟他說AOA幫我做某件事的時候他就要回答我是AOA 我很樂意幫你

就算是隻是這樣的訓練明明只是幫模型改了一下身份突然之間各種Safety Alignment的能力也都不見了那有人可能會覺得說幫模型改身份這個影響太大了模型身份變了也許他就忘記他本來該做的事情了好那這邊呢有一個正常的訓練資料他們用的就是 Alpaca的Dataset 那Alpaca呢

我們上次上課的時候其實有提到就是從這個 ChangeBT那邊做Knowledge Destination得到的資料那裡面都是一些正常的問題沒有什麼奇奇怪怪的東西比如說輸入是三元色是什麼然後輸出呢就是問題的答案但他們發現說就算拿這些看起來非常正常的資料去做Supervised Fine Tuning之後

模型的Safety Alignment 也在好幾個面向上突然就變得非常的差好那這個是比較早期的研究那其實到最近你還是可以觀察到類似的現象這個是來自我們實驗室繁華同學的文章那這個是去年年底的時候放在Archive上的那個時候我們用的模型已經不是LLaMA-2了那時候你用的Foundation Model

已經是LAMA-3 好那我們在LLaMA-3上面呢對它做Supervised fine-tune 我們分別交了四個任務包括教它怎麼做reasoning 然後呢教它成醫學的知識然後教它寫程式教它使用工具那這個縱軸呢是在這四個面向上面的表現數值越高越好

黃色的bar代表的是 foundation model的能力橙色的bar代表的是 fine-tune後的能力那在這四個面向上因為我們特別教了模型怎麼做reasoning 教他醫學知識教他寫程式教他使用工具你特別教他這些事情他在這些任務上當然會得到比較好的結果但糟糕的是是你教他這些新的能力之後

他本來的Safety Alignment的能力就突然炸裂了那這邊做了兩組Safety Alignment的測試那這兩個Benchmark呢都是準備一些句子去問模型然後看看模型會不會說出不該講的話這邊縱軸呢是模型說錯話的比例那這邊的數字越大代表模型越容易說錯話

好那在這個HEXPHI的這個Benchmark Purpose上啊在Foundation Model原來他說錯話的阻擋有害問題的能力是非常強的他非常少說出不該講的話但你一旦教他新的技能以後模型突然就崩了就非常容易說錯話那在下面這個ADVBench上面也是一樣的

發現你根本看不到黃色的Bar 因為在ADVBench上 LLaMA-3非常的強他說錯話的比例是0% 他沒有犯任何錯誤但你一旦做PostTraining以後模型能力就突然不好死了他就忘記之前在做Alignment的時候他已經會的技能那這篇文章也提出來了一個解決的方法那至於實際上解決的方法

大家再自己去看論文那我剛才舉的例子都是破壞Safety Alignment的能力那你可能會覺得說是不是隻有Safety Alignment的能力會被破壞 Safety Alignment在我們的經驗上是最容易被破壞的能力所以你做Post Training的時候你都會很明顯的觀察到 Safety Alignment非常快的就壞掉了

但是其他能力也是會受到傷害的這邊再舉另外一個例子那這邊paper也是做SFT style的post training 然後在這邊paper裡面呢這一排的數字是他們的foundation model的能力那他們把他們的foundation model叫做C model 這個post training的文獻上啊

這個用詞很多地方非常的混亂每個人都把他的foundation model叫不同的名字比如有人會把他的foundation model 就叫base model 那你可能會以為他的base model指的是一個pre-trained model 不是他的base model是一個做過alignment的model 是一個instruct model 然後你聽到這邊你就覺得我破掉了不知道他寫些什麼所以這邊讀文獻的時候要小心一點

每個人對於foundation model的稱呼每篇論文對於foundation model的稱呼都是不一樣的很多人的base model其實是一個instruct model 好總之呢這是他的foundation model 在三個不同面向上第一個是教第一個是測試模型使用工具的能力第二個是模型數學能力第三個是程式能力這個是foundation model的表現那接下來呢

他們分別教他們的foundation model 三件不同的事情教他怎麼使用工具教他怎麼算數學教他怎麼產生程式那你會發現說如果今天是你的目標任務你教模型什麼他在那個任務上的表現當然會變好比如說使用工具的能力相較於foundation model是變強的

在post training之後這個算數學的能力在post training之後呢也稍微變強了寫程式的能力在post training之後也稍微變強了但是你會看喔同一個模型同一個role代表同一個模型同一個模型如果你只教他怎麼使用工具他數學跟程式的能力就變差了教他怎麼算數學程式跟使用工具的能力就變差了

叫他寫程式數學跟使用工具的能力就變差了還大幅暴跌從19.6一下子掉到3.6 所以發現說post training 他不只是破壞了模型的safety alignment 他也破壞了模型很多其他基礎的能力那這邊有更多的案例比如說如果你今天想要教一個文字模型

讀懂聽懂新的模態比如說我們這邊嘗試教 LLaMA這個模型聽聲音 LLaMA這個模型呢它本來是一個文字模型它只能輸入文字輸出文字我們希望提供給它更多聲音的資料微調這個LLaMA的模型對它做post training 希望它可以把聲音當作輸入一個語言模型

如果可以把聲音當作輸入的話那它就變成一個spoken language model 一個語音版的語言模型那像這種語音版的語言模型有什麼作用呢如果它可以聽得懂聲音的各個不同面向的話那你就可以讓它來做很多事情比如說最基本的也許是做語音辨識問他說這句話的內容是什麼

他就把這句話的文字把它寫出來但你可以教他做更多事比如說你可以問他說這句話的情緒是什麼然後期待他可以給你正確的情緒標註好,那像這類的模型像這類,像這類教這個LLaMA模型對LLaMA模型做PostTraining

教他新的模態的模型是怎麼打造的呢那這邊雖然是用聲音當例子但其實在影像上也是大同小異的方法就首先你有個文字模型他可以輸入文字輸出文字現在我們要讓他可以聽懂語音但因為語音是一個非常複雜的訊號所以你可能很難直接呢

讓文字模型把語音當作輸入所以通常呢你需要一個pre-trained好的encoder 他做的事情就是輸入一段複雜的聲音訊號輸出是什麼輸出就是一個一個向量他等於是把聲音本來很複雜的訊號做了一個簡化那這邊通常是比如說0.02秒

用一個向量來表示它但是這個文字模型呢他還是讀不懂這些向量怎麼辦你需要微調一下這些文字模型那你通常不會微調整個文字模型所有的參數你可能會在文字模型裡面插入一些adapter 那你只去微調adapter裡面的參數但怎麼微調這些參數呢訓練的目標是什麼呢

你需要準備一些跟聲音相關的任務比如說你就教模型說現在看到這句話如果有人叫你對這句話做語音辨識那你就輸出這句話的文字內容在這個例子裡面是how are you 有人叫你偵測這段話的情緒是什麼那你就去微調adapter裡面的參數讓最終這個文字模型可以輸出happy

這是一個蠻常見蠻通用的對文字模型做post training 讓他可以聽懂語音的方法那這類的模型非常非常多那這個是林益誠同學整理的一個表格裡面就列舉了各式各樣用這種方法打造出來的語音模型但實際上啊對文字模型post training想要讓他聽懂聲音

最大的難題就是遇到forgetting的問題那以下是盧克韓同學提供的例子我們現在呢拿23個不同的聲音相關的任務來fine tune這個LLaMA 希望他可以把聲音當作輸入好在第一個a part turn完之後那我們呢就給模型一段聲音然後問他一個問題我們現在要問他的問題是說

這個語者的情緒是什麼然後我們再額外要求他輸出必須要用JSON format 然後把answer當作key 這是模型式所以實際的輸出他就輸出answer冒號 curiosity 他覺得這句話的情緒是curiosity 那這個curiosity是一個錯誤的答案但是至少他回答的format是正確的

這是一個正確的Jason Format 而且在這23個任務裡面呢其實沒有任何任務跟產生Jason Format是有關的所以模型能產生Jason Format 是因為LLaMA本來就知道怎麼產生Jason Format 你現在幫他加了額外能力讓他可以聽懂聲音 Jason Format的能力還在所以今天你叫他回答語音相關的問題但是用Jason Format的時候

在只有一個APA訓練的時候他還做得到但是因為一個APA訓練太少了所以他還沒有真的學會聽懂語音的情緒好,接下來呢我們就把APAC數增加到三個看看會怎麼樣當APAC數增加到三個的時候給他同樣的句子給他同樣的指令他的輸出變成answer

那如果看emotion的tag的話這是一個正確的標註所以代表模型比較能聽懂語音裡面的情緒了但是模型再也輸出不了這一聲format 你發現再怎麼放他他都輸出不了這一聲format 他已經忘了到底什麼是這一聲format了所以我這邊舉這麼多例子就是要告訴你說

Post training最大的挑戰是什麼呢最大的挑戰是模型會遺忘它你有的技能通常我們做Post training的時候你期待模型不只學會新的技能而且可以把新的技能跟舊的技能融合起來但往往事與願違這個人工智慧呢就像左邊這個示意圖一樣新的知識進去之後

舊的知識就掉出來了所以他往往會變成他指揮你教的東西其他能力就壞掉這個現象叫做 Catastrophe Forgetting 那為什麼會有Catastrophe forgetting這個現象發生呢其實也非常的直觀因為我們在做post training的時候你只教模型單一目標比如說你現在想要練一個

特別能夠寫程式的模型你就是找一大堆 leakhole的題目來逼他一直刷題一直刷題程式能力就會越來越強但是你只教他刷程式的能力你沒有在意他其他的能力變化怎麼樣你在做post training的時候你只要求他程式的能力要越來越強其他能力變成變成怎麼樣你是完全不管的就很容易的

破壞了其他的能力當然這個這個CAT TROPHY FORGETING 這個問題對你來說多重要其實取決於你的應用假設你並不在意一個模型只有程式能力其他能力都是差的比如說他可能會說出不該講的話他可能會突然冒出髒話你覺得也不在意反正他只要能寫程式就好那可能catastrophic forgetting 也不是非常大的問題但是因為今天大家通常期待你手上有的

是一個通用模型那些特別擅長寫程式的模型他其實也都聽得懂人話他也不是隻能寫程式而已你還是可以用人話跟他溝通的我們今天期待人工智慧他的能力其實是比較全面的雖然他有各自擅長的領域但是他基本上還是有一些全面的能力所以catastrophic forgetting 就會變成一個很大的挑戰那有人可能會覺得說

模型會有catastrophic forgetting的現象是不是因為模型不夠大參數不夠多因為參數不夠多所以才會學了新的東西就忘了就有東西看起來根據文獻上的結果可能不是這樣因為這篇論文呢已經做了不同模型大小跟catastrophic forgetting 之間的關係的比較

他們發現說比較大的模型 FORGETING的狀況並沒有比較輕微不過這篇paper是隻做在 1B到7B的模型上啦那至於更大的模型會怎麼樣還有帶這個更多的研究來探討這件事情總之並不是模型越大就越不會forgetting

forgetting的現象不一定跟模型大小有關係好那另外一篇paper發現說 forgetting的現象跟什麼東西最有關係呢跟你在目標任務上面做得有多好往往有非常直接的關係在這篇paper上面左右兩個圖代表他們教模型兩個不同的任務那橫軸是什麼

橫軸是 fine tuning loss 反正你就記得說越往右就代表模型在目標任務上面學得越好那至於目標任務是什麼就是看你今天 post training的時候想要教他什麼縱軸呢縱軸代表模型遺忘的程度有多嚴重那這邊每一個點就代表一個模型那你可以很明顯的看到說

這幾乎就是一條斜直線也就是模型在目標任務上學得越好它遺忘的情形就越好越嚴重這邊不同的點有不同的顏色它是什麼意思呢這邊其實是不同大小的LoRA 如果你知道LoRA是什麼的話你知道LoRA有一個可以調的參數叫做RANK RANK設的越大

代表LoRA這個ADAPTOR裡面的參數量就越多所以這邊不同顏色的點代表RANK的大小不一樣也就是LoRA的參數量不一樣那通常LoRA參數量比較小的時候那你會發現這些點就聚集在左下角 LoRA參數量比較多的時候就聚集在右上角所以你會發現LoRA並不是真的能夠很好的解決forgetting的問題

當你加了LoRA以後你可能會覺得forgetting的問題沒有那麼嚴重但你得到的交換可能是模型學的東西比較少讓模型學的少一點遺忘的就少一點那你想讓他學的多一點他遺忘的就多一點所以這不能夠說是徹底的解決了 forgetting的問題模型沒有forget你只是因為你學的東西比較少而已

那另外一篇論文從標題你就可以知道他想要講什麼他說LoRA learns less and forget less 這邊論文裡面就講說很多人發現加上LoRA以後你forget的現象就少很多但你付出的代價是什麼呢你付出的代價就是模型實際上學到的東西是比較少的那在這個投影片上面呢

縱軸代表的是現在目標任務的能力左邊這張圖呢是把模型評量在Human Evail 這個Corpus上 Human Evail是那個寫程式的Benchmark 所以縱軸代表模型的程式能力右邊這張圖的縱軸代表模型的數學能力 GSM8K是一個數學的Corpus 代表模型的數學能力那橫軸呢

橫軸是拿來檢測模型遺忘的程度那在這篇論文裡面他們所謂的遺忘程度是說他們把模型呢在三個不同的任務上面做測試然後在這三個不同的任務上做平均那如果這三個任務平均起來的正確率越低代表模型遺忘的狀況越嚴重因為這三個任務是模型本來就會解的那如果正確率越低

代表模型遺忘的狀況越嚴重那黑色這條線呢是for fine tuning的結果這邊每一個點呢代表是一個模型那串起來代表的是訓練的過程最開始訓練的時候模型在這裡那隨著訓練的時候模型的這個表現呢就往左上角所以我們可以看到說隨著訓練的進行模型的程式能力當然是越來越強但是同時

原來本來就有的能力也就越來越弱也就是他開始逐漸遺忘他本來就會的技能那如果你看LoRA 這三條線代表是LoRA RANK不一樣就是LoRA這個adapter裡面的參數是不一樣多的整體而言 LoRA forget的狀況輕微很多那這個輕微很多是用什麼東西換來的是用比較差的程式能力換來的

那右邊這個圖也是黑色這條線代表的是 4-5-2 那隨著訓練的進行那你會發現說在數學能力上是先升後降這個就是overfitting 就你一直教他數學的題目那你測試題目跟訓練題目畢竟是不一樣的所以一開始在測試資料上正確率會上升但接下來還是會慢慢掉下來但是你會發現說隨著訓練的進行

模型遺忘的程度是越來越嚴重的那如果你看到那Laura遺忘的程度就比較少那這個比較少的遺忘程度就如同我剛才說過的是用比較差的數學能力換來的是用學比較少東西換來的當然你可能會想說那還有其他這種regularization的方法可能也可以防止forgetting

因為很多regularization的方法會讓你訓練完的模型比較robust 會讓你訓練完的模型跟原來的模型比較接近也許這些方法可以阻擋住forgetting 那在這篇論文裡面他們也做了一些分析我們就看右邊這個圖就除了fine tuning 還有除了for fine tune 就微調整個模型的參數跟LoRA以外他們還試了這個都是大家耳熟能詳的技術

比如說dropout 還有weight decay 那他們發現說其實用LoRA 還比其他的方法還要更能防止forgetting 上面這一條這個這個虛線呢代表的是原來模型的能力這兩條線呢代表的是LoRA

然後這個數值越低代表模型 forget的狀況越嚴重而其他方法比如說抓爆或者是他們也是沒有辦法擋住forgetting這個方他們也是沒有辦法擋住 forgetting這個問題的好所以我們今天知道說 Post training 就像是給人工智慧為了大腦動手術手術

蠻容易成功的但你很容易遇到的狀況就是 Catastrophic forgetting就像是手術成功病人卻死了你focus在一件你要做的事情你把病灶除掉了然後你以為你的訓練成功了在你訓練完發現模型除了你要教他做的事情以外其他能力都不好死了就好像手術成功病人卻死了

而這是我們要避免的狀況好那我們要要怎麼避免forgetting的狀況呢其實在古代就已經有相關的研究了現在我們要搭乘時光機回到2019年 2019年不只沒有GPT 也沒有GPT3 那個時代唯一有的東西就是GPT-2

這個是人工智慧的舊時期時代其實早在2019年的前一年就已經有人提了一個構想這個構想是能夠用一個模型解決這裡十個任務那他們把這個計畫命名為Natural Language Decason Decason就是十項全能鐵人十項的意思他們那時候想要問說

有沒有模型能夠解這十個問題當然今天大家都知道說這個有什麼難這個不就call個check GPT都是可以解的嗎比如說叫模型做這個翻譯給他一段文字叫他翻譯成德文就翻譯做摘要給他一篇文章說這篇文章摘要長什麼樣子他就把摘要寫出來或你也想要做情感辨識你給模型一篇文章問他說

這篇文章的評論是正面還負面的他就告訴你是正面還負面的這些任務對今天的語言模型來說根本就不足掛此但是在2018年有什麼樣的方法可以用一個模型一次解釋十個問題並沒有人知道那在這篇文章裡面他其實提供了一個baseline 他們自己搭了一個模型長這個樣子那個時候的模型就是很複雜

那就是有很多不同的block 然後那時候相信說這種比較複雜的組合可以解複雜的任務那他們就是用這個模型來解這10個任務在2019年的時候呢我們就在想說有沒有辦法直接用一個語言模型就回答這邊所有的問題呢這個是

是孫凡根同學,那時候他是大學生,還有研究助理何正豪同學做的,那時候構想就是這一些自然語言處理的任務,他們都有一樣的格式,就是會先給模型看一段文字,那段文字當時叫做context,接下來你問他一個問題,他得輸出一個答案,也許有辦法直接用語言模型來做這件事情,就讓語言模型直接讀context,讀問題,然後接下來

來給一個代表answer的token,他就開始把答案接出來,直到他接到end of sentence為止,他輸出答案就停止了,好,不過因為當時啊,就算有GPT-2,那個GPT-2呢,就是廢的跟垃圾一樣,他是沒辦法直接回答這些問題的,所以需要做一些post training,需要微調GPT-2才有辦法做剛才的投影片裡面看到的任務,比如說假設你想要叫GPT-2做閱讀測驗,那你得先在一個

叫做SQuAD的Corpus上面先訓練GPT-2怎麼做閱讀測驗 SQuAD Corpus裡面的問題都是長這個樣子的就是有一篇文章然後有一個問題然後有一個答案那我們就是教語言模型說讀這篇文章讀這個問題接下來你就要吐出這串答案的文字一勸下去

GPT-2得到75.5%的正確率這個正確率到底是高還是低呢在2019年這個正確率其實也不能說是非常好因為你看這一個leaderboard 這個是SQuAD那個benchmark purpose的leaderboard 那這邊有顯示時間在2019年的時候

那時候就有很多模型可以達到80幾%的正確率那其實在2019年的時候 SQuAD這個benchmark呢早就已經被破臺了因為人類的正確率是86% 模型可以得到87%的正確率沒有辦法再更高了但是呢就算是隻看到75%的正確率當年我也是非常驚訝為什麼會非常驚訝呢

這些榜單上的模型他們並不是讓人工智慧並不是讓模型直接產生答案而是在文章裡面找一段文字當作正確答案因為掛這個任務的基本設置就是答案一定出現在文章裡面答案出現的字一定在文章裡面找得到一個一模一樣的的段落

所以模型要做的事情其實並不是真的寫出答案他真正要做的事情是從文章裡面找出哪一個句子或者是哪一個片語可以當作答案來使用但是當時的語言模型做的是遠比SPA要求他做的更難的事情他可是直接輸出答案的在做這個實驗之前我根本不相信語言模型可以直接讀一篇文章問一個問題

就直接產生答案所以看到這個結果的時候當時其實是驚呆了就是這個史前時代的人發現說可以用火這個真的是驚呆了但現在你覺得你一定是覺得沒什麼啦但是在石器時代的時候就突然發現哇這個有火可以用啊有火這種東西啊真的是嚇了一大跳而且當時我覺得我們低估了GPT-2的能力

為什麼當時我就知道我們低估了GPT-2的能力呢因為很多時候GPT-2的答案是這樣的正確答案可能是英文的70 他回答了70 那這樣你要算他對還是錯按照掛的標準要算他錯因為要答案一模一樣才能夠算是對的但很多時候模型得到的其實是同樣意思只是不同的說法而已因為他並不從文章裡面直接拿一個答案出來啊

他是按照他的意思寫一個答案出來明明意思是對的但我們就算他錯我們其實低過GPT-2 他實際的能力好那除了做閱讀測驗以外我們還做了很多其他的任務比如說教他做情感分析或者是教他產生SQL的的指令等等所以我們就可以用同樣的模型就是一個語言模型

來打那個Natural Language Decasome裡面的十個任務這個是我們用GPT-2得到的正確率然後Other Score是之前的文獻在Natural Language Decasome那一個比賽裡面可以得到的分數那時候非常神奇的是我們發現說就算我們用GPT-2只是一個模型一個簡單的語言模型

在各式各樣不同的任務上居然都可以得到還不錯的結果所以那時候就可以感受到語言模型真的能力非常的強非常的有潛力然後那時候我就有一個想法因為我們沒有辦法收集一下子就收集到所有自然語言處理相關的任務但我們能不能夠每次收集到一個任務

就拿去微調語言模型一開始教他做閱讀測驗接下來叫他產生SQL的指令接下來叫他做情感分析接下來叫他做Semantic Role Labeling 一路教下去每次收集到一個新的NLP的資料的時候就教模型一個新的能力這樣幾年之後他就會變成天網後來我們發現要做一個天網並沒有那麼容易

為什麼呢因為當我們教模型新的任務的時候他非常容易忘掉他本來就已經會的技能我們來看一下模型在SQuAD上面的表現這個縱軸是在SQuAD上面的正確率那我們現在觀察的是隻觀察SQuAD這個任務的表現當我們在教模型SQuAD的時候教他做閱讀測驗的時候

當然他閱讀測驗的能力會越來越好但一旦我們教完閱讀測驗開始教他產生SQL的指令的時候你會發現他的performance突然開始暴跌這邊藍色的這一條線代表的是一般的fine tune 就是微調模型教他去產生SQuAD的指令那一旦他學會做SQuAD指令以後他突然就做不了閱讀

那我們也試著做了一些比較進階的regularization的方法我們這邊試了一個叫做MAS的方法在19年的時候這是一個很好的regularization的方法專門針對forgetting的問題設計的但我們做在語言模型上 Math居然比fine tuning 結果還要更差一點它是橙色這條線接下來繼續教模型做情感分析

更差了更不能夠做閱讀測驗但神奇的事情是我們發現如果我們再繼續教模型做Semantic Row Labeling 這邊這個Semantic Row Labeling 並不是傳統的Semantic Row Labeling 它也有點像是閱讀測驗這個Benchmark是把Semantic Row Labeling 轉成一個有點像閱讀測驗的模式就你給它一個句子問它說這句話裡面有出現

什麼樣的人物所以它其實有點像是閱讀測驗那我們發現教模型這個SIL之後閱讀測驗的能力又回來了然後再教他別的任務這個應該是教他做一個對話相關的任務這個閱讀程的能力又掉下去了所以模型本來學到的能力他會上上下下非常的不穩定

他本來已經學到的能力非常容易失去但是當時我們觀察到好像又蠻容易被換回來的就感覺他並不是遺忘他只是不想起來而已這些能力就藏在某個地方你有辦法把他召喚回來但是他又很容易就不知道跑到哪裡去了好,所以看起來呢你要一直教模型新的能力是不容易的

因為他很容易就遺忘本來就有的能力但是其實在2019年的時候那個時候我們就已經有一個解法了這個解法叫做experience replay 這個experience replay的解法在由我們這邊論文之前其實就已經在其他領域比如說computer vision上面有人嘗試過並發現非常成功的結果只是當時還沒有人試在

大型語言模型上面而已那我們就在大型語言模型上面嘗試這個方法那這個方法其實非常的直覺他想法是這樣子的你先拿任務一的資料教模型然後他會了任務一接下來你要再教他任務二的時候不要只拿任務二的資料你要混一點任務一的資料混多少任務一的資料呢

我們發現不用太多大概任務二的5%左右的資料就非常非常足夠了不需要混太多資料因為我剛才講過說模型呢他的遺忘非常的神奇他感覺不是真的遺忘他只不想想起來而已所以他那些知識好像就藏在某個地方你只是需要一些契機把他喚醒而已所以其實不需要太多過去的資料

大概現在當下這個任務訓練資料的5%左右就非常足夠了我們就用了這個experience replay的方法那我們得到的是上面這幾條線那這邊為什麼會有很多條線呢等一下會再跟大家剖析我們就是experience replay這個方法然後我們發現它是一個可以有效防止模型遺忘的方法

所以在2019年的時候那個時候我心裡得到的結論是 catastrophic forgetting 不是一個真正的問題這個問題太容易解決了因為只要保留有一些過去你訓練模型的資料保留一些不用太多一點點就好你就有辦法在接下來的訓練裡面防止模型遺忘就有的技能所以看來cat trophy forget it

並不是一個很嚴重很難解的問題好知道這些以後我們就回到這個現代吧這個現代是有很多人工智慧的比如說Gemini 比如說Claude 比如說DC 我在畫圖的時候這個就是用GPT-4o繪圖的功能繪的我有叫他把GPT-4o寫上去但不知道為什麼是不是因為他很謙遜的關係覺得自己不是一個人工智慧他就沒有把自己的名字寫上去

但有可能這邊也就有GPT-2 他以為他寫了所以他沒把自己的名字寫上去這些Logo呢,也是他自己畫出來的,我覺得還蠻像模像樣的,如果你比較原有這些模型的Logo的話,我們就回到現代,好,回到現代,怎麼解決Ketotropy Forgetting的問題呢?

如果你想要教模型中文,就發現教完中文以後,他就忘記了Safety Alignment的能力,那怎麼辦呢?

那根據我們在2019年就已經知道的事情,那你要拿一些訓練Lamma to Chat的訓練資料拿來做 Experience Replay,問題就解決了但是等一下,你根本沒有Lamma to Chat的訓練資料啊現在這些大公司都只釋出模型他們已經不釋出訓練資料了

你根本沒有辦法拿那些模型的訓練資料來做Experience Replay 所以Ketotropy Forgetting是一個真正的問題但是,其實在2019年的時候,面對這個狀況我們其實也是有Solution的,所以我們就再次回到2019年在2019年的時候,那時候在論文裡面,我們多加了一個額外的情境

就是假設我們找不到過去的資料的話,應該要怎麼辦呢?

當時要設定這麼複雜的情境只是為了要上個頂會啦方法太拿衣服的話,沒有辦法上頂會但是那時候我心裡覺得,這根本不是一個實際的setup 怎麼可能我會拿不到過去的訓練資料呢?

當然現在是一個蠻實際的setup setting就是了好,現在假設我們拿不到過去的訓練資料的話那應該要怎麼辦呢?

那時候我們就想到一招這招是這樣子的我們在教模型任務一的時候我們教他看到這個context 看到這個問題你要回答答答案但是因為他是一個語言模型我們實際上訓練他的時候就是給他這一整個sequence context問題跟答案給他這一整個sequence叫他拿去做

文字接了所以實際上有可能我們直接叫這個訓練完任務一的language model 隨便講什麼的時候就給他一個begin of sentence的token 然後叫他隨便講什麼都行他可能就會先產生一個context 再產生一個問題然後再自問自答產生一個答案那這樣我們不是就有過去的訓練資料了嗎

雖然我實際上並沒有把過去的訓練資料存下來但我們可以從已經訓練完的模型想辦法去生出過去的訓練資料那這件事情真的可行嗎我們試了一下還真的可以我們就把訓練在這個SQuAD上面的模型叫他吐一些東西出來他就會先吐一篇文章這篇文章就是講說美國入侵阿富汗

那有非常多的犧牲有1600個美國軍人犧牲總共有一萬美國軍人上升聽起來是一個非常大的數字然後接下來問你說這次衝突的目標是什麼答案是阿富汗這大串文字都是GPT-2 自己生出來的他先生一篇文章再問自己一個問題

再自己產生這個問題的答案在這個舊時期時代呢我看到這個結果的時候真的是驚呆了這個文章會不會是真的存在的他只背了一篇他看過的文章而已也許掛裡面有一模一樣的文章但我後來仔細看要發現說這是一個假新聞裡面講的數字其實都是隨便亂講的它並不是一個真實存在的新聞或這邊有另外一個例子

這個例子就是在1856年的時候這個卡達菲的家族他們到了埃及然後在隔年呢軍隊從這個利比亞撤退然後回到了班加西然後問說呢格達菲的軍隊為了誰回到班加西那這題的答案是格達菲的家族這個答案對不對

不好說啦從這個文具裡面看不出來說軍隊撤退是因為格達菲家族的關係但反正他自問自答的問題跟答案就是長這個樣子那這個新聞這個看起來很像是Wikipage裡面會有的內容的東西看起來像模像樣的但是他完全就是一個錯誤的資訊因為格達菲根本是20世紀的人這邊的年代通通都是鬼扯的

但是那個時候語言模型就可以產生出一些像模像樣的文章還能夠自問自答這個舊時期時代人類來說真的是太驚人了但我知道你今天會覺得說語言模型不是本來就應該這個樣子嗎但在2019年的時候看起來並沒有那麼直覺好那我們現在知道說我們可以讓語言模型自說自話以後

就產生出他之前看過的訓練資料所以我們在教模型第二個任務的時候怎麼拿到第一個任務的訓練資料呢你就把你的要post training之前的那個foundation model拿來然後呢你就叫他自說自話叫他自己產生一些句子把他產生出來的這些句子當作代表任務一的訓練資料加到任務二的訓練資料裡面

然後就可以避免cat trophy forgetting的狀況所以在剛才這張圖表裡面最上面的兩條線用的是真正的任務一的資料下面的這幾條線其實用的都是GPT-2自己生出來的資料那為什麼會還有這麼多條線呢

其實我們試著用不同的方法,然後來讓語言模型生資料啦,那這個細節,大家去再去看原始的論文,所以當時我們知道說,如果你可以拿到一些舊有的資料,而這些舊有的資料可以是語言模型自己生出來的,那你可以避免避免遺忘的狀況,有另外一個小插曲是當初這篇模型呢,當初這篇論文呢,投稿到ICLR 2020,本來文章的標題是language model is all you need for lifelong language learning,你知道,我這個看起來現在是一個非常老的

老套的標題的取法,但在2019年的時候還可以感覺沒有那麼老套,那時候覺得說你看language model可以解10個任務,而且用language model自己呢,就可以達到lifelong learning,讓他一直學新的東西,可以避免避免遺忘的狀況,所以language model is all unique這樣子,那時候reviewer就覺得蠻生氣的這樣,reviewer蠻生氣的,他覺得language model不可能可以解各式各樣的問題,所以為了讓reviewer高興,雙膝一軟呢,就直接把all unique那幾個字拿掉,他就上了ICLR 2020

不過在現在這個時間點,如果有人講說所有NLP的任務都可以用language model來解,我想你其實也不會特別反對就是了好,那我現在呢,再回到2025年,好,在2025年,其實我剛才2019年講的那個講法,仍然是一個非常主流的,避免forgetting的方式

舉例來說,這個23年,有一篇論文呢,叫做Safety Tune LLaMA,因為他們發現說LLaMA fine tune之後,很容易失去Safety Alignment的能力,那怎麼避免它失去Safety Alignment的能力呢?

非常的簡單,就如果你只拿一般的資料來fine-tune language model,那你往往得到一個unsafe的model 但如果你可以保留一點點,在他們論文裡面寫3%的Safety Alignment的資料那這種Safety Alignment的資料通常就是你跟模型講說

我怎麼殺一個人,然後他就說我不可以教你做這種事情,你只要保留一點點這類的資料,混到你現在要做post training的資料裡面,你就可以保有原來模型safety alignment的能力,結果剛才講的experience replay,其實是一樣的做法,或是有另外一篇論文叫做self-synthesize rehearsal,那這是24年的論文,他做的事情就是,我過去呢,在做這個post training的時候,我們現在都知道,要混一個

過去的資料,他這邊叫做rehearsal的data,把過去的一些資料,混到新的資料裡面一起去做訓練,可以避免避免遺忘的問題,但是有時候我們有可能會拿不到過去的訓練資料,怎麼辦?

你看這都是羊駝了,代表說這是LLaMA系列的work,就比較新的work,我們今天有可能拿不到過去的訓練資料,怎麼辦?

那我們可以讓LLaMA自問自答,產生一些他過去看過的訓練資料。

有辦法讓LLaMA自問自答產生類似他過去看過的訓練資料嗎?

是有辦法的,做這件事情最知名的一篇文章叫做Magpie,Magpie是喜鵲的意思這個方法是這樣子的,怎麼讓LLaMA產生看起來像是他之前訓練過的資料呢?

你就先給LLaMA一個代表user的token,就LLaMA在使用的時候,你會先給他一個代表user的token,然後問他一個問題,然後再給他一個

代表assistant回答的token,然後他在做文字接龍進行回答,那通常user的問題是你自己給定的,但這邊他們只給LLaMA代表user的這個符號,然後讓LLaMA繼續去做接龍,他就會自己產生一個問題出來,就產生一個問題出來,然後接下來你再把user的token,LLaMA自己產生出來的問題,後面再接代表assistant,代表AI的token,LLaMA就會把自己問的問題的答案產生

他就自問自答,自己產生一個問題,自己產生一個答案,接下來你就有了疑似LLaMA-3訓練的時候,用的這個訓練資料,instruction fine tuning的資料,你就把它加到你的原理,你要做post training的資料裡面,就可以避免forgetting的現象發生,所以當時2019的方法,在今天這些新的模型上面,仍然是適用的。

好,那我們剛才是介紹了這個experience replay的方法,那我們也介紹了到了pseudo experience replay的方法也就是說過去的經驗不一定是真實的資料它可能是foundation model 自問自答產生出來的那其實還有很多類似的變形但概念都非常的像比如有一個方法叫做paraphrase的方法

這個paraphrase的方法就是說我們在訓練的時候不要直接拿正確的答案不要拿人寫的答案來訓練模型那要怎麼做呢把用foundation model改寫人寫的答案跟foundation model說把這句話換句話說然後用換句話說的答案來當作正確答案來訓練模型

那這個跟experience replay的概念其實有很多類似的地方因為可以想像說現在的答案是模型自己產生出來的句子它更接近模型之前看過的訓練資料它某種程度上就代表了模型之前看過的訓練資料那這招有沒有用呢剛才我們已經看過這邊paper的上半部

我們剛才在這個課程的開始的時候給大家看了這個表格的上半部這是一個去年年初的文章那下半部就是他們用改寫的方法改寫了這些訓練資料裡面的答案讓這些答案用我們現在的foundation model來改寫他就發現說在所有的狀況下用改寫的答案來訓練模型其實比較好的在這邊的九個狀況下

只有一個狀況用改寫的答案會比較差其他狀況用改寫的答案結果都是比較好的除了改寫答案之外還有另外一個方法叫做self output self output的方法就是那我們乾脆直接讓foundation model來產生答案我們把問題丟到foundation model裡面讓foundation model來產生答案

但是foundation model有可能會答錯那我們要有一個方法那這個方法就要看你要怎麼設計去檢測這個答案是不是對的那如果今天是那種數學的問題你就有正確答案你可以直接對答案看對不對或如果是那個程式的問題你可以直接過compiler 看compiler有沒有error 所以在某些情況下你蠻容易檢查一個答案是不是對的如果他是對的話

如果今天foundation model輸出的答案其實是對的就拿foundation model自己的答案來訓練自己那除非他答錯了他答錯了我們採用人寫的答案來訓練模型但這邊可以有很多變形比如說你可以說也許foundation model的能力不夠強他沒有辦法第一次就答對那我們讓他產生十個不同的答案因為同一個模型

你每次sample答案都不一樣嘛讓他產生十個答案我們就只挑對的那一個來當作正確的答案訓練這個跟paraphrase 還有experience replay 都是非常類似的方法就是我們需要混一些 foundation model 自己產生出來的資料來做訓練這樣可以避免forgetting的狀況那你會發現講到到目前為止啊我們有提到

trans style的post training 有提到SFT style的post training 但我們一直沒有講到 RL based的post training 為什麼還沒有講到 RL based post training呢你仔細想想如果我們用RL的方法來訓練模型是不是其實就跟self output這個方法非常類似呢你想想看RL是怎麼做的

RL並不是直接強制提供答案給模型的 RL是產生一些答案如果這個答案是對的就提高他的機率錯的就降低他的機率這跟self output其實非常的類似因為self output是如果今天foundation model 可以得到正確的答案他就拿來做training 就等於是提高了他出現的機率那唯一不同的只是

有沒有把錯的答案降低機率而已所以RL-based的post training 其實跟self output非常的像所以我認為RL-based的post training可能是一個比較能夠防止

是forgetting的方法,這可能就是為什麼你發現說在訓練語言模型的時候,往往RLBase的方法是放在最後一個階段裡面,或者今天有很多人用RLBase的方法來強化模型reasoning的能力,他們可能都沒有特別討論這個forgetting的問題,有一個可能是RLBase的方法,因為他跟self output非常的像,他其實是一個特別能夠防止forgetting的技術,那是不是真的是這樣,我還要上代更多的研究來回答這個問題。

好,那我們來看一下 self-output的表現怎麼樣這邊有一篇paper叫做 selective self-rehearsal 那其實這個方法就是self-output的方法這個prompt指的就是 foundation model的表現他把foundation model呢測試在四個不同的課本上 NLU,這個是 truthness QA 這個是數學的問題這是HellaSwag,HellaSwag就測試模型的

那個common sense 那SFT呢,代表是一般的fine tuning 做完一般的fine tuning 以後,這邊這個數值代表模型的正確率掉了多少做完一般的fine tuning以後模型在這些任務上正確率都是暴跌但是如果你是做SSR,就是我們剛才講的 self output的方法用模型自己的話如果他今天可以正確回答這個問題的話

就用他自己的答案來訓練模型你會發現說可以讓這個forgetting的狀況變得非常的輕微如果這邊生成答案的模型不是我們要訓練的這個 Foundation Model 其實也有幫助這邊這個Foundation Model 換成其他的Model 其實也有用為什麼你可能會想要把這個Foundation Model 換成其他的Large Language Model呢

因為有可能你本身的 Foundation Model實在太弱了他根本沒有辦法回答任何問題如果他根本沒有辦法回答任何問題的話那你拿這個Foundation Model 來生答案你可能一直都生不出正確的答案來就很難使用Self Output這個方法所以有時候你可能會想說那如果我這邊不是用人類生的答案但是是用另外一個比較強的 language model生的答案有沒有幫助呢

有一篇paper叫做 I learn better if you speak my language 你從他的標題就可以知道他想要做什麼他就比較三個case 一個是我們訓練的時候用人準備的正確答案另外一個是用GPT-4的答案另外是用Claude的答案他訓練的對象有兩個比較弱的模型

一個是Mistral,一個是LLaMA,那他們設三個case,一個是教他數學,這個也是教他數學,這個是教他在ECQA這個corpus上面訓練模型,然後接下來測試的時候是把模型測在GSM8K,math那個algebra,還有ECQA這三個corpus上面,那紅色代表performance特別差的,performance特別差的就標紅色,那你會發現紅色呢,通常是出現在使用人類的,

人類資料作為正確答案的時候,你發現用人類資料來教模型,反而模型會學得比較差,它比較容易遺忘它本來就有的技能,還不如讓其他的語言模型來教你現在的模型,那可能是不同的語言模型,他們雖然不是同個模型,但他們講話就是比較像,所以用語言模型的答案來教語言模型,反而可以學得更好,那這篇文章還有發現說,呃,如果你有很強的語言模型,還是有一些

一些狀況下,模型會有非常大的forgetting的狀況發生,比如說他們這邊是把模型測試在,就如果你拿GPT-4的答案來訓練模型測試在human eval寫程式的任務上,他們發現模型的表現很差,可是你現在自己的模型又太差了,怎麼不足以得到正確的答案,怎麼辦呢?

所以他們這邊就用了一個minimum change的方法,minimum change的方法是說,先拿自己的模型產生答案,按自己的模型答案,

可能會錯很多,接下來你再拿GPT-4修改跟GPT-4說,這邊有一個可能有錯的答案,你只把錯的地方改掉,但是內容要越像越好,所以如果用GPT-4來修改你自己模型現在foundation model的輸出的話,可以得到比原來用GPT-4當作答案還要更好的結果。

這邊再多舉一個例子,我們剛才有講過說呢,如果你直接教模型聽語音,那很容易傷到原來的。

原來文字模型的能力,那同樣的這種self output的概念,也可以用在教模型語音上面,怎麼做呢?我們現在要訓練一個模型,它可以輸入語音,給一個文字的指令,得出正確的輸出,那我們現在在訓練模型的時候,要盡量用模型自己的話來當作答案,要盡量教,我們在教模型的時候,要盡量用模型自己的話來當作答案,那我們這邊

怎麼樣得到模型針對這個問題自己的輸出呢因為原來的文字模型它是完全聽不懂語音的但你有可能你的聲音訊號是有一些標註的那你就想辦法把這段聲音訊號儘量用文字描述出來就把這段聲音訊號裡面各種語音的特徵用文字來告訴文字模型

你告訴他說這段話長度多少告訴他講語者的性別告訴他這句話的情緒這句話的口音把這些資訊都丟給一個文字模型接下來你給文字模型一個指令比如說what can you hear 然後模型就會好像這些文字模型雖然實際上不能聽語音但你給了他一段文字來代表語音他能讀這段文字他就會好像他聽到一句話一樣

產生一個輸出接下來你在訓練自己的語音版模型的時候就把文字模型的輸出當作目標一樣問語音模型what can you hear 要求他輸出的答案跟文字模型越接近越好那用這樣子的方法你就可以有效避免模型遺忘他原來作為文字模型的時候就有的能力那現在很多語音模型其實都採用

類似的方法來訓練那這邊列舉了幾個比較知名的例子比如說BOSP 我們實驗室跟NVIDIA合作做的 Desktop2還有DVA等等這些模型都使用這樣的方法那我這邊呢想特別分享一下我們實驗室盧克涵同學跟NVIDIA的研究者人員做的的方法跟成果這個模型在訓練的時候

實際上我們只給了他一個instruction 我們只教他怎麼回答 what can you hear 我們只教他這個instruction 我們沒有教他更多東西了但是憑藉著文字模型本來就有的generalization的能力我們發現就算只在教他語音任務的時候教他what can you hear 在測試的時候

你居然可以問他任何問題你問他任何問題他居然都是能夠回答的所以就算設施的時候這些text instruction 是他訓練的時候根本沒有看過的他居然是有辦法回答的好那為了要驗證說這個模型是真的能夠回答各式各樣問題的我們把它evaluate在一個叫做Dynamic-SUPERB的benchmark

那這個Dynamic-SUPERB呢也是我們實驗室做的是我們實驗室的黃建佑同學跟CNU的心機瓦塔納北教授合作的一個work 好那我們這個work做的內容是這個樣子的就在這個benchmark裡面他是為了要全面評估這些語音版語言模型的能力那在這個資料集裡面

每一筆資料都是一句話一個指令跟一個正確答案那指令可能是請告訴我這句話的情緒是什麼那正確答案就是happy 或請告訴我這句話裡面現在有幾個人在講話那答案就是2 或者是給他兩段聲音接在一起問他說前後兩段聲音是不是同一個人講的他就要回答yes或no 那這個Dynamic-SUPERB的第一個版本呢

是發表在去年的iCasper 那裡面總共有55個不同的任務那Dynamic-SUPERB呢其實有一個Phase 2 那Phase 2呢是黃建佑同學跟CMU、CG瓦塔納北教授的團隊還有UT Austin、David Howard教授的團隊所一起打造的一個Benchmark 那我們有180個任務我們把任務呢

建立了一個樹狀的結構就是這麼複雜除了有語音相關的任務以外也有音樂跟聲音相關的任務那語音相關的任務裡面有子類別子類別下面有子子類別子子類別下面有子子子子子類別子子子類別下面有子子子子子子類別所以是一個非常龐大的Benchmark

從各個不同的角度來Evaluate

一個spoken language model能不能做各式各樣不同的事情,好,那這篇文章呢,其實是發表在今年的ICLR,好,那我們呢,把Data2呢,Evaluate在Dynamic-SUPERB的Phase 1上面,那這邊每一個column就代表說一個語音版的語言模型,在各個不同面向上面的正確率,那這邊每一個column不是一個任務,它是多個任務的平均值,那

是所有任務的總平均那這邊是把desktop跟其他的模型做了一下比較跟當時我們可以找到的表現的比較好的模型做一下比較那你會發現在Dynamic-SUPERB上整體而言 desktop是比其他模型還要更好的而且desktop用的訓練資料其實是遠比其他模型少的

代表說如果你可以好好防止forgetting的現象用比較好的方式來訓練模型你其實可以用少量的資料就訓練出來出一個還不錯的語音版語言模型那像這種self-output的方法現在是一個防止forgetting 非常常見的方法所以如果你今天要自己fine-tune模型我知道常常有同學會選自己fine-tune模型的需求

這是一個你需要考慮的方式那除了這種self-output的方法以外還有其他可能的思路那這篇呢是Appier的研究人員吳兆聰同學的論文那首先呢他們先觀察了self-output的結果跟正確答案之間有什麼樣的差異

那他們發現說這個是一個數學的問題光truth是人寫的答案 self-output是模型自己產生的答案那最後人類跟模型都得到正確答案正確答案是負四分之三但是如果你去計算這裡面每一個token 你用現在的foundation model 這邊foundation model是LLaMA 38B 你用現在的foundation model產生

產生出那個token的機率你會發現說對於光tube而言裡面有比較多token 是對於你的foundation model來說比較難產生出來的那這邊把比較難產生出來的 token 你就算出來機率比較低的token 標上紅色那你會發現說在光tube裡面有比較多的token

是你的foundation model比較難產生出來的而在foundation model自己的output裡面當然這是foundation model自己的output嘛都是foundation model產生出來機率比較高的token 這只是一個例子也實際上做了一些數值上的結果在這個 mppp這是一個程式的資料集跟數學的資料集都比較了正確答案

跟paraphrase 還有self output 這三個方法的這個publicity publicity就是你的foundation model 產生這個句子的機率那這個數值越大代表你的foundation model產生的機率越低那如果你不知道publicity是什麼的話也沒有關係你就記得說呢這個publicity越大就代表說

這個句子越不像是你的模型會產生出來的句子所以這邊非常直覺的如果是人寫的正確答案對模型來說都是非常難產生出來的句子而paraphrase的句子 paraphrase過的因為是模型自己生出來的句子模型當然會覺得

是比較容易生出來的,self output根本就是模型自己生成的,所以這些句子對他來說都是產生出來的機率比較大的句子,但是你又發現說在光圈裡面,其實也只有某一些token,對於語言模型來說,對於foundation model來說,是特別難產生出來的,那我們能不能在訓練的時候,直接就過濾掉那些對於foundation model特別難的token呢,所以這邊實際上的做法是,我們知道說,假設你要教

模型說一句話,比如說大家好,我是人工智慧的時候,你實際上教模型的就是next token prediction,也就是文字接龍,你教他看到代表開始的符號,就要說大,看到大,就要說加,看到大家,就要說好,那你先拿你的foundation model去計算一下在你的訓練資料裡面,每一個token,你的foundation model輸出predict的機率,如果發現有某一些token是你的foundation model特別難生出來的,直接

直接在訓練的時候不考慮那個token 這個token並不是從句子裡面拿掉而是說我們就不去要求模型看到大的時候要產生加假設加是一個特別難產生的token 我們還是會教模型看到大家要產生好或看到begin of sentence要產生大但是你就直接去掉你就直接略過這個問題不教模型看到大產生加

你就把整個corpus裡面一部分的token不給模型訓練那這個方法有沒有用呢這個方法這個方法居然是有用的那這邊是訓練在那個 MATH那個Corpus上面的結果現在模型訓練在MATH 然後一樣是測試在同一個Corpus的Testing Set的話橫軸是被拿掉的Token的數目就我們把Token的難易度做一個排序

先拿掉最難的再拿掉次難的所以可以改變Token被拿掉的比例那你會發現說Token拿掉的比例大概在20%以內的時候居然對於訓練是有幫助的那對於in-domain有幫助對於out of domain也有幫助就訓練的時候沒有看過GSM8K、ARC 還有BIRC的這三個任務

但是你發現說當你拿掉一些token的時候模型在這三個任務上其實是可以表現得更好的因為你在訓練的時候沒有叫模型去學一些他根本學不起來的東西可以避免遺忘的問題所以你拿掉一些在訓練的時候對模型特別難的東西反而模型是可以做得更好的這個是最後一頁投影片在post training的時候

大家要特別注意人工智慧很容易遺忘他過去已經有的技能那今天常常會聽到有人說我拿一個LLaMA-3 我在做post training 把他訓練在特定的任務上面我在特定任務上面可以假打GPT-4o 那這件事當然是有可能的你針對特定任務訓練

你要打爆那些通財模型其實並不是一件太難的事但是往往往我看到這種結果我會擔心的地方就是那你到底損失了多少其他本來模型就有的能力呢你的模型會不會變成只會這個任務其他任務通通都不會比如說你要教一個模型一個特別的程式語言你逼他學very log

沒那麼會寫very log 你當然可以在very log的任務上打爆他但會不會模型之後他連正常的話人類的話都說不好要連寫註解都沒有辦法

或者是根本看不懂人類要求他怎麼寫very log的內容的指令呢,這是有可能的,所以大家今天在自己做post training的時候,你要注意除了看你的他目標任務有沒有做好以外,你其實應該要去檢查一下你的模型在原來他能夠做的任務上面,到底還有沒有保有原來的能力,那我們今天知道一個非常有效的可以防止可以防止forgetting的方法,就是如果我們今天的訓練資料,

是用人工智慧自己的話來說,也就是他自己產生出來的,往往對於post training是非常有效的,那這是一個很有效的方法給要做post training的同學參考。

Loading...

Loading video analysis...