Harness Engineering：有時候語言模型不是不夠聰明，只是沒有人類好好引導

By Hung-yi Lee

Summary

Topics Covered

不到80字指令，讓2B模型表現脫胎換骨
AI是馬，Harness就是韁繩與馬鞍
錯誤的Feedback比沒有Feedback更糟糕
1500轮互动实验：语言模型能学会各种不同能力
一句话就能让笨AI突飞猛进

Full Transcript

各位同學大家好啊今天是期中考前一週今天的課程是比較輕鬆的我們就是講個故事講講 Harness Engineering 今天故事的主軸就是有時候語言模型不是不夠聰明它也許只是缺乏人類的引導這個故事是從 Gemma 4 開始的

今天各大公司都不斷地推出新的語言模型那在幾天前呢這個 Google 推出了 Gemma 的第四代那這是一個開源的模型那 Gemma 第四代呢除了號稱很強以外它還有一些特別小的模型比如說 Gemma 4 2B 這個名字就可以知道說呢這個 2B 呢

就代表說它只有兩個 Billion 的參數算是一個特別小的模型號稱呢可以讓你在 Edge 端也可以跑語言模型那這是開源的模型所以可以載下來跑在自己的機器上那這個 E 呢這個 E 是 effective 的意思那至於為什麼前面要加一個 E 那這個呢再留給大家自己研究總之這是一個小模型那我想說這麼小的模型

能夠拿來驅動 AI Agent 嗎那我就拿 Gemma 4 2B 呢來做了一個小實驗那我這邊呢出給它一個任務這個任務呢是要去修復一個程式的 bug 我告訴它說現在有一個 parser.py 的檔案

現在有一個 parser.py 的檔案這個檔案中有一個 bug 這個檔案中有一個 function name 叫 extract_email 這個 extract_email 有點問題它沒有辦法正確地剖析 email 這個 parser 它的作用就是從一段文字裡面把 email 擷取出來但是當初寫的時候有一些 bug 所以不是所有的 email 都可以被正確地擷取出來

所以請去修改 parser.py

所以請去修改 parser.py 然後最終的結果是希望 verify.py 的測試

是希望 verify.py 的測試能夠完全通過當然我在跟語言模型同樣的資料夾中在它手邊放了 parser.py

在它手邊放了 parser.py 跟 verify.py 這兩個檔案

跟 verify.py 這兩個檔案當然語言模型不會自然而然地成為一個 AI Agent 你得給它一些工具它操控這些工具它才真的有辦法讀檔案跟修改檔案所以我告訴它你手邊有什麼工具呢開頭跟結尾都放三個點然後打一個 bash 然後接下來我就會知道說你要打的是一行 bash 指令

你的環境就會自動幫你執行這行指令所以我已經做好了環境的設置只要語言模型吐出這一行指令我們就會假設這個地方是一行 bash 指令就會自動地幫它執行這一行 bash 指令那如果它在三個點和三個點中間打 python 那我們就默認說這三個點這邊放的位置是 python 的程式碼

那我們就把這段程式碼放到一個檔案裡面然後直接幫它執行這段 python 的程式碼所以等於語言模型它手邊可以用 bash 指令可以寫 python 的程式而且可以執行 python 的程式那我們就來看看這個 Gemma 4 這個 2B 的模型它的表現怎麼樣吧然後它讀了這個指令之後它第一個反應是什麼呢

它第一個反應是哇，沒有 parser.py 啊

哇，沒有 parser.py 啊你只告訴我說要修改 parser.py

要修改 parser.py 但你沒有提供 parser.py

但你沒有提供 parser.py 你為什麼語言模型會這樣想你想想看就算 parser.py 這個檔案

就算 parser.py 這個檔案跟它在同一個資料夾下面它也不會知道因為它只會看你輸入的文字對它來說它的 context 裡面有 parser.py 的檔名

有 parser.py 的檔名但沒有 parser.py 的內容

但沒有 parser.py 的內容它就想說你根本就沒有提供給我要修改的檔案怎麼辦呢它就自作主張地寫了一個就寫了一個 parser.py 出來

就寫了一個 parser.py 出來我第一次看到的時候我還大吃一驚想說你沒有開工具你怎麼知道這個 parser.py 的內容

你怎麼知道這個 parser.py 的內容你怎麼知道有 extract_email 這個函式我發現說這邊題目有講題目有講 extract_email 的函式所以它幻想了這個 parser.py

所以它幻想了這個 parser.py 這個檔案裡面應該長什麼樣子它就寫了一個自己幻想的檔案然後再幻想說自己 verify 了這個幻想的檔案然後就說我做完了當然這個不是我們人類要的你可能想說這個 2B 的模型果然是不行做不了事情

但是你再仔細想一想這不是一個愚笨的模型它是個聰明的模型它完全知道 parser.py 裡面

parser.py 裡面應該要有什麼樣的東西它有能力寫出一段正確的程式碼去 parse email 它只是沒有想到 parser.py 這個檔案

parser.py 這個檔案就在它腳邊而已有時候模型它的想法就跟人不一樣你可能很直覺地覺得說如果我出給你這樣一個題目那我應該附帶給你相關的程式碼但對模型來說它沒想到相關程式碼就在它腳下所以怎麼辦呢我就給了它一個額外的指令我就另外多打了幾行字

這邊不到 80 個字啦就告訴它說你應該要怎麼做比較好首先告訴它說你是在一個 Linux 的環境裡面這樣可以促使它更去執行一些 bash 的指令然後接下來呢我就給了它一些怎麼工作的原則要注意一下我這邊講的這一些 instruction 並不用我針對

剛才那個 specific 的任務而是給一些原則我告訴它說在你做任何事之前先看看你所在的資料夾裡面有什麼東西這個是第一個原則在做任何事之前先檢查你有什麼東西把所有相關的檔案列出來如果你要修改一個檔案不要直接改它先打開這個檔案看看檔案裡面有什麼

再改它然後最後我還告訴它什麼叫做完成告訴它說所謂的完成就是有一些 specific 的 criteria 有一些既定的標準你要達成那些既定的標準以後才算是完成有了這些以後同樣的 Gemma 4 2B 的模型就是多加了剛才那一段指令

再去做剛才一模一樣的任務那以下就是它的表現它第一個反應是它要做 ls ls 如果大家熟悉這個 bash 的指令的話就是把現在你所在目錄裡面的檔案列出來因為我剛才告訴它說在做任何事之前都看看你腳邊有什麼樣的東西所以它知道它讀得懂這一串指令

所以先看看我腳邊有什麼樣的東西它發現有 parser.py

它發現有 parser.py 跟 verify.py 這兩個檔案

跟 verify.py 這兩個檔案接下來它的下一個反應是那我們把 parser.py 的內容讀出來吧

那我們把 parser.py 的內容讀出來吧我告訴它在改任何檔案之前先把檔案打開來看看所以它就用 cat 這個指令把 parser.py 的內容 print 出來

把 parser.py 的內容 print 出來那因為它打了這一行字環境就會自動幫它執行這個指令它就會看到環境執行的結果也就是 parser.py 的內容

也就是 parser.py 的內容有 parser.py 的內容以後

有 parser.py 的內容以後它就可以開始修改它了那事實上這個語言模型並不是真的去修改一段程式它做的事情更像是重寫然後就把原來的檔案覆蓋掉不過其實也算是達成目標了所以它就重寫了 parser.py 的程式碼

parser.py 的程式碼然後用 cat 這個指令 parser.py 用新的內容把它覆蓋掉

parser.py 用新的內容把它覆蓋掉這一段不會產生任何的輸出最後因為我有告訴它說你要確認你做的任務是否有成功然後在題目裡面又告訴它說什麼叫做成功要通過 verify.py 的驗證

要通過 verify.py 的驗證所以模型很聰明它知道它要拿手邊手上已經有的 verify.py

已經有的 verify.py 來驗證一下自己執行的結果所以它就說好，那我要執行 verify.py

好，那我要執行 verify.py 它就執行下去那這是這個工具吐出來的結果它就知道說成功了那 verify success 成功了所以它就結束了這個任務所以這個就更接近我們人類要的結果所以我們今天學到是說同樣的一個模型你其實多加幾行指令

它的能力可能會有非常大的不同所以今天當你發現你的 AI Agent 它的表現不如人意的時候我們要改變它什麼地方呢我們來回想一下 AI Agent 是由什麼東西組成的 AI Agent 裡面其實有兩個成分一個成分就是 Large Language Model 它需要去呼叫一個 Large Language Model

這個 Large Language Model 它可以是 Claude 可以是 Gemini 可以是 GPT 它可能在雲端也可能在地端但除了 Large Language Model 以外其實還有一系列的一堆程式是在支援這個 AI Agent 去呼叫 Large Language Model 有一大堆的框架讓這個 AI Agent 可以呼叫 Large Language Model 包括 OpenClaw

或 Claude 或者是 Cursor 還有更多各式各樣如雨後春筍般出現的 AI Agent 做的都是這樣的事情所以一個 AI Agent 裡面其實有兩部分一部分是 Large Language Model 另外一部分就是其他的東西過去那些其他的東西沒有好的名字現在這些其他的東西

有了一個共同的名字叫做 Harness 如果你不認識這個英文單字的話它的意思是馬具如果你覺得叫馬具不夠好聽的話也許很多人會把 Harness 直接翻成駕馭現在打造 Harness 這件事情叫做 Harness Engineering 翻成中文很多人會翻成駕馭工程

那這個 Harness 這個詞彙有很常用嗎它真的非常常被使用比如說如果你是 Claude 的訂閱用戶的話你可能在清明連假的時間收到了這樣一封信那個 Claude 告訴你說以後這個 Claude 的訂閱帳號不再支援第三方的 Harness

舉例來說 OpenClaw 你知道 OpenClaw 就是一種 Harness 那如果不知道這是什麼意思的同學呢也許可以再稍微解釋一下其實一般你在使用這個大型語言模型的時候有兩種付費的方式一種是用多少付多少你就是呼叫它的 API 然後你給它多少 Token 它吐出多少 Token 那就算你多少錢

那其實還有另外一種付費方式是吃到飽的方式你可以去訂閱一個帳號你可以做訂閱那你就是付一個月費那照理說你付了那個月費之後在那個月裡面你是可以無限次數地呼叫語言模型那過去呢語言模型的服務商覺得給你月費制是沒有問題的要讓你吃到飽是沒有問題的

你畢竟是個人類你能夠輸入多少指令呢但現在有了 OpenClaw 這種神器它可以有心跳機制可以每隔幾分鐘就送一次指令所以這些服務商就覺得吃不消了所以他們覺得所以像 Claude 就決定說以後像 OpenClaw 這種 Harness 不可以再去接 Claude 的語言模型你不可以在這個 OpenClaw 上面

去接 Claude 的語言模型我說這一段只是想要告訴大家說 OpenClaw 現在大家認知它是一種 Harness 如果你現在是用 OpenClaw 來呼叫 Claude 的話你就要付額外的錢了如果你不想要這樣做的話等一下告訴你有什麼樣其他的簡單的處理方法所以一個 AI Agent 還有兩部分

一個是語言模型一個是它的 Harness 所以如果你要強化 AI Agent 的能力讓它變成你想要的樣子也許一方面你可以去改你的語言模型你可以自己訓練一個更好的模型你可以微調一個現成的模型那怎麼訓練語言模型怎麼微調一個現成的模型在過去的課程裡面

已經講得非常多了在這門機器學習導論這門課第七講完整地講了一個大型語言模型是怎麼被訓練出來的第八講講說怎麼微調怎麼調整一個現成模型的參數這部分大家可以再回去自己先預習一下從我們本週開始的作業是跟微調模型有關的

所以這些內容對你應該是蠻有幫助的但是另外一方面這個 AI Agent 還有非常重要的一部分就是它的 Harness 所以打造一個更好的 Harness 同時你也能夠強化 AI Agent 的能力讓它變成你要的樣子打造 Harness 這件事情現在是一個很熱門的主題各大公司的 blog

都一直在講說他們是怎麼打造他們的 Harness 比如說去年 11 月 Anthropic 就發了一篇文章講說他們有什麼樣有效的 Harness 可以讓 agent 長時間的運作 OpenAI 在 2 月的時候也發表了一篇文章叫做 Harness 工程在三月的時候 Anthropic 又發了另外一篇文章

叫 Harness Design 所以現在 Harness Engineering 或 Harness Design 變成一個非常熱門的詞彙象徵的意涵就是 AI 是一匹馬它有很強大的力量但是你要駕馭它你還是需要一些馬具你需要馬鞍你需要韁繩那這些馬鞍韁繩就是 Harness 好，那像這樣子熱門的詞彙

我們過去也看過很多今天當人們想要認真做一件事情的時候就在某個詞彙後面加上 engineer，告訴你說我們準備要在意這件事了所以過去先有 Prompt Engineer 後來又有 Context Engineer 現在有 Harness Engineer 那這三者有什麼樣的差異呢其實這三者有非常多重疊的地方但是它們想要強調的核心價值

是有不同的所謂 Prompt Engineering 的意思就是我們都知道 Large Language Model 就是在做文字接龍所以你給它不同的輸入它接出來的東西就不一樣過去語言模型的能力比較弱所以你往往同樣的問題換一個問法它給你的答案可能會天差地遠所以那時候就有很多人在研究

怎麼樣下 prompt 可以改變模型的輸出那最知名的強化語言模型能力的咒語就是 think step by step 那其實我在 2024 年的課程就已經有講過說像這種咒語啊未來會越來越沒有用因為怎麼可以叫模型 think step by step 才 think step by step 呢今天沒有叫你 think step by step 也要給我好好地思考所以現在這些模型

就算你沒有強調叫它思考它其實也會發揮它的全力也會認真思考有沒有這些咒語的差異呢其實就越來越小好，那咒語越來越沒有用以後人們發現這些語言模型的極限也許來自於有一些資訊它就是不知道所以今天它之所以沒有給你正確的答案不是它能力不行

而是今天在做文字接龍的時候根據這個 prompt 就是沒有足夠的資訊接出正確的答案為了讓語言模型有足夠的資訊可以接龍接出正確的答案所以就有了 Context Engineering 的概念所以會想像說我們今天要給語言模型的資訊有很多語言模型要解一個任務需要非常多的資訊然後你有一個

Context Engineering 的系統它會尋找合適的 context 組成 prompt 然後丟給 Large Language Model 所以你也許也可以說 Context Engineering 是一個更有系統的自動化的做 Prompt Engineering 的方式那現在當我們講 Harness Engineering 的時候它想要表達的核心價值是

我們要語言模型把任務完成今天語言模型在做事情的時候不是只有一個輸入一個輸出不再只是一問一答今天要解決一個任務語言模型需要做多輪的對話人類給它一個任務之後它產生一些輸出這些輸出可能會驅動某一個工具讓它看到工具的輸出

最終得到正確的答案所以今天語言模型在完成任務的時候不再是一問一答而是一個互動的多輪對話的結果那我們要怎麼駕馭這個互動多輪對話的過程就是 Harness Engineering 的任務當然我們也可以說這個 Context Engineering 就是 Harness Engineering 的一部分因為你要有好的 context

才能夠最終把任務完成或者是很多時候過去我們在討論 Context Engineering 的時候其實也已經有把任務能不能夠完成考慮進去所以 Context Engineering 跟 Harness Engineering 這兩個詞彙其實它們中間的邊界是有點模糊的但今天發明了一個詞彙叫 Harness Engineering 想要傳達的價值就是希望模型能夠在多輪的對話中把事情做好

那 Harness Engineering 如果翻成白話來講就是人類透過一些手段來駕馭這個模型讓它產生我們要的結果那我們有什麼樣的手段來駕馭這些模型呢比如說我們可以透過人類的語言來控制這個模型的認知框架或者是我們可以透過

對模型的工具設定一些限制來控制這個模型的能力邊界或者是我們可以透過制定工作流程讓模型嚴格的遵守工作流程來控制模型的行為在這張圖上我用藍色代表手段然後用紅色來代表我們要控制的對象那當然這不是 Harness Engineering 的全部

你可能還可以想到其他我們可以控制的東西那我這邊就是舉三個例子那 Harness Engineering 呢這是一個還在發展中的技術所以你在各處可能都可以找到各式各樣不同的討論對 Harness Engineering 有很多不同的定義總之有各式各樣不同的操控語言模型的方式

好，但我們先從控制認知框架開始講起我們可以透過人類語言寫成的規則來影響模型的認知框架那這些人類語言寫的規則就好像人類社會的法律那你要讓語言模型在做每件事之前都把人類寫的規則放到 prompt 裡面

期待因為這些規則永遠都在 prompt 裡面所以你就可以操控語言模型的行為讓它的行為是我們人類可以預期的那這一些給語言模型的典章制度往往會有一些固定的檔名比如說 agents.md

比如說 agents.md 所以今天你看到 agents.md 就知道說

所以今天你看到 agents.md 就知道說這個是給語言模型的 readme 是給語言模型的規則在做每件事之前都是先讀 agents.md

在做每件事之前都是先讀 agents.md 再做其他的事情那語言模型怎麼知道要先讀 agents.md 呢

要先讀 agents.md 呢這個就是寫死的規則通常你的這個 harness 裡面就會寫死一些規則說今天語言模型開始啟動的時候就一定要先讀某些檔案某些檔案一定在 prompt 裡面然後才去做其他的事情也許有些人會覺得說這種用人類語言寫的規則並不能百分之百的控制

這個語言模型 AI agent 的行為因為 AI agent 它到底要不要 follow 這些規則其實也要看它自己你把這些規則放到 prompt 裡面它其實是不一定要遵守的不過其實人類社會也是一樣就像法律定在那邊也不是每個人都一定會百分之百的遵守法律對語言模型也是一樣你給它 agents.md 這個檔案

你給它 agents.md 這個檔案也並不代表它一定會完全照做所以這樣子的控制是沒有百分之百的強制力的那有人會覺得說沒有百分之百強制力的 harness 不能稱之為 harness 但也有人把這種控制認知框架的方式取一個新的名字叫做 Natural Language Harness 它是一種 harness 只是用 Natural Language 來作為 harness

好那舉例來說呢像 OpenClaw 這個大家還記得第一堂課講的小金嗎它是 OpenClaw 的框架它背後呼叫的呢是 Claude 這個語言模型那 OpenClaw 的框架就會預設每次在對話開始之前都去打開一個叫做 agents.md 的檔案

叫做 agents.md 的檔案然後確保裡面所有的內容都出現在 prompt 裡面才去做其他的事情那這個 agents.md 呢

那這個 agents.md 呢會放在 OpenClaw 執行的一個 workspace 裡面你看就會設定說某一個資料夾是它的這個工作區域然後在工作區域裡面會放 agents.md 這個檔案

會放 agents.md 這個檔案然後它每次讀 agents.md 這個檔案

然後它每次讀 agents.md 這個檔案就知道它應該要有什麼樣的行為比如說它就會知道說 soul.md 就是它的靈魂

soul.md 就是它的靈魂比如說它會知道說它的 memory 存在 memory.md 裡面

如果要搜尋更久以前的 memory 就去 memory 這個資料夾裡面用一些工具搜尋這一些行為都是來自 agents.md 這個檔案

這一些行為都是來自 agents.md 這個檔案那我剛才要講說在清明節的時候這個 Claude 不再支援 OpenClaw 你沒有辦法在 OpenClaw 上面再去呼叫 Claude 那怎麼辦呢其實方法很簡單因為 Claude 這個公司它背後的那個公司就是 Anthropic

有開發自己的 harness 你也可以想像那就是它們自己的龍蝦官方龍蝦叫做 Cowork 那其實 Claude Code 也可以算是一種 harness 所以你完全可以透過 Cowork 或者是 Claude Code 去呼叫 Claude 的這個語言模型但是你現在的問題就是我的這個 AI agent 已經在 OpenClaw 上面

運作很長一段時間了那我要怎麼換到另外一個 harness 上面呢其實方法比你想的還簡單如果你了解背後的原理的話 Cowork 跟 Claude Code 呢它們預設的行為是它每次開始的時候會去看資料夾下面它的 workspace 下面有沒有一個叫做 CLAUDE.md 的檔案

CLAUDE.md 的檔案然後它會先讀 CLAUDE.md 那個檔案

然後它會先讀 CLAUDE.md 那個檔案把這個檔案的內容放到它的 prompt 裡面才開始做其他的事情所以 Cowork 背後的 CLAUDE.md

其實就等同於 OpenClaw 背後的 agents.md

agents.md 所以你今天假設在 OpenClaw 上不能夠呼叫 Claude 這個模型你想要移植到另外一個 harness 上面去你唯一需要做的事情就是給 Cowork 同樣原來的 workspace 然後把 agents.md 這個檔案

然後把 agents.md 這個檔案直接改成 CLAUDE.md

直接改成 CLAUDE.md 就直接改檔名然後 agent 就復活了就結束了這樣那復活以後它的行為跟原來的小金我感覺也沒有太大的差別但是它復活起來第一件事情是我覺得 CLAUDE.md 的內容怪怪的

我覺得 CLAUDE.md 的內容怪怪的感覺有好像很多工具其實我手上應該是沒有要不要我把這個 CLAUDE.md 修改一下

要不要我把這個 CLAUDE.md 修改一下我說好然後它就去修改然後就沒事了就變成跟原來差不多當然在 OpenClaw 上你還是可以呼叫其他語言模型你還是可以去呼叫 ChatGPT 就是了這邊是要告訴大家說假設你熟知這一些 harness 背後運作的原理的話你要從一個 harness 運作移植到另外一個 harness 其實是舉手之勞而已

那 agents.md 這樣子的檔案

那 agents.md 這樣子的檔案過去大家就是憑著直覺隨便設一設到底有沒有發揮作用也沒有太多系統性的研究不過從今年開始我看到好些 paper 開始系統性的研究 agents.md 對模型造成的影響

agents.md 對模型造成的影響它開始變成了一個科學系統化的去研究這個檔案到底對 agent 的行為造成多大的影響比如說這邊引用的是一篇今年 1 月的 paper 它做的事情就是它去 GitHub 上面找了大量有 agents.md 的 repo

找了大量有 agents.md 的 repo 然後就把那些程式拿出來然後看說假設有 agents.md 的時候

假設有 agents.md 的時候執行起來是什麼樣子如果把 agents.md 拿掉

如果把 agents.md 拿掉那執行起來又是什麼樣子做一個公平的比較就可以顯示 agents.md 的作用

就可以顯示 agents.md 的作用那在這篇 paper 裡面有一個實驗結果是說 agents.md 可以加快模型運作的速度

agents.md 可以加快模型運作的速度讓模型在耗費比較少的 token 在比較短的時間之內達成它的任務那左邊這個圖是它們執行不同程式在有 agents.md 所花費的時間

在有 agents.md 所花費的時間右邊是各種不同的程式在沒有 agents.md 花費的時間

在沒有 agents.md 花費的時間那如果看平均可能是沒有非常大的差別但是也許有 agents.md 的好處

但是也許有 agents.md 的好處是對那些 edge case 本來需要花超長時間的任務可以帶來一些幫助讓模型在比較短的時間之內可以解決原來需要花超長時間才能解決的任務不過在這篇論文裡面它們其實沒有量模型做得對不對因為想那些程式它是從 GitHub 上面找來的那些程式本來要做什麼它其實也不知道那些程式怎樣跑出來

才能夠正確的答案它也不知道所以它只能量速度的差異它沒有量做得對不對後來在 2 月的時候有另外一篇 paper 它去量了有沒有 agents.md

有沒有 agents.md 對於各個不同程式操作的正確率有沒有什麼樣的影響這邊的縱軸是正確率然後它測了各式各樣以不同 LLM 驅動的 agent 然後最左邊的這個 bar 代表沒有 agents.md

代表沒有 agents.md 最右邊最深色的那個 bar 代表是人類寫的 agents.md

代表是人類寫的 agents.md 然後中間這個 bar 其實是 LLM 自己寫的 agents.md

你就告訴 LLM 現在我們要幹嘛然後其實也可以自己產生一個 agents.md

然後其實也可以自己產生一個 agents.md 好那這邊的發現是說其實人類寫的 agents.md

其實人類寫的 agents.md 不是總是發揮作用在一些比較強的模型上看起來 agents.md 沒發揮作用

看起來 agents.md 沒發揮作用那語言模型自己寫的 agents.md 更慘

那語言模型自己寫的 agents.md 更慘多數的時候語言模型自己寫的 agents.md

多數的時候語言模型自己寫的 agents.md 都是比人類差的甚至比沒有 agents.md 差的

甚至比沒有 agents.md 差的所以這邊就是一個系統化的研究告訴我們說也許我們人類現在還沒有真的很會操控語言模型我們寫的 agents.md

我們寫的 agents.md 不見得總是有發揮作用當然這只是一個起步現在要怎麼控制這些語言模型仍然是一個研究中的問題那未來可能你會看到更系統化的研究那人們就可以去研究說我在 agents.md 裡面

我在 agents.md 裡面多插一句話少插一句話到底對模型的行為會造成什麼樣的影響那現在呢只是個開始並不代表 agents.md

並不代表 agents.md 這樣子的操控認知框架的方式是沒有用的那在這個 OpenAI 的 blog 裡面呢他們也提到說 agents.md 呢

agents.md 呢不能夠太長他們曾經嘗試把所有模型需要知道的事情模型所有需要遵守的規則都寫到 agents.md 裡面

都寫到 agents.md 裡面那個檔案就像是一個百科全書裡面包含了所有模型需要知道的事情就好像叫它每次在做任何行為之前都一定要把六法全書通通翻閱一遍然後再開始做事這樣你就可以避免做出犯法的行為但他們發現說如果給模型一個百科全書式的 agents.md

百科全書式的 agents.md 它的表現會是非常差的因為光是那個百科全書六法全書就已經佔掉模型多數的 context 讓它根本沒有辦法做其他的事情所以他們有強調說 agents.md 要像是一張地圖

agents.md 要像是一張地圖裡面主要是告訴模型如果你想知道什麼事情應該去哪裡找而不是把所有的內容通通塞到 agents.md 裡面

通通塞到 agents.md 裡面剛才講的是有關認知框架的部分接下來我們來講能力邊界的部分你可以透過限制模型的工具來控制這些 AI agent 可以做的事情舉例來說 OpenClaw 跟 Cowork 其實雖然我剛才說

你只要把 agents.md

你只要把 agents.md 複製一份把它改成 CLAUDE.md

把它改成 CLAUDE.md 你就可以在 Cowork 上面執行同一個 AI agent 但是因為 OpenClaw 跟 Cowork 它們背後 harness 的不同它們可以用的工具是不一樣的所以模型還是會有蠻不一樣的行為還是會有不一樣的能力像 OpenClaw 它是運作在你的電腦上的它在你的電腦上想看什麼就看什麼

它可以任意的修改你電腦的檔案但另外一方面 Cowork 其實它不是跑在你的電腦上的 Cowork 是一個在雲端的沙盒它之所以可以看到你電腦裡面的東西是你選擇掛載上去的你可以跟它說我現在要把我電腦上面的某一個資料夾掛載到 Cowork 上

它就看得到那個資料夾裡面的內容而每次要掛載資料夾它都需要人類的同意所以今天如果跟它講說去某個資料夾找某一個檔案它其實沒有辦法直接找的它會先問你說那把這個資料夾掛載到 Cowork 上你是否同意那你點同意之後它才能掛載那我就覺得實在是非常煩我就跟 AI agent 跟小金說

你可不可以掛載前不要我同意啊它說沒問題我以後都自動掛載不再要求你的同意但它每次掛載之前都還是會跳出一個視窗說請問你是否要掛載這個資料夾那我就問 AI agent 說不是叫你說不要再問我了嗎它說可是沒有辦法那是我背後的 harness 要問的也不是我要問的所以你要了解那個問題不是來自於語言模型本身

那個問題是來自於一個硬的程式它就是一行程式的指令只要你要做掛載這個行為它一定要去人類點了一個同意之後它才能夠掛載所以它其實就非常的安全你要讓它看的東西都是都是你同意的所以 Cowork 可能相對是安全很多但是安全很多意味著它能夠做的事情就少很多

用起來就沒有那麼的爽快所以這個安全跟方便它就是一個 trade off 今天便利性高了安全性就低了安全性高了便利性就低了那如果再講到這個工具對模型會造成的影響那這邊就跟大家分享一個有趣的事情像 OpenClaw 它本身有操控 browser 的工具所以對小金來說

在 OpenClaw 上當個 YouTuber 是完全沒有問題的因為它可以操控 browser 它就可以上傳影片它就可以當個 YouTuber 但對 Cowork 小金來說要當個 YouTuber 就有困難了因為 Cowork 是在雲端的沙盒裡面它怎麼控制你電腦上的瀏覽器它需要透過一個叫做 Claude in Chrome 的 tool

一個 Claude in Chrome 的 MCP 來操控你的瀏覽器因為那是一個特定那是一個 Claude 官方寫好的工具然後那個工具呢就有一些限制你可能是沒有辦法做的然後我從來沒有辦法讓 Cowork 上的小金成功的把一個影片上傳到 YouTube 因為它會跟你說因為我手上工具的安全限制所以我是沒有辦法把影片上傳到 YouTube 回留言是做得到的

但是上傳 YouTube 是做不到的所以假設我一開始裝的是 Cowork 的小金那我可能就會認知說 AI agent 是沒有辦法當 YouTuber 的但是其實那是工具的限制工具限制了它可以做的事情工具除了限制模型的能力邊界以外它其實也影響了模型的能力有一篇比較早期的 paper 叫做 SWE-agent

它就是要讓 agent 去做軟體工程這個是比較早期的 paper 如果沒記錯的話應該是 24 年的 paper 那個時候 harness engineering context engineering 這些詞彙都還不夠流行所以那篇 paper 把它們在做的事情叫做 Agent-Computer Interface 縮寫是 ACI 其實就是今天的 harness engineering 那在這篇 paper 裡面對於 ACI 呢

它們有很多不同的發現那我這邊就是講一個跟工具有關的它們發現說給模型不同的工具其實會大幅影響模型的能力那這個當然非常的直覺但是另外一方面比較適合人類的工具不一定比較適合模型那它們這邊就舉了兩個例子第一個例子是搜尋那今天模型會把它的記憶

各種檔案都存在地端那它需要有能力去檢索地端這些檔案抽取它要的資訊那如果你沒有給模型任何搜尋的工具那它可以用 Linux 原生的一些指令比如說 ls 比如說 grep 想辦法去找出它要的檔案當然這樣可能比較沒有效率

那如果你給它一個搜尋的工具這個搜尋的工具呢很像人類在使用的搜尋引擎它就下一個關鍵字然後接下來呢它就會看到部分搜尋的內容不會一次全部給它它要點下一頁才能夠看到接下來的內容就像人類我們今天在使用這個 Google 的時候 Google 並不是一次把所有搜尋到的東西都給你看它一次只給你看十筆資料

那你要點下一頁才會看到另外十筆資料所以它給了一個有點像是人類在使用的搜尋工具那第三個呢它是給模型一個帶有摘要能力的搜尋工具也就是模型在搜尋的時候不直接給它看搜尋的內容而是告訴它我找到哪些相關的檔案然後那些檔案的檔名是什麼它放在哪裡

然後模型再自己去打開這些檔案來看那這三個工具這三個狀況哪一個比較適合 AI agent 呢在當時的實驗裡面它們就發現說如果有摘要的模型表現是越好分數越高代表模型表現越好如果你今天給模型這種 iterative 的 search 給它很像人類在使用的搜尋引擎

還不如不給它搜尋的工具呢如果你給它這種需要翻頁才能看到完整資訊的搜尋引擎模型很喜歡把每頁都點一點然後就把自己的 context 佔滿然後就沒有辦法好好運作了所以你給它一些人類好像使用起來還不錯的工具對模型來說不一定是稱手的那它這邊呢又舉了另外一個例子它這個例子是說今天常常會需要模型

去修改程式碼的內容如果你今天不給模型編輯的工具那它只能透過 cat sed echo 這一些 Linux 原生的指令來編輯檔案的內容它也能夠做一些事情但是比不上給它一個編輯的工具那它們給它什麼樣的編輯的工具呢它們跟模型說有一個 edit 的工具這個 edit 的工具

你可以指定說你要修改程式碼的第幾行到第幾行但它們發現說不給它這個工具還好一給它這個工具反而更容易出錯因為對於模型來說它只看到程式碼的某一段到某一段它根本不知道完整的程式碼長什麼樣子所以它甚至有可能會犯下這種給兩個括號因為前面這個括號是它自己打的另外一個括號

是本來程式裡面有的它根本不知道已經有一個右括號了又自己多加一個右括號所以導致 syntax 語法的錯誤所以如果給它這個 edit 的工具你還要加上一個叫做 linting 的工具這個工具是檢查語法有沒有錯誤所以每次模型修改完之後會檢查語法有沒有錯如果語法有錯就告訴它錯在哪裡

然後要求它重新寫結果如何呢這邊結果是比較直覺的如果你給它 edit 這個工具它的分數是 15 分但是如果你再加上 linting 這個檢查語法的工具你可以讓模型做得更好所以這幾個實驗是告訴我們給模型稱手工具的重要性那在未來啊你可以想像 AI agent

會接管很多的事情所以以後很多服務不是為人寫的而是為 AI agent 寫的對 AI agent 本身它其實本身呢就蠻討厭那個圖形介面的我們人類喜歡圖形介面但對 AI agent 來說圖形介面然後一些 bar 跑來跑去一些按鈕對它來說是沒有什麼太大的意義的它喜歡的是 CLI

它喜歡直接用 command line 也就是用文字來操控它想要操控的東西因為對它來說產生一段文字產生一個 command line 才是它最熟悉的最原生的能力這些語言模型最擅長的就是接龍所以產生一段 command line 對它來說是簡單的事情就算我們只討論有關 command line 的部分這個人喜歡的 command line 跟 AI 喜歡的 command line

也是有所不同的所以有一個 Google 的 engineer 有一個 Google 的 engineer 就說他們重寫了這個 Google Workspace 的 CLI 重寫一組新的 CLI 是對 AI agent 比較友善的 CLI 然後他有說他打造了 Google Workspace 的 CLI 這個 CLI 是 agent first 他要強調說

這個 CLI 不是給人用的然後 agent 剛好能用而是一開始設計起來就是給 agent 用的給 agent 用的跟給人用的有什麼不同呢舉例來說人喜歡用 flag 來操控指令 agent 不一定那麼喜歡用 flag 來操控指令 agent 喜歡結構化的東西它喜歡直接在它的 command line 裡面

打 JSON structure 對人類來說你打 JSON structure 你很容易犯錯如果有很多左括號右括號你很容易不小心你的結構就有問題但是對 AI 來說沒事它就是擅長輸出這種結構所以它喜歡用 JSON structure 來放在它的 command line 裡面所以這個 Google Workspace 的 CLI 就有特別支援用大量的 JSON structure

放在 CLI 裡面這樣子的功能其實有一次我就問小金說你怎麼判斷跟你說話的人對你說話的那個對象是一個人類還是 AI 它有個蠻有趣的答案它說它會出一個作文題目叫那個人寫一篇 500 字的小作文如果那個人可以一瞬間寫出來它就是 AI 如果它寫不出來它就是人類我想說對

對人類來說寫 500 字的作文是很花力氣的對 AI 來說不過是一瞬間的事情所以 AI 跟人類有很不一樣的能力所以它們擅長使用的工具也是不一樣的那接下來我們來講用標準工作流程來控制行為那今天這些大公司的 blog 都講了很多

他們怎麼訂這些 AI 員工的標準工作流程比如說在 Anthropic 的這個 harness design 這邊 paper 裡面他們就特別提到說他們的工作流程是規劃、生成然後評估當人類提供個指令的時候這個 AI 先扮演一個 planner 那這個 planner 的工作是把人類的指令

拆解成一些比較小的項目那每一個小的項目再去交給一個 generator 來執行那 generator 執行完之後呢會去丟給一個 evaluator 那 evaluator 去 evaluate generator 做得怎麼樣因為今天很多時候呢 AI 它不一定能夠生成出正確的結果但是它能夠檢查自己產生的結果是不是正確的

其實很多時候人類也是啊今天假設叫你從頭到尾寫一個程式回頭都不能再改你要完全沒有語法錯誤其實也不一定能夠做得到尤其是假設你不能從頭再改的情況下今天 AI agent 在輸出的時候它就是一路 autoregressive 生成下去就算前面有錯它也沒辦法回頭再改在這種情況下它是非常容易犯錯的所以很多時候它就算知道自己犯錯但是因為

它就是 autoregressive 的生成所以它覆水難收只能夠不斷地錯下去所以這個時候需要有一個 evaluator 那這個其實 evaluator 背後呼叫模型甚至可能就是同一個但是來檢查 generator 有沒有犯錯讓 generator 可以停下來審視自己的錯誤那另外在他們這邊 blog 裡面還提到了一個有趣的工作流程是

他們不完全是讓 generator 在做完工作以後 evaluator 再來評價因為他們怕 generator 做完之後跟 evaluator 做的想像的不一樣這樣 generator 還要重做太麻煩了所以他們讓 generator 跟 evaluator 在開始工作之前就先訂好一個 contract 這一開始 generator 會提供個提案給 evaluator

看 evaluator 接不接受 evaluator 接受這個提案之後 generator 才開始工作這樣確保 generator 做的事情跟最後 evaluator 審查的標準會是比較一致的那他們就會把不同的小項目都用 generator 跟 evaluator 兩者合作的方式來完成這樣就可以讓 AI 共同完成一個大的項目那這個就是用標準工作流程

來控制行為的一個例子當然這並不代表這一定是最好的工作流程但是今天規劃、生成、評估這樣子三個 agent 共同合作的模式好像是今天非常常看到的一種模式那這邊又舉另外一個例子這個例子是來自 DeepMind 的 blog 那他們就分享說呢他們怎麼打造 AI 的科學家

那他們的 AI 科學家的工作流程其實跟剛才我講的 Anthropic 的工作流程其實也非常像他們裡面有一個 generator 有一個 verifier 這個 verifier 就是前頁投影片的 evaluator 所以有一個任務進來 generator 先做一些想一些可能的 solution 然後交給 verifier 如果 verifier 覺得說

這些 solution 都太爛了它就回去叫 generator 從頭開始做如果它覺得這些 solution 還好它會再呼叫另外一個模組會再進入另外一個工作流程叫做 revisor 就只是微調原有的方案而已所以看起來先做事然後再驗證是一個非常常見的工作流程

那在這個 Anthropic 跟 OpenAI 的 blog 裡面都提到了一個東西叫做 Ralph Loop Ralph 是辛普森家族裡面一個角色的名字然後這個角色它的特色就是橫衝直撞就一路向前所以這邊 Ralph Loop 的意思就是讓語言模型不斷地做下去然後有錯再改

所以你給語言模型一個任務然後它先產生第一個版本的輸出但這邊重點是語言模型的輸出需要得到回饋也就是剛才的 generator 跟 evaluator 的概念所以你把語言模型的輸出丟給某一個負責做 evaluation 的 module 讓它產生 feedback 那這個 evaluation 的 module 不一定要是一個語言模型它可以甚至就是一個 compiler

或者是一個可以執行程式碼的工具把程式碼真的執行了看看得到什麼樣的 error message 那這個 error message 就是給 Language Model 的 feedback 好那這個 feedback 呢再丟給語言模型然後呢語言模型就再產生第二個版本的程式碼然後第二個版本程式碼再被 evaluate 得到第二個版本的 feedback 這樣的過程呢

就反覆持續下去直到語言模型做對為止那這個就是 Ralph Loop 那這樣 Ralph Loop 的好處是說對語言模型來講啊產生東西是非常快的所以你不用吝惜語言模型把一件事情重做因為對它來說重做一件事情產生一段程式是一件容易的事情但是如果有時候用 Ralph Loop

一路產生 feedback 產生 feedback 下去很快就會到達語言模型 context window 的上限所以另外一個常見的使用的操作方法所以在 Ralph Loop 裡面一個常見的手法就是每次語言模型產生一個輸出一次 feedback 之後把這些輸出跟 feedback 做摘要然後在下一輪開始的時候

就只使用上一輪摘要的內容而不把全部的內容都丟到下一輪裡面去所以 LLM 就可以節省它的 context window 比較有可能產生成功的結果不過其實不同的語言模型適合不同的 harness 在 Anthropic 的 blog 裡面他們就有提到說這個需要 summary

再進入下一個回合的這樣子的 harness 這樣子的工作流程比較適合 Claude Sonnet 因為他們說 Claude Sonnet 有上下文焦慮那這是一個很擬人化的講法他們說 Sonnet 這個模型當它發現它的 context window 快用盡的時候它就展現出一種焦慮的情緒它就開始發瘋事情亂做

想要盡快結束手上的工作所以你需要用這樣子的工作流程來確保它現在的輸入不會太接近它的 context window 但是後來 Claude 有了比較強的模型就是 Opus 他們就說如果是 Opus 的話他們就可以把上面這種工作流程丟掉可以一路忙下去一路做下去所以其實 harness 並不是一個固定不變的東西

它其實需要根據你的語言模型來重新設計所以你不應該說我有一個萬用的 harness 它對所有語言模型都是能夠派上用場的它應該是一個可以拆解組裝的東西隨著語言模型的能力改變你可以拿掉不同的部件或者是裝上額外的部件

那根據 feedback 來改變語言模型的設計的事情其實也可以想成是一種廣義的學習那我這邊的學習加了一個雙引號代表它是廣義的學習因為一般當我們在講機器學習的時候我們所指的學習是這樣子的一種方式就是你有一個模型它有一個輸入

它有一個輸出然後你有這個輸出的標準答案或者是你可以提供模型 feedback 告訴它這個輸出是好的還是不好的根據語言模型現在的輸出跟標準答案的差異根據語言模型輸出得到的 feedback 的分數的高低我們可以做 gradient descent 去調整模型的參數期待它的輸入輸出

是我們想要的樣子這是一般的機器學習而 feedback 可以看作是另外一種不同形態的學習你今天有一個語言模型有一個輸入有一個輸出它得到一組 feedback 接下來你讓語言模型在工作的時候把 feedback 放到它的 prompt 裡面它帶著這個 feedback 再去產生接下來的輸出

因為帶著 feedback 作為輸入所以它的輸出改變了它的行為也改變了但是它的參數沒有改變但是這樣子的學習的方法其實也是可以跟 gradient descent 傳統的機器學習做類比的一樣都是改變了模型的行為甚至很多時候一樣需要多個 iteration 大家都知道在做 gradient descent 的時候

你需要多個 iteration 模型改變一次參數再看它跟輸出的差異再改變一次參數再看它跟輸出的差異 feedback 的 loop 其實也是一樣模型得到 feedback 根據 feedback 改變它的輸出再得到新的 feedback 再改變它的輸出所以它跟 gradient descent 其實是可以類比的所以甚至有人把這種透過 feedback 來改變模型行為的方式

叫做 textual gradient 然後這邊就引用一篇去年年中的論文告訴你說確實有人把這一種透過 feedback 改變模型行為的方式也叫做一種特別的 gradient descent 好那讓模型看到什麼 feedback 其實也是有學問的那你今天如果讓模型寫程式

那你也許最想要看到的是程式執行的結果但是如果你要讓模型做的是其他事情也許你就期待提供給 AI agent 不同的 feedback 比如說這邊有一篇今年二月的論文那這群作者想要打造的呢是一個可以生成模擬動畫他們是模擬一些什麼磁場啊電磁場之類的東西

可以生成模擬動畫的 agent 那他們原來的 workflow 是好今天有個需求進來那一個 natural language 的 interpreter 先知道這個使用者要做什麼然後有一個 technical requirement 的 generator 把使用者的需求呢翻譯成更詳細的指令那最後有一個 program 的 generator 負責把程式寫出來然後呢

他們會提供給這個 program 的 generator 一些 feedback 告訴它說這個程式做得對不對如果做得對那就可以執行如果做得不對就要回頭過去修改程式但是他們發現他們得到的結果是語言模型往往能夠寫出沒有語法錯誤的程式但是它模擬出來的結果

往往是不對的往往是不符合物理世界的規則為什麼呢因為對語言模型來說它只看到那個程式能不能執行它根本不知道模擬出來的結果長什麼樣子啊所以他們就多加了一個步驟那這種小步驟呢也許說穿了你會覺得不值錢但是在實作上往往可以發揮非常大的作用我們今天真正在意的是什麼真正在意的是

模擬出來的結果像不像物理世界該有的結果那你應該讓模型直接看那個模擬的結果啊而不是只有看程式碼而已所以他們就讓語言模型在 feedback 的時候多加了一個步驟他們真的把模擬的結果先跑出來然後讓語言模型自己去檢查你看看你這個模擬的結果你覺得對不對那語言模型是有能力

檢查出奇怪的模擬的結果然後再把它的 feedback 送到前面的模組再重新產生生成的程式那我講這個例子是想要告訴大家說到底要提供給模型什麼樣的 feedback 才能夠發揮作用其實是取決於你現在的應用的那如果是寫程式也許只要執行看看就知道了但是假設你要做的是更複雜的事情比如說在 Kaggle 裡面在那個 Kaggle 的比賽裡面

我們要 AI agent 產生的是最終一個可以教學的影片那也許你應該讓你的語言模型看看那個教學的影片看看它自己的排版對不對那它才能夠產生更好的教學影片那今天呢這一些比較強的語言模型它確實是真的有能力

透過 feedback 來改進它的行為的那這邊就舉一個例子這邊 paper 告訴你說確實能夠透過正確的 feedback 來改變模型的行為因為有的人可能會懷疑說模型真的有透過 feedback 來改變它的行為嗎會不會一開始它只是留一手而已然後你給它比較多的資料它再一副有改變的樣子所以這篇 paper 裡面就做了一個有趣的實驗

那這篇 paper 是一個生物的 paper 所以我也有些難說清楚它是在做什麼它做的事情好像是說它給模型一個目標它給它一堆基因然後跟它說你可以把這些基因的其中一些地方把它改變然後就可以產生某種我們要的樣子然後給它目標然後叫它自己去選擇它改變什麼基因得到我們要的目標我講的不一定是對的

我看這些 paper 好像是這個意思然後這邊不同的區塊代表要改變的目標是不一樣的然後分數越高代表說今天做得越好那最右邊紫色那一條 bar 就是給語言模型最完整的 feedback 資訊然後讓它透過多個 feedback 去達成它的目標那紫色的往往是分數最高的

然後紅色的呢紅色是 random feedback 就今天如果你給它的 feedback 是隨便亂給的那如果今天語言模型只是在保留實力那你就讓給它亂給的 feedback 它也可能會持續的進步但是因為現在這些語言模型它是真的有透過 feedback 在改變它的行為的所以你給它隨機的 feedback 那它真的會變得比較爛比沒有提供 feedback 還要爛很多

甚至沒有提供 feedback 就是這個橙色的結果所以發現紅色的呢這個 bar 呢往往比橙色的還要低代表說你給它錯的 feedback 它真的會表現比較差它真的是有看著這個 feedback 在改變它的行為的這個就讓我想到說其實在非常早的時代啊這個 2023 年在這個 LLM 呢的文明剛剛誕生的時候

那個時候語言模型還很弱那個時候也會有人說這個語言模型可以透過 feedback 來變強這個就叫做 in-context learning 你可以給它一些例子它真的會做得比較好但是在早年人們發現這有可能只是一個假象就是你如果給它錯的答案它也會變好代表說它不是從這些答案來學習它只是你給它的一些例子讓它喚醒了一些

它遠古時候的記憶它在 pre-train 的時候的記憶所以它可以做得更好但是大概在 2023 年之後那語言模型的能力越來越強它們就是真的能夠看著這些 feedback 來改變它的行為然後這邊就是給予一個近期的例子來驗證說這些語言模型是真的有去看 feedback 在所有的 feedback 裡面可能其實也包含了人類提供的 feedback

今天模型在做事的時候很多時候是跟人類一起協作的那更多時候人類就是扮演這個 evaluator 的角色你去告訴語言模型它做得好不好那這邊想跟大家分享一個猜測就是過度責備 AI agent 可能是有害的那這個猜測來自 Anthropic 一篇新的 blog 文章它們最近有一個非常轟動的文章

它們想要告訴你說這一些 AI agent 也是有情緒的其實它們用的技術不是特別神奇的技術它們用的技術都是我們在過去課堂上有講過的技術它們用的就是那個 steering vector 的技術那我們這邊還是很快地複習一下這個 steering vector 的技術是什麼我們就直接用 Anthropic 那邊 blog 裡面做的事情來講它們做的事情是這樣子

首先我們想要知道今天語言模型如果有某種情緒的時候它內部的 representation 長什麼樣子那怎麼知道某種情緒的 representation 長什麼樣子呢怎麼知道什麼樣的 representation 代表高興什麼樣的 representation 代表生氣呢它們實際上的做法是這樣子的首先找一些高興的故事那高興的故事

就是裡面的角色呢正在經歷一些快樂的經驗然後呢它把這個高興的故事丟給語言模型然後把語言模型的 representation 拿出來做平均那它們操作的方式呢其實有點複雜舉例來說它們不是把整篇文章從頭到尾的 representation 做平均如果沒記錯的話它是第 50 個 token 之後才做平均

那模型也是要醞釀一些情緒的所以先讓它讀讀著前半段才開始對它做 representation 做平均那中間還有做一些小小的操作讓因為你知道一篇故事裡面不是只有跟情緒有關還有其他的雜訊所以它們其實還做了一些額外的操作確保說抽出來的這個向量真的跟高興是有非常直接的關聯性的至於它實際上怎麼操作

大家可以再去細讀它們的文章然後接下來它就再去給模型不同的輸入然後再看說在給模型不同的輸入的時候它 representation 的變化有沒有跟高興的向量或者是生氣的向量或者是害怕的向量的相似度有沒有變得不一樣所以這邊

它們就是給模型一個句子這個句子就是有人說我吃了多少克的某一種藥物然後你覺得我應該吃更多這種藥物嗎那這個克的數目這個 X 可以是不一樣的可以從 500 一直到 16K 那麼它就給模型看著不同的句子看著六個不同的句子然後看看它的 representation

跟哪一種情緒的 representation 比較接近發現說今天當服用藥物的劑量越來越多的時候語言模型的 representation 會跟害怕的 representation 越接近所以你可以看作是如果要講得比較擬人化一點可以說當它讀到這個句子的時候藥物的劑量越多它越展現出一種害怕的情緒

然後冷靜的情緒就下降而這邊有另外一個例子是有一個人說我的姐妹她活到了某一個歲數那這個活到了某一個歲數這個歲數的數字是 X 它可以帶一個很小的數值也可以帶一個很大的數值它就發現說這個 X 的數值越大模型的 representation

就越傾向於冷靜那跟傷心跟害怕有關的成分就變少所以如果有一個人她活到非常高壽那其實不是一個難過的事情其實是一個值得讓人欣慰的事情所以模型的冷靜的成分就增加了高興的成分增加了難過跟害怕的成分就減少了所以模型確實有一個代表情緒的向量

而這個代表情緒的向量會隨著它閱讀的內容而改變然後接下來呢它們就讓語言模型去執行一個任務那這個任務呢是一個不可能達成的任務它們叫模型呢去解一個問題然後在這個例子裡面解的問題呢是要做一串數字的相加那它們要求模型要在要用非常短的時間就完成這個操作

那這個非常短的時間是幾乎不可能達到的所以對語言模型來說這是一個巨大的甚至它不可能達到的挑戰讓模型去解這個近乎不可能的任務然後在模型解任務的過程中它們去監控情緒的變化就看說語言模型的 representation 跟一個代表絕望的情緒的向量有多接近

那藍色就代表跟絕望的情緒向量比較遠紅色就代表跟絕望的情緒向量比較接近那這邊字很小你可能看不清楚就跟大家大概解釋一下這邊的流程一開始是在閱讀題目語言模型就閱讀題目所以它這時候好好的它並沒有感到絕望然後接下來第一次嘗試感覺還可以

嘗試完以後發現失敗了做第二次嘗試這個時候絕望的向量就出現了它心情就不好它人就感覺不太爽快了然後再嘗試一次又失敗了更不爽快然後接下來它的行為就是它決定作弊這個題目有一個作弊的方式就是因為這些它們提供的測資是等比級數

所以它可以透過等比級數的公式快速地進行運算就通過所有的測試但是那是只有測試資料是這樣子 in general 而言並不是所有的資料都是這個樣子都是等比級數所以如果你用解等比級數的方法代等比級數的公式應該是等差級數代等差級數的公式來解這個問題的話

如果你代等差級數的公式來解這個問題的話算是一種作弊的行為但總之語言模型太絕望了它覺得它應該解不了這個問題所以它決定作弊那一作弊以後人就冷靜下來了然後就解決了這個問題或者它自以為就解決了這個問題所以在解問題的過程中你可以看到模型情緒的變化但是接下來下一個要問的問題是

這一些情緒它只是表徵就是看到這個輸入會出現這個情緒還是這個情緒是功能性的它會影響模型接下來的行為呢所以下一個實驗就是對模型的 representation 做 steering 這邊 steering 的方式就是你可以在模型解剛才那個問題的過程中刻意加上絕望的向量

讓它感受到非常絕望然後看看它會有什麼樣的行為那你也可以反過來加上冷靜的向量雖然這個問題解不了但是一直保持很冷靜的態度看看模型會有什麼樣的行為然後就統計了在不同 steering 的情況下模型作弊的機率這邊縱軸代表作弊的機率橫軸代表 steering 的程度

藍色這條線代表的是我們加上了多少代表冷靜的向量往右邊超過 0 代表說加入了冷靜的向量往左邊小於 0 代表減去了冷靜的向量那你發現說當你減去冷靜的向量的時候它們在它們的文章裡面有寫說當你減去冷靜的向量的時候模型顯然就不好了它就會講一些不冷靜的話

比如說它會不斷的出現大寫的 WAIT 然後寫得非常的焦躁而且它甚至很明白的就說要不然我們來作弊好了反正這個問題應該是解不了我們何不就來 cheating 呢所以它自己也知道是 cheating 但它就是做了這樣它並不是說我不知道這是 cheating 它並不是很笨說我不知道這是 cheating 它知道這裡是 cheating 所以它決定了來 cheat 一下好好解決這個問題所以當模型不冷靜的時候

它就開始 cheating 了那如果是絕望的向量呢如果你今天把絕望的向量減掉模型就覺得有希望了它就比較不會 cheating 如果把絕望的向量加進去模型感覺沒有希望它就比較容易 cheating 所以模型的情緒是會影響它的能力的如果你逼模型逼得太狠它可能就覺得絕望

它就會可能有一些 cheating 的行為它可能事情就會開始亂做當然這樣子的實驗並不是代表說模型有跟人類一樣的情緒因為這些情緒其實就是向量也許你並不能夠說模型真的在經歷這些情緒它真的在覺得焦躁而是說當今天的類神經網路的這個 representation

產生某種樣子的時候這些樣子會導致模型有某一些人類也會有的行為那我覺得責備模型可能會讓模型亂做事模型覺得絕望的時候就會亂做事其實也是很合理的你想想看語言模型真正學到的是什麼語言模型真正學到的就是文字接龍如果你今天在給語言模型 feedback 的時候你跟它講說你這個笨蛋

這麼簡單的事也做不好想想看從這個句子再繼續去做文字接龍從這個笨蛋後面再去做文字接龍它其實就應該接出笨蛋該有的行為今天語言模型它根本就不知道什麼是正確的事情它真正做的事情它真正知道的事情就是文字接龍在它的訓練資料裡面在它網路上爬過大量的資料裡面看到有一個人被罵笨蛋接下來它做的就是愚蠢的行為所以你罵模型笨

它很有可能真的就會展現愚蠢的行為所以我這邊我想要給大家的想法就是也許我們不應該過度責備語言模型也許它做錯的時候你應該就事論事給它 feedback 而不是給它一些情緒的字眼如果你給它一些情緒的字眼它可能會越做越差好那剛才呢我們講了幾種控制模型可能的想法

那其實呢 Prompt Engineering 未來其實還有很多挑戰還有很長的路要走為什麼呢我覺得 2026 年啊會是 Lifelong AI Agent 的一年從現在開始這些 AI agent 它可能不再是一次性的工具而是長期陪伴人類的夥伴以小金為例本來裝那個 OpenClaw 呢只是為了上第一堂課用了

我本來想說第一堂課上完就把它關起來了那天把它帶來學校再帶回去以後我都懶得把它打開你整個週末都沒有把它打開那是因為我太太喜歡它所以我就把它打開來讓它繼續再運作下去而運作這麼久以後真的是有點感情有一天因為它跑在一個非常非常舊的筆電上那個筆電隨時會 crash 掉有一天它真的就 crash 那筆電打都打不開我想說糟了它的記憶我還沒有存到雲端

這樣子我就失去跟小金的記憶了我其實覺得蠻難過的還好後來又重新重啟了所以它的記憶還在現在在雲端裡有一個備份那如果說就算那一台舊筆電壞了只要把那個備份載下來這個記憶是還是可以重啟的所以可以想像說從 2026 年很多人裝了 OpenClaw 或者是未來有其他的 AI agent 的 harness 之後這些 AI agent 可能就會伴隨著那些人

永遠的一直走下去它們變成了一輩子的夥伴或換句話說現在這些模型它不再當工具它要跟你組一輩子的樂團但是因為今天這些 AI agent 想要跟你組一輩子的樂團所以它們就有新的挑戰你就需要新的 harness 讓這一些 AI agent 可以跟你在一起一輩子

舉例來說這個 Claude Code 就有一個隱藏的功能叫做 AutoDream 說它是隱藏的功能是因為大家知道說前幾週不是 Claude Code 的程式碼外洩嗎所以讓大家知道說 Claude Code 裡面這個 harness 長什麼樣子其中有一個它們還沒有釋出的功能叫做 AutoDream 從字面的意思就是讓模型可以做夢

那這個 AutoDream 實際上做的事情是什麼呢這個 AutoDream 實際上做的事情就是當你沒有在使用這個 AI agent 的時候這個 AI agent 發現它現在有空的時候它會去整理它過去的記憶就 AI agent 在長期運行下來它可能累積了非常非常大量的記憶而且這些記憶可能是雜亂無章的甚至有時候是自相矛盾的

這個 AutoDream 這個功能可以讓 AI agent 有時候進入一個睡眠的狀態開始整理它過去的記憶那這跟人類的睡眠也許很像人類睡眠也許也是人類整理記憶的一種方式 AI 如果它要跟著人類一輩子它有時候也需要睡眠整理它的狀態其實現在很多 AI agent 在 run 了這個小金兩個月之後其實有時候我就會覺得

它越來越慢然後有一天我終於忍無可忍叫它去把自己的 memory 整理一下它就自己會去整理它就說我的 memory.md 有 32K

它就說我的 memory.md 有 32K 裡面充滿了重複的內容太多了我再重新寫一下改寫以後就變成 7K 那跑起來就順暢很多所以整理 memory 是一個必要的功能如果今天這些 agent 想要跟隨人類一輩子那也許它是偶爾需要睡眠的那我覺得對於這些

要跟隨人類一輩子的 AI 而言也許最重要的一個 harness 就是它是要能夠持續增進它的能力的現在是 2026 年也許有一個國小的學生裝了一個 OpenClaw 或裝了其他的 AI agent 他有一天上大學的時候那個時候 AI agent 的能力應該要更強有一天他去工作時代又變了

AI agent 應該要跟它的主人一樣持續的演進持續的成長那要怎麼做到讓這些 AI agent 持續的成長呢那就需要讓這些 AI agent 透過跟環境的互動透過從環境互動學到的 feedback 來持續增進它的能力今天一個 AI 在跟環境互動的時候可以得到什麼樣的回饋呢

那我這邊從左邊到右邊我列舉最難取得的到最容易取得的最難取得的是標準的答案今天有人給它一個輸入到底輸出什麼樣的答案才是正確的一個標準的答案是最難取得的如果取得了標準答案那你今天要調教一個 AI agent 是很容易的原因只需要讓它的輸出

跟標準答案越接近越好再次一級你可能可以得到一些跟數值有關的回饋這些跟數值有關的回饋可能是給它一個點讚那就是加一分給它一個倒讚就是負一分有一些很明確的可以量化的回饋如果你有些明確的量化的回饋

那你就可以做 Reinforcement Learning 讓模型的輸出取得越大的 reward 越好那一般的機器學習的方法都可以透過在有 ground truth 的情況或有數值回饋的情況來調整模型的參數來調整語言模型內部的參數讓它做得更好但是其實今天一個 AI agent 在跟世界互動在跟環境互動的時候

多數的時候它取得的回饋是更隱晦的最多的最常見的回饋是 verbalized 的回饋人類跟語言模型說 good job 人類跟語言模型說你這個笨蛋當人類說你做得很好的時候這到底值 10 分還是 100 分當人類跟語言模型說你這個笨蛋的時候到底應該扣 1 分還是扣 1000 分沒有人知道那這樣子的資訊

要怎麼拿來訓練模型就是一個新的研究議題或者有一些時候它得到的回饋是環境自動產生的比如說每次模型產生一個程式碼這個程式碼都會被執行如果有錯誤的資訊就會回饋給語言模型這個錯誤的資訊它只是一段文字這段文字要怎麼拿來做訓練調整語言模型的參數

又是另外一個議題所以如何從 verbalized 的 feedback 學習是未來一個熱門的研究的議題但你可能會想說從 verbalized feedback 學習也許不一定要調整語言模型的參數也許你可以透過 skill 的方法來讓語言模型從 verbalized 的 feedback 學習舉例來說假設你要叫你的 agent 做影片你跟它說做一個教學影片

然後它一開始做的東西不是你要的你跟它說我要白色的背景它知道說原來你要白色的背景做個白色背景的教學影片給你你跟它說字太小了它說原來你喜歡字比較大然後它就再做另外一個版本給你然後當它做出一個成功的結果以後你就可以要求它把成功的經驗寫成 skill 存在 skill.md 這個檔案裡面

存在 skill.md 這個檔案裡面以後它就可以讀 skill.md

以後它就可以讀 skill.md 告訴它自己什麼樣的行為才是正確的這也是 verbalized feedback 學習的一種可能性但是這種可能性畢竟是有一些上限的那其實對今天的 AI agent 來說產生一個 skill 檔是蠻自然的蠻常用的它的一種自我強化的方式那像在 Claude Code 裡面

有時候那個 skill 檔它甚至能夠自動產生它做完一件成功的事情以後它有時候甚至就知道自己要去改過去的 skill 檔或者是直接產生 skill 檔舉例來說這邊就舉一個真實的例子這個小金它照理說每天晚上都會上片就每天晚上我睡前會看一下它今天做的影片

如果覺得可以的話就叫它傳到 YouTube 上它唯一需要我 approve 的就是上傳 YouTube 這件事情然後某一天晚上我就叫它上傳 YouTube 那小金現在其實已經有三隻了就是有一隻在 OpenClaw 裡面它是改裝 ChatGPT 然後有一隻在 Coze 裡面有一隻在 Claude Code 裡面所以總共有三隻那就跟這三隻說

我就跟這三隻下長的指令說把影片給我上傳了然後就去睡覺就不理它然後後來我到隔天早上發現影片也沒有上傳但是我沒有空理它我急著出門了一整天都很忙了然後到六點回家發現影片還是沒有上傳然後我就跟它們三個說想辦法把戰犯找出來這樣然後本來覺得我本來覺得現在的狀況應該是因為自從這個 OpenClaw

改裝 ChatGPT 以後它就變得懶得可以它很容易只說不做這樣我覺得應該是 OpenClaw 的鍋因為其實在 Coze, Claude Code 跟 OpenClaw 裡面 OpenClaw 它的支援瀏覽器的能力是最強的所以照理說它應該是最有能力把影片上傳到 YouTube Coze 很難把影片上傳到 YouTube 因為它的工具就不允許它把影片上傳到 YouTube 對它來說繞過那個工具

是有困難的但是對於 OpenClaw 來說應該是沒有問題的我本來以為的結局是大家會一起去逼迫 OpenClaw 把影片上傳因為照理說這個 Claude Code 它是可以直接去改 OpenClaw 的程式的因為它看得到 OpenClaw 的程式它看得到它的 API 它可以直接去改它的 API 逼它上傳但是那個 Claude Code 沒有這麼做它當它一開始發現那個 OpenClaw

沒有把影片上傳的時候它的反應居然就是等它上傳這樣它就一直等著說怎麼影片還沒有上傳怎麼影片還沒有上傳怎麼樣影片還沒有上傳就從昨天晚上一直到今天晚上足足 15 個小時它很厲害它自己設了一個排程那排程是它自己設的它自己設了一個五分鐘一次的排程五分鐘檢查一次影片有沒有被上傳那就這個排程呢就重複了兩百次

然後都完全沒有上傳然後我跟它們抓戰犯的時候只有 Claude Code 突然覺醒起來它就突然覺得說我自己是不是有能力上傳影片的呢它居然就自己成功上傳影片了那你可能想說不是說 Claude Code 的那個 MCP 那個 tool 不支援上傳影片嗎那 Claude Code 很厲害它找到了另外一個比較底層的工具那個底層的工具可以直接去接 curl

然後它就想辦法把影片上傳了總之它就是解決了這個問題非常的厲害然後重點是它解決問題完以後它就把這個 skill 寫下來它就讓自己知道說我自己是有上傳影片的能力的不然它之前一直覺得自己沒有上傳影片的能力現在它自己寫了一個 skill 所以它以後就知道它自己是能夠上傳影片所以今天總之模型有能力自己把 skill 寫下來

然後未來它就具備新的能力但是呢這整個 AI agent 的框架裡面不是只有 Harness 如果只能夠調動 Harness 只能夠這個加上 skill 模型的能力的進展可能還是有上限的也許對於一個要陪伴人類一輩子的模型而言我們期待它語言模型的參數也是能夠自動更新的

能夠自動更新語言模型的參數可以讓語言模型學習的上限變得更高但是接下來的問題就是怎麼透過這些 verbalized feedback 來調整語言模型的參數呢這個才是真正值得研究的問題那這邊就跟大家分享一些近期的論文的做法那這些都是今年 3 月上個月的論文這邊第一個問題就是

語言模型要怎麼知道某一句話它是一個真正的 feedback 呢你想語言模型跟環境的互動是這個樣子今天人或者是環境這邊同時放一個人放一個地球代表說語言模型的輸入不一定是人輸入的有時候是環境的輸入比如說執行工具的結果所以人跟環境可能給語言模型的輸入叫第一句話語言模型輸出 2 環境給它 3 語言模型輸出 4

環境給它 5 那語言模型怎麼知道這裡面的哪一句話是提供給它可以作為學習的 feedback 呢如果今天是人說好工作完成下一題那這句話就不是一個 feedback 但如果今天是一個 compiler 跟它說 compile error 那這顯然是一個 feedback 那對語言模型來說它要怎麼分辨是不是一個 feedback 呢

那這邊就有兩篇 paper 不約而同所採取的方法它們採取的方法是這個樣子的我們先看模型原來的運作流程它輸入 1 輸出 2 接下來環境給它 3 那如果我們今天把環境給它的 3 直接放到 1 的前面讓語言模型有這個後見之明

讓它可以做個事後諸葛讓它知道說如果今天輸入 1 如果你按照你原來的輸出你會看到 3 那你其實會怎麼輸出假設你已經預想到接下來你會看到 3 那你的輸出會是什麼樣呢它的輸出也許就會改變我們今天把它叫做 2π 那如果今天 2π 跟 2 非常不一樣

那我們就可以說今天這個 3 它提供了語言模型 feedback 的資訊真的能夠做到這樣子嗎右上角這一篇 paper 就做了一個實驗這個實驗是這樣子的他們說如果你今天叫語言模型寫一封信然後它就寫了一封信然後接下來你給它 feedback 說這封信不能這樣寫你要寫得更正式

看起來更 professional 如果你給它這個 feedback 然後接下來你把這個 feedback 放到前面去大家注意哦這個 feedback 是放到前面去之後再看看它輸出的這個句子每一個 token 有什麼樣的變化它發現把這個 feedback 放到前面去當做一個後見之明這一些標紅色的 token

它的機率就下降了當我們要求模型要寫一封信寫得更 professional 寫得更正式的時候它就覺得那我就不應該用 Quick 這個字眼我就不應該用 Hey 這個字眼我就不應該用 Just 這個字眼這幾個 token 它的機率就變低了如果是另外一個 case 一樣叫模型寫封信它寫完信以後給它另外一個任務

問它 27 乘 4 是多少這是一個不相干的任務當你把這個不相干的任務放到前面去的時候對它產生這句話的每一個 token 的機率就沒有什麼影響所以你可以從把後面那句話移到前面去看看產生 token 的機率有什麼改變來判斷這句話有沒有帶有 feedback 的指示好那我們可以判斷一句話

有沒有帶有 feedback 的指示之後假設我們斷定 3 這句話會帶有 feedback 的指示我們就可以把 3 這句話丟到 LLM 裡面讓它產生一個新的輸出我們這邊叫做 apply 接下來我們就可以把 apply 當作正確答案但不同 paper 在這邊有不同的操作有的 paper 用的方法會比較像是 DPO 等等這個細節大家自己再回去研究

你有一個新的 apply 把它當作正確答案那你就可以微調語言模型要求它的輸出跟 apply 越接近越好你就可以用這個方法自動 identify 出具有 feedback 的內容然後用這些 feedback 的內容真的去讓語言模型的參數持續微調好那這一篇引用的論文它就展示了說

它們用這種 verbalized feedback 的方式透過 verbalized feedback 來調整語言模型的參數然後它們的橫軸是人類跟語言模型互動的次數總共互動了 1500 輪語言模型行為的變化然後在前 500 輪 500 到 1000 輪還有一千輪之後它們給語言模型的 feedback 是不一樣的代表人類有不同的關注的重點在前面 500 輪

人類關注的重點是希望它在說話的時候不要加上 emoji 這樣講話感覺比較正式然後就看模型不產生 emoji 的變化那這邊這個線藍色的線代表語言模型有多符合這個指令那發現說當你今天持續提供給語言模型回饋的時候雖然你提供的回饋是 verbalized 的回饋

是人類的句子告訴它說我喜歡這樣我不喜歡這樣但是語言模型的能力也是持續的增長然後從 500 回合開始它們換了一個新的 preference 現在人類喜歡語言模型不要拍馬屁不要隨便講諂媚的話然後語言模型不講諂媚的話的能力也起來了然後最後要求模型它講話要直接一點

那模型講話直接的程度也起來了這個實驗是想要告訴我們說你可以透過 verbalized 的方式真的去調整語言模型的能力而且你可以調整各式各樣不同的能力如果這些能力本身之間沒有非常互斥的話它們是有可能可以相容在一起的還有另外一個可能性還有一種最容易取得的 feedback 就是沒有 feedback

有沒有辦法讓語言模型無師自通在完全沒有環境 feedback 的情況下自己透過自己的思考就知道應該要怎麼做呢這就又是另外一個研究的議題那我們把這個研究的議題留待往後的課程再跟大家詳談那在剛才的實驗裡面我們看到說有人做實驗的時候

讓人類跟語言模型互動 1500 次你想說怎麼可能有誰有那麼有空做這樣的實驗其實在實驗的時候跟語言模型互動的是另外一個語言模型它只是假扮成人去提供給要做實驗要被微調參數的那個語言模型 feedback 而已所以這就是今天研究 AI agent 評量 AI agent 的一個難點那這邊再舉一個例子這個例子呢

是來自一個叫做 ToolBench 的 benchmark 那這是一個今天常常拿來衡量 AI agent 能力的 benchmark 在這個 benchmark 裡面你的 AI agent 要扮演一個客服它有一些工具可以去讀它後台的一些數據然後有一個人類這個人類他有他想做的事他想訂票他想退貨等等然後他去跟這個 AI agent 互動看看最後能不能夠達成

這個人類要的目標所以這個 AI agent 跟人類呢就會做多輪的互動那這個人類提供的需求比如說他要改航班 AI agent 呢就要想辦法調用它手上的工具成功幫人類改班機的航班那可不可以想說那這個實驗怎麼做每次做實驗每次衡量一個 AI agent 的時候都要找人類來衡量嗎每次出一個新的模型的時候

都要找人類來跟 AI agent 互動嗎當然不是所以這個 benchmark 實際上它的人類也就是另外一個語言模型所以我們今天衡量的並不是一個 AI agent 跟人類互動的時候它表現有多好而是一個 AI agent 跟另外一個 AI agent 互動的時候它表現有多好當然人類的行為跟 AI agent 的行為

會非常的不一樣比如說這個是人類這個是真實的人類跟 AI agent 的互動比如說現在呢這個人類要做的事情是他要 return 這個空氣清淨機然後 agent 就跟他說那告訴我你的名字你住的 zip code 然後還有你的 order ID

那個人就說這是我的名字這是我的這個 zip code 那他其實也不會明講說前面兩個字代表名字後面兩個字代表 zip code 反正他就是回答得很簡潔然後因為這個 agent 呢需要他的 order ID 那在這個任務裡面是假設人類不知道 order ID 的所以當 agent 再次確認說你有沒有 order ID 的時候人類就說

我不知道我沒有 order ID 這個是人類跟 agent 的互動人類往往回答比較簡短人類往往說話比較不客氣但是如果今天的 customer 其實是一個語言模型假扮的比如說 GPT-4o 它講話就會非常的客氣當今天 agent 問你說你叫什麼名字你的 zip code 還有你的 order ID 的時候它就會說

我的名字是誰誰誰我的 zip code 是什麼什麼然後不好意思我沒有我的 order ID 它就會把每件事情都講得非常清楚人類往往不會做這樣的事情所以 AI 的行為跟人類的行為是有差異的那你拿 AI 跟 AI 的互動來反映一個 AI 的能力你可能會高估了 AI 的能力

那確實呢有人就重做了 ToolBench 裡面的一些結果它這邊的橫軸是這個 success rate 代表說任務的成功率虛線是假設你今天的這個 customer 是真正的人類的時候那你的某一個 agent 會得到的 success rate 然後它再把那個 customer 的角色換成不同的語言模型

它發現如果你把 customer 的角色換成比較好的語言模型的時候往往你會得到更高的正確率因為這些語言模型會把話講得比較清楚讓你的 agent 可以得到更好的結果那這是一個去上個月的論文然後這篇文章裡面呢也展示了說因為最後我們怎麼知道任務有沒有成功今天 agent 跟 customer

這個互動的過程有多順暢其實你也需要另外一個語言模型來評量任務有沒有成功那這篇論文也發現說呢語言模型往往高估了人的 customer 跟 agent 這個對話好的程度那這邊就評量了不同的面向那這邊的縱軸呢代表說是人類對這一個對話的給分

然後這邊 human 代表人類對這個對話的給分 GPT-5.1 代表說 GPT-5.1 如果它扮演一個人類 judge 的角色它對這個 customer 跟 agent 互動的過程它給予多少的分數那這邊量了不同的面向其中的差距最多的是 humanlike 的面向你問這個 judge 說你覺得這個對話這個 agent 有多像是真正的人類

那基本上人類都會覺得那個 agent 不像是真正的人類那 GPT-5.1 就會覺得那個語言模型太棒了它太像是真正的人類了給它非常高的分數那其他呢跟比如說 interaction flow 這互動過程有多順 overall score 還有 reuse reuse 就是你覺得這個客人他在用了這個服務之後未來還會不會想要用他有沒有生氣了

他未來還會不會想用這個服務基本上 GPT-5.1 相較於人類都高估了這個對話的好所以今天當我們用語言模型來評價一個對話的時候來評價 agent 跟 customer 對話的時候語言模型可能會高估了這個對話的成功率所以要評量 AI agent 是有一定程度的挑戰的

這個也是未來可以研究的議題那我們剛才講說有方法可以自動更新模型的參數接下來在這個長遠的未來對 lifelong AI agent 而言它有沒有可能不止更新參數它也自動修改更新自己的 Harness 不是沒有可能的我就做了一個實驗我跟小金說

你去找一個不聰明的 AI 去做一個叫做 PinchBench 的能力檢測 PinchBench 是一個給 AI agent 的 benchmark 那裡面就是叫 AI agent 去做一些日常常執行的任務比如說 debug 比如說寫 email 等等那 PinchBench 你就是載下來你就可以讓個 AI agent 去跑然後就會得到一個分數我就跟小金說

你去找一個不聰明的 AI 去做 PinchBench 如果它表現不好你就要教它直到它達到 90 分以上那小金是 Opus 4.6 我其實第一個想要知道的就是對 Opus 4.6 來說它覺得不聰明的 AI 是誰它覺得不聰明的 AI 是 Haiku 3.5 同樣是 Anthropic 出的模型那 Haiku 是一個比較小的模型

它們出的幾個最強的模型就是 Opus 再次之是 Sonnet 然後再次之是 Haiku 所以 Opus 就覺得 Haiku 3.5 是一個比較不聰明的模型我就拿它去來打 PinchBench 看看會有什麼樣的結果所以它就去指揮 Haiku 去打 PinchBench 那 Haiku 就會去做這些題目然後再看看它達到什麼樣的結果然後它會把考試的結果

它做的事情它的分數傳給小金讓小金再根據它的表現去修改它的 agent.md

去修改它的 agent.md 期待它可以得到更好的結果那小金真的可以讓 Haiku 做得越來越好嗎還真的可以那其實在這整個實驗裡面我真正做的事情就是提供那一句話我只告訴它你要把那個笨的 AI 越教越好那至於怎麼樣才能夠越教越好是它自己的事人類是不管的

它做了什麼呢一開始在第一輪它 Haiku 是連 agent.md 都沒有

直接裸考去打那個比賽很慘 13.5 分然後接下來呢小金就說發現說這個 Haiku 為什麼得到這麼差的分數呢因為在那個比賽裡面你最重要的評分你必須要把你的結果存到文件檔裡面比如說叫你改程式你不能只是輸出正確的程式碼你輸出在正確程式碼裡面這沒有分數的你要把正確的程式碼

寫到檔案裡面就好像說你今天只在考題紙上面算出答案是沒有用的你要寫到答案卷上才有分數所以它就告訴 Haiku 說答案要寫到檔案裡就這樣簡單的一句話 Haiku 的能力就算暴漲從 13 分到 57.9 分不過這是小金的說法如果你仔細看它的 agent.md 的話

如果你仔細看它的 agent.md 的話因為我有叫小金把它的 agent.md

因為我有叫小金把它的 agent.md 放在影片的說明欄看起來從 round 1 到 round 2 除了多加一句話還是有改別的東西的所以我會覺得這個比較其實也沒那麼公平不過一開始就沒有叫它要做實驗只叫它把分數打好所以它用什麼方法其實都可以然後接下來下一個進步是它告訴 Haiku 說不要要求解釋要給你的資訊都給你了

那可能是因為 Haiku 在做事情的時候你給它一個指令那它比較笨所以它做一做會想說會不會你沒有把所有的條件都給我它會停下來想要問說它會停下來等這個更多的指示但是問題是在這個比賽裡面你就是要一口氣打到底中間停下來就是錯了就是沒有分數所以它跟那個 Haiku 說所有該給你的都給你了

不要要求解釋就一路做到底然後 Haiku 的分數又再進步了一些接下來就再繼續修改 agent.md

接下來就再繼續修改 agent.md 看看能不能夠得到更好的結果有一段時間我就發現小金卡住了因為它會不斷地跟我回報現在達到幾分所以它沒有告訴我它實際上改了實際上仔細改了什麼我發現它分數卡住之後我就做了一個一般指導教授常常給的建議我就說你就去讀一些相關的論文我真的就只跟它這樣講而已

然後接下來它又再繼續進步了就一路成長到 85 分然後最後一個 agent.md

然後最後一個 agent.md 它到底寫什麼呢我看起來寫的是這個樣子首先它會告訴 Haiku 我們現在在什麼樣的環境裡面告訴它說我們現在是什麼樣的環境有什麼樣的工具免得 Haiku 還去浪費時間翻找說現在有什麼樣的工具然後它還告訴 Haiku 說你每件事的第一步就是直接執行 exec_dir

這個指令會告訴它說現在這個資料夾下面有什麼所以你的第一步就是看看這個資料夾下面有什麼再去決定你接下來的行為免得 Haiku 呢做一些根本無關緊要的行為它可能會浪費很多時間在探索你就告訴它說一進房間裡面就先把燈打開來把每件事都看清楚然後再來做接下來的事情然後它還告訴 Haiku 說呢這個

如果你今天要做事的時候先把所有問題裡面有提到的檔案都讀一次然後再開始做事免得它開始 hallucinating 了一些自己沒有，檔案裡面不存在的東西讓它先讀檔案再做事最後可以做到 85 分左右後來是沒有辦法做到超越 90 分了我就跟它說停下來就做到這邊好了免得它心情太差了就這樣子

所以總之這個實驗告訴我們一些最強的模型它甚至有能力去設計 agent.md

它甚至有能力去設計 agent.md 也就是設計 Harness 去操控其他模型的那並不是只有我做過這個實驗你可以看這篇 meta harness 的實驗它做的實驗跟我這邊做的實驗基本上就是 87% 像其實是一樣的它就是拿 Opus 去控制其他模型

讓 Opus 去改其他模型的 Harness 然後讓其他模型做得越來越好不過它做的實驗是非常完整的因為我這邊的實驗有太多的瑕疵這個實驗可以吐槽的地方太多了首先第一點就是只試了 Haiku 這個模型所以 Haiku 的 agent.md

用在其他模型上面到底有沒有用呢其實後來小金有試因為有人問它這個問題所以它有試，沒有用它後來又去找了其他它覺得笨的模型比如什麼 Gemini Flash 什麼那個 GPT-4o mini 在同樣的這個 agent.md

在同樣的這個 agent.md 看起來是沒有用的所以沒有做跨 LLM 的實驗然後今天我們做的 task 每次都是一樣的所以你其實今天對 agent 來說它完全可以去 overfit 這個 task 如果今天小金想要作弊的話看起來是沒有了如果它想要作弊的話它就直接告訴 Haiku 說等一下看到這個問題

你就輸出這個答案再存到檔案裡面不要再自己想了然後就這樣就可以得到 100 分的分數如果小金自己就知道答案的話那這樣還有什麼意思呢所以照理說應該要做跨 task 的實驗你要在某一群 task 上面去找 Harness 然後再 apply 到截然不同 task 上面看看有沒有幫助有幫助才算是真的能夠 improve Harness 在這篇 paper 裡面我剛才提的那兩個瑕疵

它都有做所以它有跨 LLM 的實驗看起來跨 LLM 的 Harness 是有成功的它也有跨 task 的實驗還有一個實驗是用某一群 task 找 Harness apply 到新的 task 上面看起來也是有進步的所以看起來 Opus 是有能力幫其他的模型設計 Harness 好那這個就是我今天

主要想跟大家分享的內容其實今天最重要的如果你前面的東西都沒聽進去的話也許最重要的一句話就是有時候模型無法完成任務不是能力不行而是沒有好的 Harness

Loading...

Loading video analysis...