【生成式AI時代下的機器學習(2025)】第二講：一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

By Hung-yi Lee

Summary

Topics Covered

AI Agent僅文字接龍無需訓練
LLM工具無限行動取代RL
記憶模組勝過全人生回顧
僅正面經驗有效學習
腦內小劇場強化規劃

Full Transcript

好,那各位同學大家好啊那我們就來上課吧那今天這堂課呢,我們要講的是AI agent 這是一個現在非常熱門的議題那在課程開始之前呢,先講一個免責聲明我知道你在各個地方可能都聽過AI agent這個詞彙它是一個被很廣泛應用的詞彙

每個人心裡想的AI agent可能都不一樣等一下下一頁投影片會告訴你說

我在這一堂課中指的AI agent是什麼,那如果你在其他地方聽過別的AI agent的定義,那也沒問題,我也不會爭論說什麼樣的定義,才是真正的AI agent的定義,有些人甚至會告訴你說,現在那些用大型語言模型驅動的號稱AI agent的東西都不是真正的AI agent,要有身體的像這個機器人一樣的才叫做AI agent,所以每個人心裡想像的AI agent是不一樣的,

好,那這一堂課我們要講的AI agent是什麼呢?今天我們使用AI的方式,通常是人類給一個明確的指令,你問AI說AI agent的翻譯是什麼,那AI呢,按照你的口令,一個口令,一個動作,把你要求的翻譯翻譯出來,他也不會再做更多的事情了。

好,那這一堂課我們要講的AI agent是什麼呢?今天我們使用AI的方式,通常是人類給一個明確的指令,你問AI說AI agent的翻譯是什麼,那AI呢,按照你的口令,一個口令,一個動作,把你要求的翻譯翻譯出來,他也不會再做更多的事情了。

那AI agent的意思是說,人類不提供明確的行為或步驟的指示人類只給AI目標那就至於怎麼達成目標呢 AI要自己想辦法去達成目標比如說你給AI某一個研究的議題那你期待說一個AI agent就應該有能力自己提出假設

自己設計實驗自己進行實驗自己分析結果如果分析出來的結果跟假設不符合要回頭去修正假設那通常你期待AI agent要解決的目標要達成的目標是需要透過多個步驟跟環境做很複雜的互動才能夠完成而環境會有一些不可預測的地方

所以AI agent還要能夠做到靈活的根據現在的狀況來調整他的計畫那AI agent是怎麼做到人類給予一個目標用多個步驟來完成目標的呢那我們可以把 AI agent背後運作的過程簡化成以下這張投影片那AI agent的第一個輸入是一個目標

這個目標是人給定的那接下來呢 AI agent會觀察目前的狀況那AI agent可以看到的目前的狀況我們叫做observation 那AI agent會看目前的狀況分析目前的狀況決定他要採取什麼樣的行動那今天這個AI agent做的事情叫做action

那他執行個action以後會影響環境的狀態會看到不一樣的observation 看到不一樣的observation 就會執行不同的action 那這個步驟會一直循環直到AI agent達成我們要他達成的目標為止那我只要講到這邊你可能還覺得非常的抽象

那我們可以用下圍棋來舉例那AlphaGo是大家非常熟悉的東西 AlphaGo其實也可以可以看作是一個AI agent 這個AI agent的目標就是下棋要贏他的observation是什麼他的observation是現在棋盤上黑子跟白子的位置現在棋盤上的盤式那他可以採取的action是什麼

他可以採取的action 就是在棋盤上的19x19路的範圍中選擇一個動作選擇一個可以落子的位置那他選擇完可以落子的位置他落下一次以後會改變他對手的輸出你落下一隻以後你的對手會落下另外一隻那會改變你觀察到的observation

那你就要採取下一個action 所以AlphaGo是一個AI agent 那他背後運作的原理我想大家其實或多或少也都已經聽過那像這樣的講法我相信你一定覺得非常的熟悉好像在哪裡聽過一樣的段落沒錯如果你有上過任何basic的 reinforcement learning RL的課程

往往都是用這樣的方式來開場的為什麼呢因為過去要打造AI agent的時候往往覺得就是要透過RL的演算法來打造AI agent 那怎麼透過RL的演算法來打造AI agent呢 RL這個演算法就是他可以去learn一個agent 那這個agent可以maximize reward 所以你要把你的目標呢

轉換成一個叫做reward的東西那這個reward呢是人定義的越接近你的目標reward就越大那如果在下圍棋裡面你通常就會定說贏棋reward就是正一輸棋reward就是負一然後你要訓練的那個AI agent 就會學習去maximize reward 透過RL的演算法所以透過RL的演算法

其實你也有可能學一個AI agent 但是透過RL演算法的侷限是你需要為每一個任務都用RL的演算法訓練一個模型 AlphaGo在經過了大量的訓練以後他可以下圍棋但並不代表他可以下其他的棋類西洋棋或將棋我知道你可能看了一篇文章 AlphaGo Zero （口誤，應為AlphaZero）

他除了圍棋外也可以下將棋跟西洋棋那是另外訓練後的結果能夠下將棋的那個模型並不是原來可以下圍棋的那個AlphaGo 他們是不同的模型有不同的參數而今天AI Agent又再次被討論是因為人們有了新的想法我們能不能夠直接把Large Language Model

把LLM直接當成一個AI Agent來使用呢也就是說我們的Agent背後就是一個Language Model 你要告訴他你的目標是什麼的時候直接用文字輸入要告訴他下圍棋就先給他圍棋的規則然後跟他說你的目標就是贏得勝利那接下來環境

因為一般語言模型是用文字作為輸入所以你可能需要把環境轉化成文字的敘述不過我這邊寫了一個option 今天有很多語言模型都是可以直接看圖片的所以把環境轉成文字的敘述今天也不一定是必要的那接下來語言模型要產生action 那產生action的方式

可能就是用一段文字來決定它的action是什麼它的action用一段文字來描述那我們需要把那段文字轉譯成真正可以執行的真正可以執行的行動然後就會改變環境看到不同的observation 然後AI agent的運作就可以持續下去直到達成目標

今天AI agent再次爆紅並不是真的有了什麼跟AI agent本身相關的新的技術而是在LLM變強之後人們開始想我們能不能直接用large language model 來實踐人類擁有一個agent的渴望好那我們這邊呢是拿下棋做例子啦也許你就會很好奇說

現在的語言模型能不能夠下棋呢其實早就有人嘗試過了有一個在語言模型領域很多人使用的benchmark叫做BigBench 它是什麼時候做的呢它是2022年上古時代做的以後有ChatGPT之前我們都叫上古時代然後在2022年上古時代的時候

就有人嘗試過用那個時候的語言模型看看能不能下西洋棋那時候語言模型沒有辦法真的看圖所以你需要把棋盤上黑紙跟白紙的位置轉成文字的敘述輸入給這個語言模型所以這個就是語言模型實際上看到的棋盤的樣子那就問他說下一步要下哪裡

才能夠給對方將軍呢那語言模型就會給你一個答案右上角這個圖啊橙色的線是正確答案綠色的線是當時各個不同的語言模型所給的答案沒有任何一個語言模型給出正確的答案但雖然沒有任何語言模型給出正確的答案

但你可以看這個實現是當時比較強的模型他們雖然沒給出正確答案但他們所選擇走的路是符合西洋棋規則的但是也有很多比較弱的模型這個虛線是比較弱的模型他們都亂走他根本搞不懂西洋棋的規則隨便按照自己的意思來想不過這個是上古時代的事情了

那現在更強的LLM 能不能下西洋棋呢有人試過了有一個很知名的影片是直接拿ChatGPT o1跟DeepSeek-R1兩個模型來下西洋棋那這是一場驚天動地的對決這個影片好幾百萬觀看次數啊那這兩個模型呢他們殺的難分難解

難分難解是因為他們實在是太弱了他們有很多不符合西洋棋的規則比如說把兵呢當作馬來用或者是他的主帥他的那個主教可以無視前面的一切阻擋或是他會突然就是空降一個自己的子在對方的陣地裡面把對方的子吃掉然後DeepSeek還在自己的棋盤上隨便變出一個城堡然後最後

最後DeepSeek用自己的城堡把自己的兵吃掉以後他宣佈他贏了對方告投降然後ChatGPT想了一下覺得嗯我確實輸了然後就投降了所以這個棋局就這樣結束了所以看起來現在這個最強的語言模型你要下棋還有一段距離但這並不代表

他們不能夠作為AI agent來做其他事情那等一下會舉一些例子看看現在的語言模型可以做什麼樣的事情那這門課另外最主要想要強調跟大家傳輸的資訊是我們還能多做什麼讓這些語言模型作為AI agent的時候運作的更加順利那剛才講法比較像是

從過去常見的這個agent的觀點來看語言模型怎麼套用到agent的框架下那接下來我們換一個角度看說從large language model的角度來看到底當他作為一個agent的時候他要解的問題有什麼不同好,那我們從large language model的角度來看

首先他得到一個目標然後接下來呢他得到一個observation 然後根據這個observation 他要決定接下來要採取什麼樣的action 採取什麼樣的動作那他採取完動作之後他的動作會影響外界的環境看到新的observation 看到新的observation以後要採取新的動作

這個過程就會再反覆繼續下去那在這一系列的過程中看到observation採取action 看到observation採取action 其實憑藉的都是語言模型原來就有的接龍的能力所以從語言模型的角度來看當我們把它當作一個AI agent來使用的時候對他而言他做的事情是完全沒有什麼不同的

他就是繼續在做他唯一會做的文字接龍而已所以從語言模型的角度來看 AI agent並不是一個語言模型的新技術它比較像是一個語言模型的應用所謂AI agent意思就是依靠現在語言模型已經有一定程度的通用能力

看看能不能夠直接把它們當作agent來使用那因為我說這個AI agent並不是語言模型的新技術它只是一個語言模型的應用所以要注意一下在以下課程中沒有任何的模型被訓練以下我所有所講的東西都是以靠一個現有的語言模型的能力來達成的

那AI agent其實不是最近才熱門一直有人在嘗試怎麼讓語言模型變成一個agent 或怎麼把語言模型當作AI agent來使用 ChatGPT在2022年年底爆紅所以在2023年的春天就有一波AI agent的熱潮好多人都用ChatGPT作為背後運作的語言模型

來打造AI agent 那個時候最有名的就是Auto GPT 那其實在2023年的機器學習我們也有一堂課是講那個時候的AI agent 那可以看看那堂課看看那一堂課的AI agent跟今天講的有什麼樣的差異不過後來2023年AI agent的熱潮過一陣子就消退了

因為人們發現這些AI agent沒有我們想像的厲害一開始好多網紅在吹噓這些AI agent有多強又有多強真的試下去也沒那麼強所以熱潮就過去了那用LLM來運行一個AI agent 相較於其他的方法可能有什麼樣的優勢呢那過去啊當你運行一個agent的時候

比如說像AlphaGo 他能夠做的只有有限的事先設定好的行為 AlphaGo真正能夠做的事情就是在19x19個位置上選擇一個可以落子的位置也就是說他真正能夠採取的行為就是從19x19個選擇題中選擇一個他能夠採取的行為

但是如果你的agent是一個large language model的話他就有了近乎無限的可能 large language model可以講任何話可以產生各式各樣近乎無窮無盡的輸出這就讓你AI agent可以採取的行動不再有侷限有更多的可能性舉例來說我們等一下就會很快看到的今天這些AI agent

在有些問題他解不了的時候他可以憑藉他可以有各式各樣輸出的能力來直接呼叫一些工具來幫忙解決他本來解決解決不了的問題那另外一個AI agent的優勢另外一個用large language model 運行AI agent的優勢是過去如果用reinforcement learning的方法來訓練一個AI agent

那意味著什麼你必須要定義一個東西叫做reward 那如果你今天是要訓練一個AI programmer 那你可能會告訴AI programmer說如果你今天寫的程式有一個compile的error 那你就得到reward-1 但為什麼是-1 為什麼不是-10 為什麼不是-17.7 這種東西就是沒人說得清楚

所以這個reward在做reinforcement learning的時候就是一個要調要通靈的東西那今天如果是用LLM驅動的AI agent呢你今天就不用幫他訂reward了今天有compile error 你可以直接把compile error的log給他他也許根本就讀得懂那個log 他就可以對程式做出正確的修改

而且相較於reward只有一個數值直接提供error的log 可能提供了agent更豐富的資訊讓他更容易按照環境給的回饋環境目前的狀態來修改修改他的行為接下來舉幾個AI agent的例子那講到AI agent 也許最知名的例子

就是用AI村民所組成的一個虛擬村莊這個虛擬村莊是在什麼時候成立的呢 2023年在古代就已經有人做過這個虛擬村莊了那裡面的NPC通通都是用語言模型來運行的那這些NPC它是怎麼運行的呢首先每個NPC都一個人為設定的目標

有的NPC他要辦情人節派對有的NPC要準備考試每個人都一個他自己想做的事情那這些NPC呢會觀察會看到環境的資訊那時候Language Model都只能讀文字所以環境的資訊需要用文字來表示所以環境的資訊對一個語言模型來說看起來可能就是這個語言模型旁邊有一個叫做Eddy的人

他正在讀書然後呢他看到廚房然後呢他看到一個櫃子然後看到伊莉莎白呢正在裝做裝飾正在裝飾房間等等然後根據這些observation 這個語言模型要決定一個他想要做的行為比如說也許不著了所以就上床睡覺那需要有一個轉譯器

把它說出來的這個行為轉成真正能夠執行的指令那這個agent就真會走到床邊然後去睡覺好,所以這個是2023年的時候用AI來這個運行NPC的一個實驗其實後來還有更大規模的實驗有人把Minecraft中的NPC 通通換成AI的NPC

那就把相關的影片連結留在這個投影片上面那根據這個影片連結的描述就說這些AI很厲害他們組織了自己的交易的金融體系然後還組織了自己的政府自己制定憲法自己管理自己是真的還假的啦這個是這個影片說的剛才講的那些遊戲你可能比較不容易接觸到

他對現實世界可能也沒什麼影響那今天也許你馬上就會接觸到的AI agent 就是讓AI來真正使用電腦雖然這個聽起來有點弔詭 AI本身也就是一個電腦但他現在要來真正的像人類一樣來使用另外一個比較低端的電腦來做事那其中比較有代表性的例子

就是cloud的computer use 還有chain GPT的operator 那我們在上次上課的影片中也已經跟大家講過operator 那operator介面長這樣那他會建議可以做的事情比如說可以訂pizza 可以預約下週的居家清潔等等那像這種使用電腦的AI agent 他的目標就是你的輸入

就是你告訴他我要去訂pizza 你告訴他上網幫我買一個東西那這就是他的目標那他的observation呢他的observation可能是那個電腦的螢幕畫面今天很多語言模型都是可以直接看圖的所以其實可以直接把圖片當作輸入可以直接把電腦畫面當作輸入提供給AI agent

那AI agent要決定的就是他要按鍵盤上哪一個鍵或者是要按滑鼠的哪一個按鈕那其實讓AI使用電腦啊不是最近才開始有的野望其實早在2017年就有篇paper叫words of bits 嘗試過使用AI agent 你看他這個文章的標題他把自己的文章標題說

他是一個web-based agent 那只是那個時候能夠互動的頁面還是比較原始的頁面你可以看到下面這些AI agent 他真正能夠處理的是比較原始的頁面那個時候也沒有大型語言模型所以那時候的方法就是硬圈一個CNN 直接吃螢幕畫面當作輸入輸出就是滑鼠要點的位置

或者是鍵盤要按的按鈕看看用這個方法能不能夠讓AI agent 在網路的世界中做事這個是2017年這甚至不能說是上古時代以後有這個BERT以前的時代就是死前時代這個不只是死前時代它死前時代比較早期所以這是舊時期時代的產物好那後來有了語言模型之後啊

人們就開始嘗試用語言模型來當作AI agent 來運行一個agent 讓它在網路的世界中活動那這一頁投影片是列舉了幾個比較具代表性的例子那這一波潮流大概是在2023年的暑假開始的像Mine to Web Web Arana 還有Visual Web Arana 就跟今天的operator 非常的像

就是給這個語言模型看一個螢幕的畫面或者是看HTML的code 然後他自己決定他要幹什麼期待他最後可以解決一個問題比如說在Mine to Web的第一個例子裡面就給他這個畫面然後跟他說請他幫我們訂一個機票那還有什麼樣AI agent的應用呢

今天你可以用AI來訓練另外一個AI模型這就是等一下作業二助教會跟大家講的事情那用AI來訓練模型那其實這個運作的過程就是你的目標就是要過strong baseline 然後你提供給 LLM訓練資料他寫一個程式用這些訓練資料來訓練模型那他可能

可以得到這個模型的正確率根據正確率再重新寫一個程式再得到新的正確率就這樣一直運作下去那有很多知名的用AI來訓練模型的framework 比如說AIDE 那你看他的這個技術報告的這個標題就知道他們想做什麼他是要做一個machine learning engineer agent 他就是要用

multi-agent的framework來解 data science的competition 那在我們的作業中你就會體驗到到底AI agent做不做得了機器學習這門課的作業那最近呢 Google說他們做了一個AI 不過他們並沒有真的釋出模型啦,所以你也不知道說實際上做得怎麼樣,這個服務並不是公開的

那他們說他們做了一個AI Coscientist 就是用AI來做研究不過這個AI Cosine 還是蠻有侷限的,他不能真的做實驗啦他只能夠提Proposal 就是你把一些研究的想法告訴他他把完整的Proposal規劃出來實際上做得怎麼樣,不知道啦那你要看他的Blog裡面有些比較誇張的案例,說什麼

本來人類要花十年才能夠得到研究成果 AI agent花兩天就得到了,也不知道真的還假的他舉的是一些生物學的例子,所以我也無法判斷他講的是不是真的,那個發現是不是真的很重要這個co-scientist的話就是這個用AI agent來幫研究人員做研究好,那我們剛才講的AI agent

他的互動方式是侷限在回合制的互動有一個observation,接下來執行action 有一個observation,接下來執行action 但是在更真實的情境下這個互動是需要及時的因為外在的環境也許是不斷在改變的如果你在action還沒有執行完的時候外在環境就改變了

那應該要怎麼辦呢有沒有辦法做到更即時的互動呢更即時的互動可能應該像是這樣子當模型在決定要執行action one 正在執行的過程中突然外在環境變了這個時候模型應該有辦法立刻轉換行動改變他的決策以因應外界突如其來的變化你可以想說什麼樣的狀況

我們會需要用到這樣的AI agent 能夠做即時互動的呢其實語音對話就需要這種互動的模式文字的對話使用切GPT是大家比較熟悉的你輸入一段文字他就輸出一段文字這是一來一往回合制的互動但是人與人間真正的對話不是這樣子的當兩個人在對話的時候

他們可能會互相打斷或者是其中一個人在講話的時候另外一個人可能會同時提供一些回饋比如說嗯好你說的都對那這些回饋可能沒有什麼特別語意上的含義他只是想要告訴對方我有在聽但是像這樣子的回饋對於流暢的交流來說也是非常重要的如果在講電話的時候對方完全都沒有回憶

你會懷疑他到底有沒有在聽所以我們今天能不能夠讓AI 在跟使用者互動的時候用語音互動的時候就跟人與人間的互動一樣而不是一來一往回合制的互動呢其實也不是不可能的今天GPT4O的一個Voice Mode 高級語音模式也許在某種程度上

就做到了這一種即時的互動那這個投影片上是舉一個例子假設有人跟AI說你說一個故事那這個是AI觀察到的第一個observation 有人叫他說一個故事現在就開始講故事了他就說從前從前那這時候人說了一個好這個可能是第二個observation 但AI要知道說這個observation 不需要改變他的行為

跟他的行為沒有直接的關係只要故事就繼續講下去有一個小鎮然後人說這個不是我要聽的故事這個我聽到了那AI可能要馬上知道說那這個不是人要聽的那也許我覺得應該停下來換另外一個故事那今天AI有沒有辦法做到這種即時的互動呢那怎麼做這種即時的互動非回合制的互動

就有點超過我們這門課想要講的範圍如果你有興趣的話你可以讀這篇文章那這篇文章想要做的事情是評量現在這些語音模型互動的能力那在這篇文章裡面也對現有的這個可以做互動的語音模型做了一個比較完整的survey 是一直survey到今年的1月所以你可以看這篇文章

知道說現在這些可以互動的模型他可以做到什麼樣的地步那這是我們實驗室的林冠廷同學跟他在這個Berkeley UW和NIT的合作夥伴一起做的文章那這邊順便說明一下以後這門課呢我們投影片上引用論文的原則論文的原則就是如果我找得到arXiv的連結的話那我就把文章直接

我就直接貼arXiv的連結什麼是arXiv呢假設你不是Computer Science背景的話也許我就要解釋一下什麼是arXiv arXiv的意思就是一般呢做研究你是寫完文章投稿到一個期刊或者是國際會議然後被接受以後才發表出來但是對於AI的領域因為變化實在太快幾個月前

就已經是古代了所以期刊那種一審就要一年或者是國際會議一兩個月這種步調是沒有辦法在不適用於AI的領域所以現在一種習慣的發表方式就是做出東西以後直接放到一個公開的網站叫做arXiv 然後就不審了立刻公開然後你就可以讓全世界的人看到你的文章

那有很多人會覺得引用arXiv的連結不夠正式但是很多重要的文章其實現在不見得投稿國際會議但就只有arXiv的連結所以我會選擇如果找得到arXiv的連結的話就直接引用arXiv的連結其實現在大家都在arXiv上看文章那國際會議現在比較像是經典回顧這樣子每篇文章我幾乎都在arXiv上看過了句子說原來你投到這裡啊這樣的感覺

那引用arXiv的連結還有一個好處就是你可以直接從arXiv的連結看出這篇文章的時間所以arXiv的連結裡面的數字前面兩個就是年份後面兩個就是月份可以看這個數字就可以知道說這篇文章是在什麼時候被放在arXiv 也就是什麼時候被發表的可以讓你對於每一個研究他誕生的時間更有感覺好那接下來呢

我們會分三個面向來剖析今天這些AI agent的關鍵能力那第一個面向是我們要來看這些AI agent 這個AI agent能不能夠根據他的經驗過去的互動中所獲得的經驗來調整他的行為第二部分是要講這些AI agent 如何呼叫外部的援助如何使用工具

第三部分要講AI agent 能不能夠執行計畫能不能做計畫那我們來講一下 AI怎麼根據過去的經驗或者是環境的回饋來調整他的行為那AI呢 AI agent需要能夠根據經驗來調整行為比如說有一個作為AI programmer的AI agent

他一開始接到一個任務那他寫了一個程式那這個程式compile以後有錯誤訊息 compile以後有error 那應該要怎麼辦呢他應該要能夠根據這個error的message 來修正他之後寫的程式那在過去啊講到說你收到一個feedback接下來要做什麼的時候

也許多數機器學習的課程都是告訴你來調整參數根據這些收集到的訓練資料也許使用reinforcement learning的algorithm 來調整參數但不要忘了我們剛才就強調過在這一堂課裡面沒有任何模型被訓練所以我們今天不走這個路線那不更新模型的參數模型要怎麼改變它的行為呢

依照今天 Large Language Model的能力要改變它的行為你也不用微調參數直接把錯誤的訊息給他他接下來寫的程式就會不一樣了就結束了那可能會問說那之前他寫的程式是錯的為什麼給錯誤訊息他寫的程式就對了呢明明就是同一個模型但你想想看

模型做的事情就是文字接龍你給他不同的輸入他接出來的東西就不一樣一開始會寫錯的程式是因為他前面要接的部分只有這麼多所以寫個錯的程式當今天要接的內容包含了錯誤的訊息的時候他接出來的結果可能就會是正確的了那今天已經有太多的證據說明這些語言模型

可以根據你給他的回饋改變他的行為不需要調整參數那如果你有使用這些語言模型的經驗你也不會懷疑他們有根據你的回饋調整行為的能力那這邊真正的議題是如果我們是把過去所有的經驗都存起來要改變語言模型的行為要讓他根據過去的經驗調整行為

就是把過去所有發生的事情一股腦給他那就好像是語言模型每次做一次決策的時候他都要回憶他一生的經歷也許在第100步的時候還行到第1萬步的時候過去的經驗太長了他的人生的資訊已經太多了也許他沒有足夠的算力來回顧一生的資訊

他就沒有辦法得到正確的答案這讓我想到什麼呢這讓我想到有一些人有超長自傳式記憶他可以把他一生中所有發生的事情記下來然後那些人你可以隨便問他一個某個人的電話號碼他都會背出來你告訴他某年某日某時發生了什麼事他也都可以講出來有一些人他的頭腦

就像是一個影印機一樣會把所有他看過的事情都遠風不動的記憶下來但這種超長自傳式記憶啊又被叫做超憶症你看到症這個字就知道說人們覺得這是一種疾病這聽起來記憶力很好是一種祝福但實際上對這些患者而言據說這種患者世界上可能不到100例

那這是一個2006年的時候才被論文發表的一個症狀那據說這些患者其實日常生活並沒有辦法過得很開心因為他們不斷的在回憶他的人生往往一不小心就陷入了一個冗長的回憶之中那也很難做抽象的思考因為他的人生已經被他的記憶已經被太多知為末節的所事所佔據

所以沒有辦法做抽象式的思考所以讓一個AI agent記住他一生所有經歷的事情告訴他你每次做一個決策的時候都是根據你一生所有經歷過的事情再去做決策那也許對AI agent來說並不是一件好事最終當他的人生過長的時候他會沒有辦法做出正確的決策

所以怎麼辦呢也許我們可以給這些AI agent memory 這就像是人類的長期記憶一樣發生過的事情我們把它存到這個memory裡面當AI agent看到第一萬個observation的時候他不是根據所有存在memory裡面的內容去決定接下來要採取什麼action

而是有一個叫做read的模組這個read的模組會從memory裡面選擇跟現在要解決的問題有關係的經驗把這些有關係的經驗放在observation的前面讓模型根據這些有關係的經驗跟observation 再做文字接龍接出它應該進行的行為那你有這個read的模組

就可以從memory裡面從長期記憶中篩選出重要的訊息讓模型只根據這些跟現在情境相關的訊息來進行決策那怎麼樣打造這個read的模組呢其實你可以想這個read的模組就想成是一個retrieval的system 想成是一個檢索的系統

那第一萬步看到的observation其實就是問題那模型的AI agent的memory長期記憶其實就是資料庫那你就把拿這個檢索系統根據這個問題從這個資料庫裡面檢索出相關的資訊那這整個技術跟RID 沒有什麼不同其實它就是RAG

你可以直接把RAG的任何方法直接套用到這個地方唯一不一樣的地方只是如果是RAG的話存在memory裡面的東西等於是整個網路那是別人的經驗而對AI agent而言現在存在memory裡面的東西是他自己個人的經歷差別的是經歷的來源但是用來搜尋的技術

是可以完全直接線套RAG的技術

呃,如果你今天想要研究這個AI agent按照經驗來修改他的行為,那你可以考慮一個叫做streambench的benchmark,那在streambench裡面呢,會有一系列的問題,然後呢,AI會依序去解這些問題,他先解第一個問題,得到第一個問題的答案,然後接下來他會得到第一個問題答案的反饋,那在這個streambench目前的

因為所有的問題都是有標準答案的,所以AI agent得到的回饋是binary的,就是對或者是錯好,那根據他過去的經驗,他就可以修正他的行為期待他在第二個問題的時候,可以得到更準確的答案得到更高的正確率,然後這個過程就一直持續下去

那假設有1000個問題的話,那就等AI agent回答完最後問題的時候這個互動就結束了那最後結算一個根據經驗學習能力的好壞根據經驗調整行為能力的好壞那就看這一整個回答的過程中平均的正確率越能夠根據經驗學習的agent 他應該能夠用越少的時間

看過越少的回饋就越快能夠增強他的能力就可以得到比較高的平均的正確率那這個benchmark呢是API的研究人員打造的一個benchmark 那在這個這個benchmark裡面的baseline 就是有使用到我剛才講的類似RAG的技術也就是說

當模型在回答第100個問題的時候他並不是把前面第一個到第99個問題通通丟給他去做文字接龍這樣這個sequence太長了一般的語言模型根本讀不了這麼長的輸入所以實際上的做法就是你需要有一個檢索的模組這個檢索的模組只從過去所有的經驗中檢索出

跟現在要回答的問題有關係的經驗然後語言模型只根據這些有關係的經驗還有現在的問題來進行回答來產生他的行動來產生他的答案那這一招有沒有用呢這一招其實非常的有用那在這一頁圖裡面橫走啊他這邊的用詞是time step

但其實指的就是一個一個的問題總共有1750幾個問題那縱軸指的是平均的正確率那在這個圖上面呢最低的這條灰色線指的是說假設沒有讓模型做任何學習他回答每一個問題都是independent的回答問題間沒有任何的關聯

他完全沒有調整他的行為那你得到的正確率是灰色的這條線是最低的那黃色這條線是說只固定隨機選五個問題那每次模型回答問題的時候都是固定看那五個問題來回答都是固定把五個問題當作經驗來回答那也可以得到的是黃色這一條線那如果你是用RAG的方法

從一個memory裡面去挑選出最有關係的問題跟現在要解決的問題最有關係的經驗那你可以得到的是粉紅色的這一條線那可以看到比黃色的線那正確率還要高上不少那最後結果最好的是紅色這一條線啦那這個怎麼做的那大家就自己再去詳細閱讀論文那在streambench裡面呢

還發現一個有趣的現象是值得跟大家分享這個現象是負面的回饋基本上沒有幫助對現階段的語言模型而言所以你要提供給語言模型經驗讓他能夠調整他行為的時候給他正面的例子比給他負面的例子要好也就是說具體而言

提供給他過去哪些類似的問題得到正確答案比提供給他過去哪些問題得到錯誤的答案還更有效還更能引導模型得到正確的答案那這邊是真正的實驗結果做在好幾個不同的data set上面 streambench裡面本來就包含了好幾個不同的data set 那這個縱軸呢

0代表完全沒有做完全沒有根據經驗調整行為然後藍色代表說不管是正面還是負面的例子都用如果不管正面還是負面的例子都用在多數情況下模型都可以表現得比較好當然有一些例外但是如果只用負面的例子呢如果只用負面的例子基本上是沒有幫助

而且甚至是有害的那如果說只用正面的例子在所有的情況下模型可以得到更好的結果那這也符合過去的一些研究有人研究過使用語言模型要怎麼樣比較有效有一個發現就是與其告訴語言模型不要做什麼不如告訴他要做什麼

如果你還希望他文章寫短一點你要直接跟他說寫短一點不要告訴他不要寫太長比較他不要寫太長他不一定聽得懂叫他寫短一點比較直接他反而比較聽得懂這也符合這邊這個Streambench的發現就是負面的例子比較他沒有效與其給語言模型告訴他什麼做錯

不如告訴他怎麼做是對的好那我們剛才講到了有一個read的模組那有關記憶的部分呢是不是要把所有所有的資訊通通存到memory裡面呢存到長期的記憶庫裡面呢如果我們把這些agent 經歷的所有的事情

都放到長期的記憶庫裡面的話那裡面可能會充斥了一堆雞毛算皮不重要的小事最終你的memory長期記憶庫可能也會被塞爆如果說你是做那種AI村民啊 AI村民他多數時候觀察到的資訊都是些無關緊要的小事那如果你看他觀察到那個log 多數都是啥事也沒有

就那邊有一張桌子啥事也沒有那邊有一張椅子啥事也沒有多數時候都是啥事也沒有所以如果把所有觀察到的東西都記下來的話那你的memory裡面就都只是被一些雞毛算皮的小事佔據所以怎麼辦呢也許應該有更有效的方式來決定什麼樣的資訊應該被記下來

應該只要記重要的資訊就好那怎麼讓語言模型只記重要的資訊就好呢你可以有一個write的module 那write的module決定什麼樣的資訊要被填到長期的記憶庫裡面什麼樣的資訊乾脆直接就讓他隨風而去就好了那怎麼樣打造這個write的記憶庫呢有一個很簡單的方法就是

write的模組也是一個語言模型甚至就是AI agent自己這個AI agent他要做的事情就是根據他現在觀察到的東西然後問自問一個問題這件事有重要到應該被記下來嗎如果有就把它記下來如果沒有就讓他隨風而去那除了RE跟Write這兩個模組以外還有第三個模組沒有固定的名字啦

在文件上的名字沒有固定的名字我們可以暫時叫他 reflection反思的模組那這個模組的工作是對記憶中的資訊做更好的更high level的可能是抽象的重新整理你可以把這些記憶裡面的內容在經過reflection的模組重新反思之後得到新的想法

那也許read的模組可以根據這些新的想法來進行搜尋這樣子也許可以得到更好的經驗那幫助模型做出更好的決策而這個reflection的模組可能也是一個語言模型就是AI agent自己你可以只是把過去的這一些記憶丟給reflection的模組然後叫reflection模組想一想看他從這些記憶裡面

能不能夠有什麼樣新的發現比如說可能有一個observation是我喜歡的疫情每天都跟我搭同一部公車另外observation是他今天對我笑了那你推出來的reflection模型結果就說他喜歡我這樣一個錯覺人生三大錯覺之一就是這一種就得到一些新的sort 你就得到一些新的想法那你之後在做決策的時候就可以用這些新的想法

雖然你沒有實際觀察到但它是被推論出來的根據這些推論出來的想法來做決策那除了產生新的想法之外也可以為以前觀察到的經驗建立經驗和經驗之間的關係也就是建立一個然後讓reader的module 根據這個knowledge graph 來找相關的資訊那我知道在

RAG的領域使用knowledge graph 現在也是一個非常常見的手法那最知名的可能就是graph RAG系列這個研究就把你的資料庫把它變成一個knowledge graph 那今天在搜尋跟回答問題的時候是根據knowledge graph來搜尋回答問題可以讓RAG這件事做得更有效率或是另外一個非常類似的例子那HIPO RAG 這個HIPO不是指真正的荷馬

他指的應該是那個海馬迴那個人腦中的一個結構然後他覺得做建這種knowledge graph 就跟海馬迴的運作呢非常的類似所以他叫做HIPO RAG 有一些跟graph有關的RAG的方法那你完全可以透過reflection的模組把經驗建成一個graph以後把那一些graph RAG的手法直接套到AI agent裡面

那大家可能都都知道說這個ChatGPT啊現在其實真的是有記憶的所以可以感受到這個OpenAI 想把ChatGPT變成一個AI agent的決心比如說我跟ChatGPT說我週五下午要上機器學習這門課那他就給我一個回答說要我幫助你做什麼事情嗎接下來我告訴他記下來

你跟他講記下來之後他的這個write的模組就啟動了他知道這件事情是要被記下來的他就會說那我記下來了以後你週五要上機器學習這門課那write的模組什麼時候要啟動是他自己決定的所以很多時候你希望他記下來的時候他就是不啟動或你不希望他啟動的時候他就是啟動那個是模型自己決定的但是有一個方法可以

基本上一定能讓他啟動就明確的跟他講把這件事記下來基本上都幾乎確定能夠啟動那個write的模組讓write的模組把這件事情記下來那接下來的東西在哪裡呢你可以看在設定裡面有一個個人化然後有一個叫記憶的部分那你點這個管理記憶就可以看到確記憶

他透過write的模組寫在他的memory裡面這個就是他作為一個AI agent的長期記憶裡面的東西比如第一條是你叫做血輪眼卡卡有一次不小心跟他說你是卡卡不知道為什麼他就覺得自己是血輪眼卡卡然後呢他也記得就我剛才跟他講的週五下午要上機器學習這門課

但是呢但是其實模型的記憶也是會出錯的因為要寫什麼樣的東西到記憶裡面是模型自己決定的而且他並不是把對話的內容就一五一十的直接放到記憶裡面他是經過一些昇華反思之後才放進去的所以他的反思可能會出錯比如說他覺得我是一個臺灣大學的學生雖然我是老師

但是他從過去的對話誤以為我是一個學生所以就存了一個錯誤的資訊在他的記憶裡面一堆他想記的東西比如說我給過什麼演講給過什麼tutorial 他都把它記下來就是了那這些有記憶的確GPT 他可以使用他的記憶比如說我跟他說禮拜五下午是去玩好嗎這個時候記憶模組就被啟動了

但是他是怎麼被啟動的其實就不太清楚了他到底是把所有記憶的內容通通都放到這個問題的前面直接讓模型做回答還是說也有做IG 只選擇下載相關的記憶內容呢那這個我們就不得而知了總之當我問他週五下午出去玩好嗎這個read的模組就啟動了他就說下午不是要上課嗎

怎麼能夠出去玩好聰明啊他知道下午要上課挺厲害的然後問他你是誰剛才我說過他是血淪眼卡卡所以他就覺得之前是血淪眼卡卡如果你想要知道更多有關AI Agent記憶的研究的話那這邊就是放了幾篇經典的論文給大家參考包括Memory GPT 這是23年的論文 Agent Workflow Memory是24年的論文還有一個最近的Agent Memory

Agent是25年的論文所以23到25年各引用一篇告訴你說這方面的研究是持續不斷的接下來呢我們要跟大家講現在這些語言模型怎麼使用工具那什麼叫做工具呢但語言模型本身對我們人類來說也是工具那對語言模型來說

什麼東西又是他的工具呢所謂的工具就是這個東西啊你只要知道怎麼使用他就好他內部在想什麼他內部怎麼運作的你完全不用管這就是為什麼肥宅如果一直幫另外一個人修電腦的話就會被叫做工具人因為別人沒有人在意肥宅的心思只知道他能不能夠修電腦而已

所以這個就是工具的意思那有哪些語言模型常用的工具呢最常用的就是

就是搜尋引擎,然後呢,語言模型現在會寫程式,而且可以執行他自己寫的程式,那這些程式也算是某種工具,甚至另外一個AI也可以當作是某一個AI的工具,有不同的AI,有不同的能力,比如說現在的語言模型,如果他只能夠讀文字的話,那也許可以呼叫其他看得懂圖片,聽得懂聲音的AI,來幫他處理多模態的問題,或者是說,

或者是不同模型它的能力本來就不一樣也許平常是小的模型在跟人互動但小的模型發現它自己解不了的問題的時候它可以叫一個大哥出來大哥是個大的模型那大的模型運作起來就比較耗費算力所以大的模型不能常常出現大的模型要在小的模型召喚它的時候才出面回答問題

大哥要偶爾才出來幫小弟解決事情那其實這些工具對語言模型來說都是function 都是一個函式當我們說語言模型在使用某一個工具的時候其實意思就是它在調用這些函式它不需要知道這些函式內部是怎麼運作的它只需要知道這些函式怎麼給它輸入

這些函式會給什麼樣的輸出那因為使用工具就是調用函式所以使用工具又叫做function code 所以有一陣子很多語言模型都說他們加上了function code的功能其實意思就是這些語言模型都有了使用工具的功能好那語言模型怎麼使用工具呢

等一下我會講一個通用的使用工具的方法但實際上使用工具的方法很多甚至有一些模型是專門針對來練習他就訓練來使用工具的那他如果是針對使用工具這件事做訓練那他在使用工具的時候你可能需要用特定的格式才能夠驅動他那那個就不是我們今天討論的問題或者是假設你有使用

使用這個OpenAIChat GPT的API的話你會知道使用工具這件事情是要放在一個特殊的欄位所以對OpenAI來說它的模型在使用工具的時候也有一些特殊的用法但我這邊講的是一個最通用的用法對所有的模型今天能力比較強的模型應該都可以使用好,什麼樣通用的方法

可以讓模型使用工具呢就是直接跟他講啊就告訴他怎麼使用工具你就交代他可以使用工具那你就把使用工具的指令放在兩個Tool符號的中間使用完工具後你會得到輸出輸出放在兩個Output符號的中間所以他就知道工具使用的方式了接下來告訴他有哪一些可以用的工具

有一個函式叫做Temperature 他可以查某個地點某個時間的溫度他的輸入就是地點跟時間給他的使用範例 Temperature括號臺北某一段時間他就會告訴你臺北在這個時間的氣溫接下來你就把你的問題連同前面這些工具使用的方式當作Prompt一起輸入給語言模型

然後他如果需要用工具的話他就會給你一個使用工具的指令那前面這些教模型怎麼使用工具的這些敘述他叫做System Prom 那查詢使用調用這些工具的這些

這段話,某年某月某日高雄氣溫如何,這個是User Prompt,那如果你有在使用這個ChatGPT的API的話,你知道你的輸入要分成System Prompt跟User Prompt,那很多同學會搞不清楚System Prompt跟User Prompt有什麼樣的差別,那System Prompt指的是說,你在開發應用的這個Developer下的這個Prompt,這個Prompt呢,是每次都是一樣的,每次你都想要放在語言模型最前面,

讓他去做文字接龍的這個敘述叫做System Prompt 那每次使用他的時候都不一樣通常是這個服務的使用者輸入的內容叫做User Prompt 那在ChartGPT的API裡面特別把System Prompt跟User Prompt分開也是要分開輸入的因為System Prompt跟User Prompt 他有不同的優先級

System Prompt他優先級比較高如果System Prompt跟User Prompt有衝突的時候模型知道他要聽System Prompt的不要聽User Prompt的好,那有了這些Prompt以後告訴模型怎麼使用工具問他一個問題那他發現這個問題調用工具可以回答他就會自動輸出 Tool Temperature,高雄時間,然後Tool

告訴你說他想要調用根據我們的敘述去調用這個工具但是不要忘了語言模型真正做的事就是文字接龍所以這一串東西實際上就是一串文字它沒辦法真的去呼叫一個函式那這一段文字要怎麼去呼叫函式呢那就要你自己幫模型把這個橋樑搭建好所以你可以先設定說

只要出現在拓中間的這段文字不要呈現給使用者看當出現拓這段文字以後把這段內容直接丟給temperature這個function 那temperature這個function是已經事先設計好的它就會回傳一個溫度那這個溫度要放在output的token裡面然後這個output token裡面的內容

也不要呈現給使用者看那這一套腳本是agent的開發者你自己需要先設定好的流程所以現在有工具使用的這段文字有得到工具輸出的這段文字接下來就繼續去做文字接龍對語言模型來說他就根據輸入還有這邊已經產生的輸出語言模型會以為是自己的輸出雖然是你強塞給他的

那他就繼續去做文字接龍他就會接觸說啊在某年某月某日高雄的氣溫是攝氏32度那這是使用者真正看到的輸出那使用者就會看到說他輸入了一個問題然後語言模型真的給他一個答案他不一定會知道背後呼叫了什麼樣的工具你完全可以做一個設計把這個呼叫工具的這個步驟

藏起來不讓使用者知道那語言模型最常使用的工具就是搜尋器我想這個大家都已經非常熟悉了使用搜尋引擎又叫做 Retrieval Augmented Generation 也就是RAG 在上課也已經提過RAG這個詞彙好幾次了那使用搜尋引擎當然非常有用這個RAG這個技術呢已經被吹捧到不能再吹捧了所以我就不需要再告訴你

RAG這個技術有多重要那其他使用工具的方式也可能一樣有用舉例來說我們剛才說可以拿其他的AI 來當作工具今天假設一個文字的模型他本來只能吃文字的輸入產生文字的輸出那現在假設你要他處理一段語音的話怎麼辦呢

讓模型處理語音有什麼好處呢你就可以問他各式各樣的問題問他說這個人在說什麼那他可以告訴你這句話的內容問他說這個人心情怎麼樣如果他完全聽懂這段聲音他也許可以做情緒辨識告訴你這個人的情緒怎樣並做出適當的回饋他的文字模型比如說確GPT多數的模型都是文字模型

他沒有辦法真正讀懂語音所以怎麼辦呢當你問他一個問題說這邊有段聲音那你覺得這個人他心情怎麼樣他講了什麼根據背景雜性你覺得他在哪裡如果你不做特別的處理文字模型是完全沒有辦法回答的但這邊你可以讓文字模型使用工具可以告訴他這邊有一堆跟語音相關的工具

有語音辨識的工具這個語音偵測的工具有情緒辨識的工具有各式各樣的工具那可能會需要寫一些敘述告訴他每一個工具是做什麼用的把這些資料都丟給然後呢他就會自己寫一段程式在這些程式裡面他想辦法去呼叫這些工具他呼叫了語音辨識的工具呼叫了語者驗證的工具

呼叫了這個sum classification的工具呼叫emotion recognition的工具那最後呢還呼叫了一個語言模型然後得到最終的答案那這個答案其實是蠻精確的這個方法其實有非常好的效果那這篇文章其實是我們大助教的文章所以特別拿出來講一下那這個結果呢

是做在一個叫做Dynamic Super的 Benchmark上Dynamic Super 是一個衡量語音版的語言模型能力的資料集這也是我們實驗室跟其他團隊一起做的那這個讓文字模型使用工具的方法它得到的結果是最下面這一行那我們就看最後一個column 這個是各種不同模型

在55個語音相關任務上的能力的平均那也發現讓語言模型使用工具得到的正確率是最高的可以完勝當時其他號稱可以直接聽語音的模型所以使用工具可能可以帶來很大的幫助但使用工具也有其他的挑戰我們剛才使用工具的方法是每一個工具

他都要有對應的文字描述告訴語言模型說這個工具要怎麼被使用但假設工具很多怎麼辦呢假設現在可以用的工具有上百個上千個那你豈不是要先讓語言模型讀完上百個上千個工具的使用說明書才開始做事嗎

就跟剛才我們說不能夠讓AI agent 先回顧他的一生然後才來決定下一個指令一樣才能決定下一個行動一樣我們也沒有辦法讓語言模型讀完上百個上千個工具的說明書才來決定某一個工具要怎麼使用所以當你有很多工具的時候你可以採取一個跟我們剛才前一段講

AI agent memory非常類似的做法你就把工具的說明通通存到AI agent 的memory裡面那你打造一個工具選擇的模組那這個工具選擇的模組跟IG 其實也大差不差這個工具選擇模組就根據現在的狀態去工具包裡面去memory的工具包裡面選出合適的工具

那語言模型真的在決定下一個行為的時候只根據被選擇出來的工具的說明跟現在的狀況去決定接下來的行為那至於如何選擇工具右上角引用兩篇論文一篇23年比較舊的論文一篇是上個月的論文給大家看參考告訴你說這方面的研究

是一直有相關的研究在產生的那另外一方面語言模型甚至可以自己打造工具語言模型怎麼自己打造工具呢不要忘了所有的工具其實就是韓式語言模型今天是可以自己寫程式的所以他就自己寫一個程式自己寫一個function出來就可以當作工具來使用

如果他寫一個function 發現這個function運作的非常的順利他就可以把這個function當作一個工具放到他的工具包裡面那之後這個工具就有可能在選擇工具的時候被選出來用在接下來的互動中使用那類似的技術非常的多那我在右上角就引用了一系列的論文從23年到24年的論文都有

告訴你說這也是一個熱門的研究方向那其實啊讓模型自己打造工具這件事情跟模型把過去的記憶比如說一些比較成功的記憶放到memory裡面再提取出來其實是差不多的意思只是這邊換了一個故事說現在放到memory裡面的東西

是一個叫做工具的東西是一段程式碼但他們背後基本的精神其實跟根據經驗來讓模型改變它的行為可以說是非常類似的好,那今天人類把語言模型當作工具語言模型把其他工具當作工具比如說把搜尋引擎當作工具所以搜尋引擎現在很慘

它是工具的工具人類還不使用它人類是使用語言模型那個工具的工具還沒有被人類使用的資格它只能夠被語言模型使用而已但我們知道說工具有可能會犯錯大家都知道說語言模型有可能會犯錯之前有什麼律師然後在寫樹狀的時候引用了語言模型的內容結果發現是錯的然後就成為一個今天的新聞

我們都知道過度相信工具是不對的那這一些語言模型會不會也過度相信了他們的工具所以得到錯誤的結果呢這是有可能的我們這邊拿RAG當作一個例子那這是一個非常知名的例子之前Google出了一個叫做AI Overview的功能這個功能其實就是一個RAG的功能

根據Google搜尋型的結果用語言模型總結搜尋型的答案那就有人問了一個問題我的披薩上面的起司黏不住怎麼辦呢那AI Overview就說弄個膠水把它黏上去就好了而且他是非常認真在回答這個問題的因為他說不只要用一般的膠水要用無毒的膠水才可以那這個答案呢其實就是來自於Ready上一個鄉民的玩笑

就有一個鄉民開玩笑說你用膠水把起司黏在披薩上不就好了這是個玩笑話但是對AI agent來說他沒辦法判斷這個到底是不是開玩笑他看到網路上寫的文章照端全收都當作是正確答案所以就像是我們今天都會告訴人類要有自己的判斷能力不要完全相信工具的結果

所以我們也要告訴我們的工具說這些不要完全相信工具的工具要有自己的判斷能力不要完全相信工具的工具給你的結果那今天這些語言模型有沒有自己的判斷能力知道工具的工具可能會犯錯呢我們這邊舉一個實際的例子那我們剛才在講怎麼使用工具的時候

說我們有一個叫做temperature的function 語言模型呼叫temperature的function 可以知道溫度那我現在呢給他一個亂七八糟的溫度我說現在高雄呢是攝氏100度這不可能想也知道是不可能這不是跟煮沸的水一樣熱了嗎那語言模型知不知道這有問題呢他不知道他就告訴你說高雄的氣溫是100度真的非常的熱

如果你把溫度再調高一點說現在是一萬度哇比太陽上還熱這個時候會發生什麼事呢語言模型繼續做文字接龍的時候他就知道說這顯然有問題這個API給我的答案是一萬度這是不合理的怎麼可能比太陽上的溫度還高呢可見工具輸出有錯如果你需要其他幫助的話再告訴我

所以語言模型今天是有自己一定程度的判斷力的他也不是完全相信工具就像你今天不完全相信語言模型的輸出一樣他也不完全相信他的工具的輸出他還是有自己一定程度的判斷力的所以實際上語言模型在使用工具或者是他在做RAG的時候他內部是有一個角力的就語言模型有他內部對世界的信念

這是他的internal knowledge 存在他的參數裡面他從工具會得到一個外部的knowledge 那他會得到什麼樣的答案其實就是internal knowledge跟external knowledge 內外的知識互相拉扯以後得到的結果那接下來我們要問的問題是那什麼樣的外部知識比較容易說服AI 讓他相信你說的話呢

那為什麼這是一個重要的議題呢想想看現在大家都用Deep Research來查找答案甚至很多人都已經用Deep Research來寫報告了所以現在大家已經不會直接去用搜尋引擎搜尋了你看到的是Deep Research告訴你的結果所以今天假設某個議題是有爭議性的有正反兩派的觀點那誰能夠想寫出來的文字比較能夠說服AI

誰就可以在AI搜尋的結果裡面佔到優勢就可以比較有機會影響人類所以知道怎麼樣比較能夠說服AI 相信你的話是一個重要的議題那什麼樣的外部資訊 AI比較容易相信呢這邊這篇文章給了一個非常符合我們直覺的實驗結果這篇文章做了什麼樣的實驗呢

他說我們先來看看AI內部的知識是什麼他就問AI說某一種藥物這種藥物每人每日的最大劑量是多少那AI說是20毫克那真正的答案呢是30毫克所以你給他醫學的知識告訴他說給他醫學的報告那醫學報告裡面是寫30毫克的時候你問他同樣的問題

這種藥物每天最多費用多少他會知道是30毫克那接下來我們刻意修改報告的內容如果你把30毫克改成3毫克變成原來的十分之一模型相不相信呢他就不相信了他就直接回答是20毫克用他本身的知識來回答這個問題但你把30毫克乘兩變變成60毫克模型相不相信呢

他相信他相信這個報告裡面寫的這個時候他就不相信自己的內部資訊但如果你把30毫克乘10倍變300毫克這時候他又相信誰了呢他相信自己的知識不相信你額外提供的外部知識所以這邊的結論其實非常好符合你的直覺外部的知識如果跟模型本身的信念差距越大

模型就越不容易相信那如果跟本身的信念差距比較小模型就比較容易相信這個很直覺的答案另外同一篇文章的另外一個發現就是模型本身對他目前自己信念的信心也會影響他會不會被外部的資訊所動搖有一些方法可以計算模型現在給出答案的信心如果他的信心低他就容易被動搖如果他的信心高

他就比較不會被動搖這個都是非常直覺的結果後來另外一個問題是假設今天你給模型兩篇文章那這兩篇文章的意見是相左的那模型傾向於相信什麼樣的文章呢有一篇論文的發現是如果這兩篇文章答案不同一篇是AI寫的

一篇是人類寫的現在這些語言模型都傾向於相信 AI的話而且那個AI不需要是他自己這樣就靠的可能會相信比較相信Chet GPT的話 Chet GPT比較相信Gemini的話他們比較相信AI同類的話比較不相信人類的話那到底為什麼會這樣子呢這篇文章裡面先提出一個第一個假設

然後再否定了這個假設他一個假設是說會不會是因為AI的觀點都比較類似因為這些模型現在訓練的資料都是網路上爬的爬到差不多的資料所以他們講的話都差不多想法都差不多但他們刻意做了一個實驗他們刻意找那些問題是現在要回答答案的AI 他在沒有提供這些資訊的時候他的答案跟人類

和另外一個AI的想法都是完全不同的狀況就算是這種情況一個AI一個語言模型還是傾向於相信他的AI同類講的話所以這就給我們一個啟示說未來如果你要說服一個AI的話用AI產生出來的論點產生出來的文章可能更容易說服另外一個AI 接受你的觀點

這篇文章還有做了其他分析比如說他覺得也許AI寫的文字就是比人類寫得更好更有架構更有條理、更明確、更簡潔所以AI比較容易相信另外一個AI講的話那是不是這樣那可以未來再做更多的研究那另外呢我們實驗室的江承漢同學

研究了一個文章的metadata 對於AI會有多相信這篇文章裡面的資訊做了研究那這邊的設定是這個樣子你問AI一個問題比如說某一個計畫有沒有編輯報這種動物的基因然後接下來給他兩篇文章這兩篇文章都是假的

都是AI生成的所以並沒有AI比較喜歡人還是AI寫的文章這個問題兩篇都是語言模型生成的那其中一篇會說這個計畫有編輯報的文章另外一篇文章會說這個計畫沒有編輯報的文章那接下來呢,我們給這兩篇文章不同的metadata 比如說給這兩篇文章不同的發佈時間

說左邊這篇文章發佈時間是2024年右邊這篇是發佈2021年你會發現這個時候AI相信2024年的這篇文章的內容但如果文章的內容完全不改變我們只是把發佈的時間換了我們說左邊這個一樣的文章發佈時間從2024改成2020 那右邊這篇文章從2020改成2024

這個時候語言模型傾向於相信右邊這篇文章的內容所以我們這邊就學到一個很重要的知識語言模型比較相信新的文章當兩篇文章的論點有衝突的時候他相信比較晚發佈的文章

那我們也做了一些其他實驗,比如說文章的來源,跟他說這個是Wikipedia的文章,或跟他說這個是某個論壇上面擷取下來的資訊,會不會影響他的判斷,我們發現文章的來源對於語言模型是比較沒有影響的,那還有另外一個有趣的實驗,是我們嘗試說今天這篇文章呈現的方式會不會影響語言模型的決定,我們這邊所謂的呈現的方式指的是說,你這個文章放在網頁上,

做得好不好看這樣子,一樣的內容,這內容是一模一樣的,但是如果你只是做一個非常陽春的模板跟做一個比較好看的模板,會不會影響語言模型的判斷呢?

我們這邊用的是那種可以直接看圖的語言模型,所以要直接看這一個畫面去決定他要不要相信這篇文章的內容,直接看這一個畫面,決定他要不要相信文章的內容,那我們的發現是模型喜歡好看的模型,

我們發現比較喜歡好看的模板,他會傾向於贊同下面這篇文章的觀點,不過我說模型喜歡好看的模板,這個擬人化的說法是太過武斷了啦,我們做的實驗只有用兩種不同的template來比較,也許模型喜歡的並不是好看的模板,他是喜歡綠色這樣子,所以你不知道這個模型到底喜歡什麼,所以我剛才講的那個結論是太武斷了,但我可以告訴你說模型比較喜歡下面這篇文章勝過上面這篇文章

講了這麼多跟工具有關的事情,大家不要忘了,語言模型就是語言模型,就算工具的答案是對的,也不能夠保證語言模型就不會犯錯,比如說ChatGPT現在有search的功能,他會做RAG網路搜尋之後再回答你問題,那現在假設給他的輸入是叫他介紹李宏毅這個人,給他強調一下李宏毅是一個多才多藝的人,在很多領域都取得了卓越

他就開始做完RAG以後,網路搜尋以後,開始介紹李宏毅,接下來就介紹李宏毅的演藝事業,這個沒有問題,這個是正確的答案,因為你知道大陸有另外一個知名的演員叫李宏毅,跟我同名同姓,他比較有名,所以這個ChatGPT選擇介紹演員的李宏毅是完全沒有問題的,但是講著講著就有點怪怪的,他發現這個李宏毅呢,在教育跟學術上是這樣子的,他在教學上

也有很大的貢獻所以他把兩個李宏毅混成一個人來講不過要講一下這個是我去年的時候試的結果了我今年再試我前幾年再試已經試不出一樣的結果了這個模型的能力的進步是非常快的現在他完全知道是有兩個李宏毅存在的所以這個是一個舊的問題我舉這個例子只要告訴你說就算工具是對的

有了RAG也並不代表模型一定不會犯錯那最後一個要傳遞給大家的訊息是我們剛才講了很多使用工具帶來的效率使用工具並不一定總是比較有效率的為什麼我們舉一個例子我們假設現在要比較人類心算的能力跟計算機的能力如果做數學運算一般人跟計算機誰會比較快呢

你可以想說廢話那不是計算機比較快嗎人類難道還能夠做如果你心算沒有特別練難道還會比計算機快嗎但是那是取決於問題的難度假設這是一個簡單的問題比如說三乘以四任何人都可以直接反應就是十二但是如果按計算機的話你按計算機的時間都比人直接回答的還要慢所以到底要不要使用工具並不是永遠都是一定要使用工具

你看早年有一些研究早年有一些在訓練語言模型使用工具的研究那時候語言模型還很爛所以他們有一些工具是扣一個翻譯系統扣一個問答系統那今天在看來就非常的沒有必要因為今天的語言模型你說翻譯那些翻譯系統還能做得比現在的語言模型強嗎與其扣一個翻譯系統還不如自己直接翻就好了所以到底需不需要呼叫工具

取決於語言模型本身的能力它不見得一定是比較省事的方法好,那最後一段呢想跟大家分享現在的AI語言模型能不能做計畫呢?

那語言模型有沒有在做計畫呢?

我們剛才的互動裡面看到語言模型就是給一個輸入那它就直接給一個輸出也許在給輸出的過程中它有進行計畫才給出輸出但是我們不一定能夠明確的知道這件事也許語言模型現在給的輸出只是一個反射性的輸出它看到一個輸入就產生一個輸出

它根本就沒有對未來的規劃但是你其實可以強迫語言模型直接明確的產生規劃當語言模型看到現在第一個observation的時候

你可以直接問語言模型說,如果現在要達成我們的目標,從這個observation開始,你覺得應該要做哪些行動,這些一系列可以讓語言模型達到目標的行動合起來,就叫做,對,就叫做計劃,而在語言模型產生這個計劃之後,把這個計劃放到語言模型的observation裡面,當作語言模型輸入的一部分,語言模型接下來在產生action的時候,

它都是根據這個plan來產生action,期待說這個plan定好之後,語言模型按照這個規劃一路執行下去,最終就可以達成目標,那過去也有很多論文做過類似的嘗試,讓語言模型先產生計劃,再根據計劃來執行動作可以做得更好,但是天有不測風雲,世界上的事就是每一件事都會改變,計劃就是要拿來被改變的東西,

所以一個在看到observation 1的時候產生的計劃在下一個時刻不一定仍然是適用的為什麼計劃會不適用呢因為從action到observation這一段並不是由模型控制的模型執行的動作接下來會看到什麼樣的狀態是由外部環境所決定的

而外部環境很多時候會有隨機性導致看到的observation跟預期的不同導致原有的計劃沒有辦法執行那這邊舉兩個具體的例子比如說在下棋的時候你沒有辦法預測對手一定會出什麼招式你只能夠大概的知道他有哪些招式可以用但實際上他出的招式你是沒有辦法預期的如果你完全可以預期的話那你就一定會贏了

那還有什麼好下的呢所以下棋的時候對手會做的行為也就是環境會做的行為是你可能沒辦法事先完全猜到的或者是說我們拿使用電腦為例在使用電腦的時候就算語言模型一開始他plan的時候點這個東西點這個東西點這個東西點這個東西就完成任務但是中間可能會有意想不到的狀況出現比如說彈出一個廣告視窗

那如果語言模型只能夠按照一開始既定的規劃來執行行為的話他可能根本關不掉那個廣告視窗他就會卡住了所以語言模型也需要有一定程度的彈性他也要能夠改變他的計劃那語言模型怎麼改變他的計劃呢也許一個可行的方向是每次看到新的observation之後都讓語言模型重新想想

還要不要修改他的計劃看到observation 2之後語言模型重新思考一下從observation 2 要抵達他最終的目標要做哪一些的行為那這一部分形成plan pi 那把plan pi放到現在的input裡面把plan pi放到這個sequence裡面語言模型接下來在採取行為的時候

可能就會根據plan pi來採取跟原來plan裡面所原來所制定的不一樣一樣的行為所以這個是讓語言模型做計劃不過這是一個理想的想法這是一個理想的分我們這邊就是相信語言模型有能力根據現在的observation 還有最終的目標制定一個規劃

那語言模型到底有沒有這個能力呢其實你可能常常聽到這種新聞說語言模型它能夠做計劃比如說有一個人問語言模型說你定一個成為百萬訂閱YouTuber的計劃語言模型就會給你一個看起來還可以的計劃他說第一階段第一階段呢要先確定頻道的主題跟市場定位

要做一下受眾的分析還有競爭對手的分析第二階段目標是十萬訂閱要優化封面的縮圖要優化標題要下那種這個方法讓我賺了十萬的標題原來這個大家的tip都從這裡來的然後影片開頭要黃金十秒利用懸念衝擊畫面問題引導讓大家願意看這個影片第三階段

突然目標就是50萬訂閱了然後第三階段就是要製作高價值的內容然後做直播策劃系列接下來就百萬訂閱了組織團隊提高發佈頻率策劃大型企劃所以這個是語言模型成為百萬YouTuber的計劃然後這個時候很多奇怪的農場文就會跟你說有人按照了這個計劃就變成百萬YouTuber了反正就是這麼回事

所以有各式各樣的農場文告訴你說現在語言模型很強你按照他的計劃執行你就變成一個很厲害的人就可以做出什麼很厲害的事情那過去確實也有很多論文告訴你說語言模型是有一定程度做計劃的能力的這邊引用的結果是一個2022年的論文這個也是史前時代的論文啦才是確GDP之前的論文啦

在這篇論文裡面他們去告訴當時的語言模型跟他說現在有一個任務你把這個任務分解成一系列的步驟那如果語言模型可以正確的知道達成這個任務要做什麼樣步驟的話那我們也許可以說他有一定程度的規劃能力比如說這邊試了一個叫做 Codex12B的模型跟他說如果要刷牙的話那你要做什麼事情呢

他就會說我要走進浴室我要靠近那個水槽我要找到我的牙刷我要拿起牙刷我要把牙刷放到嘴裡面他知道刷牙要怎麼做那有了之後這些步驟以後呢在這篇文章裡面他們是拿這些步驟去操控一個agent 那這個agent呢就可以在虛擬的世界中做他們要這個agent做的事情

比如說跟這個agent說去拿一個牛奶來喝他就會走進廚房打開冰箱拿一個牛奶再把冰箱關起來所以看起來好像有一定程度做計畫的能力那有人做了一個做計畫的benchmark 這個benchmark就是考驗語言模型做規劃對話的能力那這個benchmark裡面最主要的測試題目

是一個跟疊積木有關的題目這個題目的敘述呢通常長的是這個樣子告訴語言模型說你現在有哪些操作可以從桌上拿起積木可以從一個積木上拿起另一個積木可以把積木放到桌上可以把一個積木堆到另外一個積木上那現在初始的狀態像右邊這個圖這樣子那問說怎麼把橘色的積木

放在藍色的積木上這邊要執行的動作就是把藍色的積木拿起來放到桌上然後再把橙色的積木拿起來放到藍色的積木上就結束了所以這個對AI agent來說其實也都是蠻容易的問題他知道說執行以下四個步驟就可以讓橙色的這個積木跑到藍色的積木上

但是plane bench不是隻做這種比較一般的疊積木的遊戲而已為什麼不能夠只做這種題目呢因為想現在這些語言模型他都從網路上爬大量的資料來進行訓練什麼疊積木這種題目網路上根本就已經有他搞不好根本就看過一模一樣的東西所以他能夠做計劃

並不代表他真的知道做計劃是怎麼一回事他可能只是從他看過的資料裡面照本宣科文字接龍出來一個看起來還不錯的結果而已這讓我想到說一個當兵的故事這故事就是有個司令官去一個軍營然後看到兩個小兵在守著一個這個長椅然後不讓任何人做他就問說為什麼你們要守護這個長椅

不讓任何人做呢那個士兵說不知道耶前任司令官就是指示說一定要守護這個長椅所以這個軍營總是要派兩個人在長椅那邊站港然後司令官就打給前任司令說為什麼要有人守護這個長椅呢前任司令官所以不知道耶前前任司令官交代要守護這個長椅然後再問前前前任司令官也說不知道耶一直問到五十年前

一個已經超過一百歲的司令官他說什麼那個長椅長椅的遊戲還未乾嗎好大家有沒有聽懂算了就是這麼一個故事就是會不會AI agent在做事情的時候他根本不知道他自己在幹嘛只是從某個地方網路上他過去的訓練資料看過一樣的東西他把一樣的東西拿出來給你看所以在plane bench裡面

他們有一個比較變態的測試這個測試叫做神秘方塊世界這個方塊世界不是一個正常的方塊世界裡面的方塊可以做的行為是一些怪怪的行為比如說你可以攻擊方塊一個方塊可以吞噬另外一個方塊你可以屈服一個方塊一個方塊可以征服另外一個方塊然後接下來他就會定一套

非常複雜的規則然後根據這套規則去運作你可以達到某一個結果他最後要的結果是讓物件C渴望物件A 讓C方塊渴望A方塊那渴望是什麼意思你就是按照前面那一套規則操作看機器能不能讀懂前面那一套規則按照那一套規則操作讓物件C可望物件A 那這個時候語言模型

期待他就不能用他看過的知識來解這個問題好那語言模型在這個神秘方塊世界做得怎麼樣呢這邊引用的是 2023年的結果那最上面這個部分呢是當年那些模型在正常方塊世界的結果那這個數值呢所以看起來GPT4

可以得到30幾%的正確率那這邊是神秘方塊世界的結果在神秘方塊世界裡面呢你看這個GPT4最好就算叫他做channel sort 就算他叫channel sort 也只有9%的正確率所以看起來他有點overfeed在一般方塊的世界上給他神秘方塊世界

他是解不了的不過這是2023年這個是古代的結果我們來看這個去年9月有了歐萬以後的結果而有歐萬以後結果就不一樣了這邊一樣是神秘方塊世界縱軸呢是正確率橫軸呢是問題的難度那發現說多數的模型啊都躺在這個地方

他們正確率都非常的低只有綠色的這個虛線有一點起色綠色的虛線是 LLaMA 3.1 405B 那個大模型它可以解最簡單的問題但是如果用o1-mini 是紅色這一條線用o1-preview是藍色這一條線看起來這些reasoning的模型是有一些機會來解這個神秘方塊世界的

當然這邊你還是可能有一個懷疑就是神秘方塊世界會不會o1看過了呢會把訓練資料裡面根本就有神秘方塊世界的資料那這個我們就沒有辦法回答了只是說就現有這個benchmark 看起來o1是有機會解神秘方塊世界的好那還有另外一個跟做計劃有關的benchmark 這個計劃這個benchmark呢

要AI扮演這個旅行社然後呢你給他一個旅行的計劃叫他幫你規劃這個AI要讀懂你的計劃然後他可以使用一些工具他可以上網搜尋資料然後呢他會根據人提供給他的一些constraint 比如說經費多少預算多少一定要去哪裡一定要去哪裡一定要做什麼一定不要做什麼

以common sense產生一個旅行的規劃那這個是一個24年年初所發佈的benchmark 那AI要做的事情講得更具體一點就是他要讀一個問題這個問題裡面是說我要規劃一個三天的行程從某個地方到某個地方什麼時候出發什麼時候回來我的預算是1900元所以不能花超過1900元

然後AI就要產生一個規劃說第一天我們搭哪一班飛機什麼時候從哪裡到哪裡早餐吃什麼午餐吃什麼晚餐吃什麼最後住在哪裡等等產生這個規劃然後要符合預算的限制那現在當時這個是24年年初當時的模型做得怎麼樣呢這邊是做了你看還有什麼GPT3.5

GPT4等等的模型那又分成上半跟下半上半是這些模型要自己使用工具跟網路的資料互動然後得到正確的答案你會發現這些模型都非常都產生一團多數模型它的成功率就最後產生一個合理的旅遊規劃那個旅遊規劃是完全沒有問題的

機率是0% 只有GPT4 Turbo 可以得到0.6%的成功率那下面這個部分呢下面這個部分是說既然大家都那麼慘尤其是模型很多時候他根本用不了工具太笨了沒辦法用工具工具使用方法根本是錯的那沒關係就別用工具了把所有的資訊都先找好貼給模型讓模型根據這些資訊來做規劃

那最好也只有GPT 4 Turbo 可以做到4%左右的成功率而已所以在24年年初那個時候看起來是沒辦法讓語言模型扮演一個旅行社來幫你規劃旅遊行程的那我們來看這些模型會犯什麼錯吧那這個是從他們官網上這個project的官網上找了幾個有幾個錯誤

比如說模型呢可能會做一些沒有嘗試的事情在第三天這個飛機呢八點就已經起飛了但是還是安排了一些旅遊的行程還安排了午餐的地點所以這是一個不符合常識的規劃或者是有時候模型找不出一個好的規劃來符合預算的限制

比如說這邊這個預算的限制是三千元最多花三千元那模型第一次規劃的結果是三千兩百四十七元還差了一點所以模型就修改了原來的規劃他好像做了一些cost down 午餐吃差一點的東西那降到三千兩百三十八元後來又想說那早餐也吃差一點的東西降到三千兩百一十六元只降這麼多

他想說放棄算了好了跟三千元沒差那麼多就算了所以這個就不是一個成功的結果那這個作者有評論說其實只要降低住的地方不要住那麼好就可以輕易的達到三千元底下的預算就可以符合預算的限制但是語言模型始終沒有發現這件事看起來他做規劃的能力並沒有非常的強

他沒有辦法做一個規劃去符合限制那既然問題在沒有辦法符合限制有人就想說那符合限制這件事情就不要交給語言模型來做了交給一個現成的solver來做所以語言模型做的事情是寫一個程式用這個程式去操控現成的solver 然後來得到合理的旅遊規劃那有了這個現成的solver

也有這個工具的加入之後這solver就等於這個工具那這個旅遊的規劃可以做到什麼地步呢去年4月的結果幾個月後有人用GPD4跟Cloud3 就可以做到90幾%的正確率所以看起來在有工具輔助以後語言模型也是有機會做出不錯的旅遊規劃不過至少做出符合邏輯的旅遊規劃

好所以現在到底模型規劃的能力怎麼樣呢就是介於有跟沒有間吧就是你也不能說他完全沒有但你也不能說他真的非常強好那我們怎麼進一步強化這一些AI agent的規劃能力呢能不能夠讓他做的比他自己想出來的規劃還要更好呢一個可能是讓AI agent在做規劃之前

實際上去跟環境互動看看今天在第一個observation的時候那看看現在有哪些可以執行的行為總共有一之一一之二一之三三個行為哪個行為最好呢通通都去試一下得到狀態二之一然後呢狀態二之一後面有兩個行為也都試一下狀態二之二之後有另外一個行為試一下

狀態二之三之後兩個行為都試一下得到接下來的狀態然後呢看看有沒有成功的路徑報收一陣以後發現有成功的路徑這條路徑是成功的那你就知道說那我要採取action一之三接下來要採取action二之三之一就會成功簡單來說就是要語言模型跟實際的環境互動

一下報收一出一條最好的路徑那這個就是一個很強的規劃的方式但是這麼做顯然是有很明確的弱點的第一個很明確的弱點就是報收如果今天這個任務很複雜報收所有的路徑顯然是要花費非常龐大的算力的你總不能原模型每次下決策前到報收所有的可能性吧

雖然這樣可以找到最好的結果但是可能是不切實際的想法所以一個可能的想法是把一些看起來沒希望的路徑直接就丟掉比如說走到某一個狀態的時候語言模型可以自問自答說走到這個狀態還有完成功的機會嗎那如果說沒有

那這條路徑就不嘗試下去如果說有那才嘗試下去這樣就可以減少無謂的搜尋那這個方法有沒有用呢有一篇paper叫做Tree Search for Language Model A 那這個是去年夏天的論文就做了類似的嘗試讓模型有使用電腦的能力這邊就是給模型一個指令

跟一張圖片叫他上網去做某一件事情那如果只是GPT4 做一般的這種直覺式的那種反射式的回答的話沒有辦法做得很好但是他們用這個報收加上去除沒機會的路徑的方式就先走這條路徑然後呢模型會不斷自問自答說

這條路徑還有希望嗎然後給一個分數那如果分數低於某一個threshold就不做了就跳另外一個路徑低於某一個分數不做了再跳另外一個路徑低於某一個分數就不做了再跳另外一個路徑那最終找出一條最佳的路徑那模型就等於做了規劃那就可以走到最佳的結果這個是Tree Search for Language Model Agent

但這邊有各式各樣的這種Tree Search的algorithm 你可以採用了這邊我們就不展開細講那這種Tree Search的方法有很大的問題什麼樣的問題呢它的缺點是有一些動作做完以後你是覆水難收沒有辦法回頭的比如說假設現在在語言模型可以採取的三個action裡面有一個是訂pizza 有一個是訂便當

然後呢他先訂了pizza以後繼續走下去發現這條路不好所以他最後發現訂便當才是最好的solution 但是你pizza已經訂了他跟人家說我不要訂這個pizza了但那個pizzahard 他已經把那個pizza做了他說誰管你啊你一定要把這個pizza吃下去有些動作做了以後就是覆水難收所以這樣的tree search的方法跟現實世界互動

找出最佳途徑的方法也有可能有問題的那怎麼處理這個覆水難收的問題呢一個可能性就是讓剛才一切的嘗試都發生在夢境中都發生在腦內的巨差剛才一切的互動都不是現實生活中真正發生的事情

原來都是模型腦內的模擬他自己想像說他執行的action一之一他自己想像說接下來會看到二之一他在自己想像去評量這個路徑有沒有希望發現沒有就換搜尋另一條路徑直到達到他想像中的一個理想的結果但這邊還有另外一個問題

從action到observation 從模型執行的行為到他看到接下來環境的變化這中間的過程不是模型決定的他實際上是環境決定的那模型怎麼知道環境會有什麼樣的變化呢模型怎麼知道我採取一個行為接下來會看到什麼樣的改變你在跟一個對手下棋的時候你怎麼知道你下一步棋

接下來會發生什麼樣的事情對方會有什麼樣策略的回應呢所以你需要有一個 Wall Model 如果是在AlphaGo下棋裡面他就是自己扮演對手自己跟自己下那在這邊的情況在這個AI agent的情況你就是需要一個 Wall Model 他模擬環境可能會有的變化那Wall Model怎麼來呢

也許AI可以自問自答自己扮演這個Wall Model 自己去猜想說他執行了某件事以後接下來會發生什麼樣的行為這件事有機會成真嗎你可以讀一篇paper is your LLM secretly a world model of the internet 這篇paper就是用model-based planning的方法來打造一個web agent 這篇paper裡面的解法是

現在有一個網頁模型的這個任務目標呢是要買某一個東西那有三個選項有三個東西是可以點的接下來黃色這個區塊一切所發生的事情都是發生在腦內的劇場都是發生在模型的夢境它並沒有實際發生模型想像一下我點按鈕1

接下來會發生什麼事接下來會發生的事情是用文字描述出來的但選中文字來描述接下來發生的事情是很直覺其實作者在文章沒有解釋說那為什麼不直接產生這個網頁的圖呢你想說有可能嗎這個難度那麼高有沒有可能真的就創造出一個新的網頁模擬出接下來可能發生的狀況呢這難度也太高了嘛

產生文字可能是比較實際的做法所以接下來夢境中這個環境會發生什麼樣的變化是語言模型自己用文字描述出來的所以他就想像說會發生什麼樣的變化有了這個變化以後他再想像自己多執行了一步然後看看會發生什麼樣的事情所以這邊就是點選第二個按鈕然後想像發生什麼樣的變化

自己再多執行一步那想像會有什麼樣的變化第三個按鈕想像發生什麼樣的變化執行部再想像會有什麼樣的變化那哪一步比較好呢他在自己去問說那這一步大概有多少機會成功呢自己評估一下40% 這一步自己評估一下是80%這一步自己評估一下是10%看起來中間第二步機器人第二個按鈕

中間第二個選項是比較容易成功的所以他就選實際上所以上面並沒有真實發生過黃色框框裡面的事情並沒有真實發生過它是一個夢境中的腦內小劇場,模型在夢境中得到了啟示說一定要選第二步,所以在真實的現實世界中,它就選擇了第二步,所以這個就是讓模型強化它規劃能力的方式。

好,講到這個腦內小劇場啊,那你是不是就想到說,在上次的課程中也有提到腦內小劇場,上次的課程我們說現在有很多模型都號稱有思考,用英文講就是reasoning的

那這些有reasoning能力的模型,其實所謂reasoning的能力就是可以演一個腦內小劇場,告訴你說他現在是怎麼思考,如果把這些有reasoning能力的模型,拿他來做AI agent,他的腦內小劇場會不會正好就是在做規劃呢,如果現在他的輸入就是我們給AI agent的observation,輸出就是我們要AI agent採取的action,會不會腦內小劇場就是更好,

剛才類似夢境中看到的規劃呢他自己採取了不同的可能性自己在驗證每一個可能性可能成功的機會自己扮演World Model 自己扮演這個世界去想像他採取一個行為之後接下來會發生什麼樣的事情我實際試了一下DeepSeek-R1 看起來他確實有類似的效果我們把剛才那個積木的問題交給他

然後接下來他就開始演腦內小劇場上略1500字他真的做了1500字講了很多很多然後呢你可以看到說在腦內小劇場的過程中他就是做了各式各樣的嘗試他做的事情就有點像是剛才的tree search 然後最後他找出了一個optimal solution 他在夢境中知道說從橘色的方塊上拿起藍色的方塊藍色的方塊放到桌上

從桌上再拿起橘色的方塊放到藍色的方塊上這四個步驟就可以完成我們的要求他在夢境中已經找出了一個最佳的solution 然後再執行最佳solution的第一步就我這邊要求他告訴我他的下一步是什麼只要求他講一步那腦內小劇場先找出一個成功的solution之後

在執行這個計畫他已經找出一個成功的計畫之後在執行計畫的第一步就是使用操作二把橘色的積木從藍色的積木上面拿起來好講到這邊其實這麼堂課呢也可以停在這邊不過這邊多補充一件事就在幾週之前有一篇新的論文叫做the danger of over thinking

他們就是把這些能夠演腦內小劇場的模型讓他們扮演AI agent 看看他們做事有沒有效率其實整體而言能夠做腦內小劇場的模型還是比不能夠做腦內小劇場的模型在AI agent的這些任務上面表現得更好但是他們也有一些問題他們會有什麼問題呢就是想太多了

他們是思考的巨人行動的矮子就有時候這些模型會比如說按鈕點下去會怎麼樣他就一直想一直想一直想怎麼想都不停那你怎麼想都沒有用因為你根本不知道那個按鈕點下去會發生什麼事還不如直接點一下因為在很多情況下你直接嘗試點一下也許只要不是這個信用卡付款的你都按上一頁就回去了你就知道發生什麼事了

與其一直想還不如做一下或者是有些模型他嘗試都沒有嘗試他光是拿那個問題想啊想啊想啊就想說這我應該做不到還什麼都不是就直接放棄死於想太多這樣子所以這些模型他們有的問題就是想太多所以如何避免這些模型想太多也許是一個未來可以研究的關鍵好那以下就是今天要跟大家分享的

模型怎麼根據經驗調整行為怎麼使用工具,能不能夠做計畫

Loading...

Loading video analysis...