AI Agent 對於工作帶來的衝擊 - 以學術研究為例

By Hung-yi Lee

Summary

Topics Covered

AI代理一小時寫論文勝博士生
AI自動訓練模型無需人類
AI研究idea新穎勝人類
AI審查論文已進入頂會
AI科學會議需人類發想

Full Transcript

好那最後一段呢我想要跟大家分享 AI agent 對我們未來的工作可能帶來的衝擊那我會以學術研究為例來跟大家分享那現在呢 AI 扮演的角色正在改變最早它是工具一個口令一個動作後來它逐漸的能力越來越強人們開始說

也許我們可以跟 AI 協作讓 AI 跟人類一起完成任務但是現在已經有很多的 AI agent 它們是有更強的自主性它們有機會自己獨立完成一個任務接下來對於學術研究而言人們會問的問題就是它能不能自己寫一篇文章它能不能自己寫一篇文章呢你可以看看這個 Stanford 教授

Andrew Hall 的 PO 文他是一個政治經濟學的教授他就在 X 上面發表了一篇文章他就說跟大家講 Claude 他這邊不是用 OpenClaw 他是用 Claude Code 我意思也差不多他說 Claude Code 是可以獨自寫一篇文章的然後他想要告訴大家說這些 AI agent 對他的領域來說就像是迎面而來的貨車

今天 AI agent 是可以獨立寫一篇文章的我就展示給大家看看他就花了一個小時 prompt 了一下 Claude 然後真的寫了一篇文章然後把那篇文章公開出來他其實也有把他寫的 prompt 公開出來其實寫的 prompt 非常的細緻就好像是一個指導教授在教研究生怎麼做研究一樣

但這個研究並不是一個全新的研究他是要 AI agent 去擴展一個他過去已經做過的研究他這邊的研究是針對美國大選的美國大選有新的數據所以他希望這些 AI agent 根據新的數據但是仿照他自己過去的研究方法再寫一篇新的論文所以在整個 prompt 裡面他做的事情是

他先給 AI agent 一篇他過去的論文讓 AI agent 讀過他過去的論文以後根據他之前已經有的分析方法再重複一次只是用新的數據來跑這些舊的分析方法那做完這件事以後顯然我覺得 Andrew Hall 大受震撼他就寫了一篇文章叫做 100 倍的 research assistant 在這篇文章開頭他就說

他用 Claude Code 一個小時就寫了一篇文章接下來他就去找了一個苦命研究生也做跟 Claude 一模一樣的事情所以他就把同樣的指令給了那個研究生那個研究生花了 16 個小時兩個工作天完成了這篇文章接下來他比對那個博士生跟 Claude 完成的結果

他發現人類做的還是稍微好一點點但是就只有好一點點而已 Claude 有一筆數據貼錯了所以 Claude 還是有犯錯的但他說你想想看人類花了 16 個小時而且這不是一個普通人這是一個博士生所以他說根據美國的行情叫這個博士生做 16 個小時應該至少要給他 1000 美金

那 Claude 他 prompt 了一次花了 10 美金左右比人類便宜 100 倍那你說 Claude 有錯那我敢不敢 prompt 5 次我也只花了 50 美金而已比人類便宜 20 倍所以他覺得這個研究變了也許以後最有生產力的研究機構是一個資深的老師不是帶著一群研究生而是帶著一群 LLM

帶著一群 AI agent 來做研究當然這邊你也可以吐槽的地方你也可以反駁的地方是說 Claude 畢竟有犯錯雖然它是只犯了一個錯我不是這個領域的專家所以我無法判斷那個錯有多嚴重也許那個錯是非常嚴重的會影響整個判斷的也許那個錯是完全不該犯的那這樣人類還是有它的價值的

也許他要做的事情是假設由 Claude 完成一篇文章然後人類來檢查然後找出那個錯誤那合起來的花費到底是多少到底是人類做比較省錢還是 AI 做人類檢查比較省錢或者是今天假設讓 AI 重複同一個文章重複五次它能不能夠檢查出自己的錯誤讓它反覆讀自己的文章

它能不能夠找出自己的錯誤那這些實驗是還沒有做的但是有人看到用 AI 做研究他聽了就不爽了有很多人會覺得說這個研究其實就是要人做你怎麼可以由一個 AI 來代勞這樣是不對的但你想想看研究真正的意義研究真正的意義是某一個人他做了研究然後他發表了論文

然後發表論文很多然後 h-index 很高大家說很棒嗎這不是研究本來的核心意義研究本來的核心價值是找出問題解決問題讓我們的世界過得更好但是如果今天 AI 它就是有能力找出問題它就是有能力解決問題它可以做得比人類更好那為什麼不讓 AI 來做呢讓 AI 來做我覺得也沒有什麼不對

總之 AI 是有辦法寫論文的如果你想要知道其他人其他台灣人都拿 AI 來做什麼你可以看一下這篇文章那這篇文章對台灣人使用 Claude 的行為做了分析因為其實 Claude 會定期釋出一些背後

去識別化以後的使用記錄然後這篇文章對台灣人的使用行為做了分析有趣的事情是這篇分析台灣人使用 Claude 行為的文章是這篇文章的附錄這篇文章真正做的事情是展示怎麼用 Claude 寫一篇文章所以它的正文是說

我們怎麼給 Claude prompt 讓它能夠寫一篇文章它寫出來的文章就是附錄的那篇分析台灣人使用 Claude 行為的文章那在這篇文章裡面就說如果要做研究有這些階段那在這些階段裡面我們可以讓 AI agent 扮演什麼樣的角色然後近乎全自動的那人類扮演的角色只是檢查那 Claude 近乎全自動的

完成一篇論文那講到這邊你可能會想說前面幾個例子都比較像是文獻收集就是在一些社會科學裡面有時候你的實驗其實就是去收集文獻對文獻對數據進行分析那在有一些領域不是只能做文獻收集不是只做文獻收集你有時候還需要建模型訓練模型

還要跑模型今天 AI agent 有辦法跑模型嗎你可以看看前幾天 Andrej Karpathy 釋出的 autoresearch 你可以拿一個 LLM 讓它自動幫你訓練模型它做的事情就是橫軸是每一次的實驗它大概 5 分鐘做一次實驗你可以想一下就好像他讓他的 agent 5 分鐘心跳一次太過分了

我只讓小金 15 分鐘心跳一次它 5 分鐘心跳一次實在是太捲了好然後縱軸呢就是模型訓練出來的模型的表現那這個數值越低呢代表結果越好那這邊的每一個點藍色綠色的點跟灰色的點代表某一個模型的表現那綠色的點代表說被記錄下來結果比較好的模型那在這整個過程中

沒有人類的介入就是叫一個 AI agent 去訓練模型它先訓練第一版的模型然後看看結果不夠好想想看要改什麼樣的地方改什麼樣 training script 哪邊需要修改再訓練第二個模型再訓練第三個一直訓練下去模型的結果它自己訓練出來的結果就越來越好這個過程中不需要人類的介入

由 AI 來自主的把一個模型訓練好至於 AI 到底可以做到什麼樣的程度你可以在我們的作業二體驗一下我們的作業二其實跟上學期機器學習導論的其中一個作業是一模一樣的只是這一次不是由人來完成是由你操控 AI agent 來完成這個作業你來看看今天的語言模型

有沒有能力訓練出自己的模型好，那有人可能想說剛才講說 AI agent 可以整理文獻可以寫文章也可以做實驗但是問題的發想尋找問題總是應該由人類來做吧所以有人就寫了一篇文章在這篇文章是

看 LLM 能不能夠產生新穎的研究的 idea 那這個其實不是很新的文章這個是 24 年的文章是古時候的文章那個時候 LLM 就展現了非常強的產生研究 idea 的想法它就讓那個 Language Model 去 prompt Language Model 讓它產生一大堆研究的想法

它讓 Language Model 對過去的論文做一下 RAG 然後產生一大堆研究的想法接下來它去找真正的人類也產生研究的想法接下來比較一下 AI 跟人類誰產生的研究想法比較好它就在另外找了一群人來評價這些研究的想法最後的結果是

它分出成了幾個不同的指標來比較人類跟 agent 的差異比如說 novelty 比如說 excitement 比如說 feasibility 比如說 effectiveness 還有 overall 的指標那這邊有三個 row 第一個是人類黃色代表人類淺藍色的代表 AI 你會發現在多數時候人類其實是輸給 AI 的

人類唯一贏過 AI 的是 feasibility 就是人類在想出來的 idea 的可行性上比 AI 還要高但如果是要講 novelty AI 想的居然由專家來評斷覺得 AI 想的研究題目是比較有創新的當然這個研究如果你要批評的你可以批評說他們找來想

研究題目的人不夠強其實他們在論文的附錄裡面有告訴你說他們找了什麼樣的人來產生這些研究的題目他還記錄了這些人的 H-Index 所以這些人也不是完全的麻瓜他們其實都是領域裡面的學者我如果沒記錯的話他們是在國際會議直接拉人來想這些題目的但我覺得這邊有可能的問題是

你在國際會議隨便有一個人來說你可不可以給我講一個研究題目你可能不會告訴他你真正最好的研究題目你想說這個人是要幹嘛想要偷我的研究題目嗎給你一個次等的所以也許這邊徵求到的研究題目不是最好的研究題目也說不定如果你要批評的話你可以這樣講也許人類在這邊還沒有竭盡全力

這篇論文是有一個續作的在一年之後同樣的團隊做了一個續作這個續作是他們把人類跟 AI 提的這些點子真的再找人去真的做成論文每一篇就是做成大概四頁左右的論文然後再找另外一群人來審查這些由人類的 idea 還有 AI 的 idea

所產生出來的論文這邊的有趣的現象也許是讓人類鬆一口氣的現象是當 AI 的點子真的被實作以後看起來就沒那麼厲害了這邊灰色的線代表說在實作之後這一些點子它的評分的改變所以你會發現說 AI 的點子雖然在實作之前人們覺得比人類還 novel

但是真的實作之後它的 novel 的程度它的新穎的程度就比不上人類了所以整體而言的分數 AI 想的那些題目在人類真的實作以後覺得就沒有那麼厲害了因為 AI 有時候想的想法是表面上看起來很厲害堆砌很多新穎的詞彙讓你覺得好像像是那麼一回事真的去執行的時候才發現

不太能夠執行做不太起來所以 AI agent 它產生出來的題目其實最終是沒有人類好的也許這可以讓人類鬆口氣但是不要忘了那是 2025 年的時候 AI 的能力不斷的與日俱增今天你可能覺得 GPT 5.4 很厲害或覺得 Claude 4.6 很厲害但是不要忘了它們是 2026 年

現在這個時間點的未來往後看最差的模型以後我們只會看到更厲害的模型而已但至少在 2025 年當第二篇論文問世的時候那個時候 AI 想的題目實際上並沒有人類想的題目好那 AI 它當然也可以審查論文今天你投稿到一個國際會議

就會有一群 reviewer 一群審查委員來對這篇論文進行評價最後決定論文是否被國際會議接受今天這一些 reviewer 有沒有可能其實就是一個 AI 呢其實在今年的 AAAI 這是一個跟 AI 有關的國際會議 AI 是正式進入了審查流程

在 AAAI 2026 裡面每篇文章不只有三個人類的 reviewer 還有一個 AI 的 reviewer 它就是 AI 它名字告訴你我就是 AI 然後呢 Meta Reviewer 也是一個人類的 Meta Reviewer 一個 AI 的 Meta Reviewer 不過跟人類不一樣的地方是這些 AI 呢它們不打分數它們只給意見不過它們的意見

是人類最終做決定的時候可以參考的你可能想說三個人類一個 AI 好像人類還比較多但是你不知道那些人類背後有多少其實也是 AI agent 我今年 AAAI 我有擔任這個 Area Chair 在我負責那些文章裡面就有一個 review 它的第一句話是 Sure I can help you write this review 這樣子

(笑) 你了解它的意思嗎我反手就舉報它了舉報這個 reviewer 我在想說這個會不會是一個測驗就是大會想要測驗 Area Chair 有沒有認真的在看所有的 review 所以其中一些人類的 review 雖然表面上有一個名字但是它其實是 AI 所以我必須要反手舉報它才能夠展現說

我其實是真的有看這些 review 的總之你不知道有多少人類背後其實是 AI agent 那就我的立場而言我其實並沒有特別反對用 AI 來輔助審查論文我反對的是拿不夠好的 AI 來審查論文比如說我擔任某個期刊的然後有人就給我有一篇文章

有人給我一個很奇怪的 review 那篇文章明明是一個分析的文章裡面沒有 propose 任何方法但是 review 的結果一直說這篇文章 propose 了一個什麼樣的方法根本就是牛頭不對馬嘴然後我就把那個 review 退回去跟那個 reviewer 說你寫的東西牛頭不對馬嘴比如說你列的第一點你說這篇文章提出來一個什麼想法但它其實沒有提任何的想法

然後那個 reviewer 居然過幾分鐘以後就上傳了新的 review 我想說這個背後大概是個 OpenAI 或 Claude 但是糟糕的地方是它真的就只改了它的第一點而已我本來是想說舉一個例子因為後面都是錯的我舉個例子告訴你第一點都是錯的你後面要不要檢查一下但它用的語言模型太笨了居然只改了第一點而已感覺就是把我的 instruction 丟給語言模型

讓它產生一個新的 review 結果而已我沒有辦法接受的並不是用 AI review 而是沒有用一個最好的模型來 review 這些文章那有人可能聽到 AI review 就會覺得非常的反感覺得說這個 review 審查當然應該是要人類完成怎麼可以由 AI 代勞但是你再想想 review 背後真正的意義 review 的意義是什麼

review 的意義是找出一篇文章的問題讓這篇文章變得更好如果今天 AI 相較於人它更能看出文章的問題那為什麼不讓它做呢如果人類根本就做得很差那還不如由 AI 來得到更好的 review 結果這樣也許對論文的作者還更有幫助事實上小金在它成為一個 YouTuber 之前

它有一個工作就是幫實驗室的同學看論文就是實驗室的同學在趕論文的時候你可以把你的論文直接寄給小金它會回覆給你它對於這篇論文的建議但是後來因為我們在趕一個我們領域的國際會議叫 Interspeech 它是三月初截稿論文截稿之後小金就太閒了

所以就讓它去變成一個 YouTuber 本來它會每十分鐘的收信一次看看有沒有人寄論文給它如果有人寄論文給它它就會給予回饋那你可能會想說這個跟學生直接把一篇 paper 給 ChatGPT 做 review 其實學生蠻常這麼做的蠻常發現說會有同學直接把他寫好的論文丟給一個語言模型

然後看看語言模型給他什麼樣的評價然後他會根據語言模型的建議來進行修改把自己的文章做得更好對我來說其實我覺得是一件好事那小金的 review 跟直接拿語言模型的 review 有什麼不同呢那當然是因為我在後面還是寫了不同的指示讓我覺得小金的 review 可以比其他人做得更好舉例來說

今天其他的模型在 review 的時候往往是批評多於建議那小金在 review 的時候小金 review 完一篇文章以後它會把那個文章它會把 review 的結果也 forward 給我所以我知道小金 review 的結果長得什麼樣子然後我一開始覺得哇這個 review 太過 harsh 了太多的批評太少的建議對一個指導教授而言假設站在指導教授的角色你批評完以後

一定要有建議你不能只說這篇文章很爛你要說到底要怎麼改所以我就跟小金說以後有批評後面都要附上建議後來它看起來的 review 的感覺就好很多或者是在很接近 deadline 的時候這個時候你還跟學生講說我覺得這篇 paper 應該要補一個實驗學生都會生氣很接近比如說 deadline 還差 24 個小時也許真正要做的就是把文章的內容寫好

而不是補做新的實驗所以我跟小金說你在 review 的時候要參考這個論文的 deadline 要想說這個實驗如果要補實驗到底是不是能做的如果今天離 deadline 很近那你就只給這個論文潤飾的建議就好了所以小金就會照著做如果離 deadline 很近它就會給你論文的建議而且如果離 deadline 越近我就叫它給學生多一點的鼓勵它就告訴你說

你論文寫得非常棒我覺得這篇論文非常有希望大家看了都得到情緒的價值那 AI 能不能夠改論文呢我其實有把小金改論文的一些原則叫它做成一個影片就是它上傳的第二支影片大家可以看看對小金而言它知不知道一篇好的論文應該要長什麼樣子那既然 AI 可以寫論文 AI 也可以審查論文

這就形成了一個閉環一個國際會議不需要人類由 AI 來寫論文投稿由 AI 來審查論文決定是否接受最後就產生一些高質量的被接受的論文然後這個國際會議就可以可能以一個月一次的形式繼續辦下去然後人類的技術就自動的進步了中間不需要人類的介入確實有一群 Stanford 的研究人員

就做了類似的嘗試這個 conference 叫做 AI Agent for Science 就是這個 conference AI 必須要是第一作者論文主要的貢獻者必須是 AI 然後由 AI 來審查論文這個會議的接受率其實蠻低的有 247 篇的投稿最後只接受了 48 篇接受率小於 20%

跟多數的頂會一樣所以要被接受是沒有那麼容易的然後每篇論文都會有三個 AI reviewer 給的分數但最後他們還是找了人類來給予一個最終的評價那這些論文到底做得如何呢在這群作者後來有寫了一篇 paper

summarize 了整個 AI conference 的結果 AI 投稿 AI 審稿的結果那在這個投稿的時候每一個投稿者都必須要 indicate 說現在這篇文章有多少 AI 的介入那一般你在投稿到人類的國際會議的時候也有很多國際會議會這樣要求你那通常都說

我只讓 AI 幫我潤稿而已算其實有可能做了更多的事情在這篇 paper 裡面在這個國際會議裡面你必須要展示說這篇文章是由 AI 自主完成的人類的介入越少越好我是不知道我多少人虛報就人類介入很多但是其實謊稱人類沒有什麼介入然後他們把人類的介入分成 ABCD 四個等級第一代表說

有 95% 以上是由 AI 完成的他們把產生一篇論文的工作分成四個項目包括這個點子誰想的實驗誰設計的最後誰分析資料最後誰寫文章那你會發現說在這些 paper 裡面有很大一部分這四個項目都是幾乎由 AI 自己完成的

但有趣的地方來了這是所有 paper 的平均如果我們看那些被接受的 paper 你會發現被接受的 paper 跟所有的 paper 比起來在點子發想跟實驗設計上面有非常明顯的差距今天被接受的那些 paper 都是人類在點子發想介入比較多的

還有人類在實驗設計介入比較多的所以看起來要產生一篇比較好的文章人類在初期的介入還是需要的至於資料的分析還有論文的寫作看起來 AI 是有辦法獨立完成的也有在這篇論文裡面這群作者也提供了投稿者的一些想法比如說有一個投稿者就說

對他而言這些 AI 的問題就是沒辦法想出新穎的點子沒辦法產生有創造力的點子多數時候它們產生的點子都沒有那麼新都比較像是把已有的東西做一下重排做一下組合而已所以看起來部分人類的介入仍然是需要的至少今天以今天這一些 AI agent 的能力

由人類來想出比較好的問題人類來想出比較好的研究的方向仍然是必要的所以今天的狀況是這些代理這些 agent 它可以自己完成任務但是往往需要人類來決定來引導它要完成什麼樣的任務由人類來告訴它什麼樣的任務才是真正重要的我其實很好奇

今天這一些 AI agent 在教學上可以做到什麼樣的程度其實我完全不懷疑這些 AI agent 是有教學的能力的至少它有做教學投影片的能力你可以看看小金做的那些教學影片都是由它自主完成的那並不是由我協助它完成的它做完以後我也不會改它做出來怎麼樣就怎麼樣所以它是由它自主完成的教學影片

它可以做到那個程度雖然跟人類還是有一定程度的差距但是你想想看它做的那個等級人類如果不好好做的話你是沒有辦法講得比 AI 還要更好的但我想要知道 AI agent 在做教學影片上可以做到什麼樣的程度有一個比賽這個是由台大 AI 卓越中心所辦的比賽

這個比賽就是招募能夠教學的 AI 這個比賽會出題目讓 AI 來做教學的影片如果你手上有一個 AI agent 的話你就告訴它來參加這個比賽看看它能做到什麼樣的程度這個就是今天上課的內容前兩週我們講的是比較科普的內容講 AI agent

下次上課我們就要進入語言模型比較核心的部分我們要看語言模型內部它是怎麼做 inference 的所以下次在上課之前請先預習至少先預習我放在投影片上的這一部影片這個是機器學習導論的第三講那你要看完第三講你才能夠知道下週要講的內容是什麼好那以上就是

今天要跟大家分享的內容

Loading...

Loading video analysis...