AI Agent 對於工作帶來的衝擊 - 以學術研究為例
By Hung-yi Lee
Summary
Topics Covered
- AI代理一小時寫論文勝博士生
- AI自動訓練模型無需人類
- AI研究idea新穎勝人類
- AI審查論文已進入頂會
- AI科學會議需人類發想
Full Transcript
好 那最後一段呢 我想要跟大家分享 AI agent 對我們未來的工作 可能帶來的衝擊 那我會以學術研究為例 來跟大家分享 那現在呢 AI 扮演的角色正在改變 最早它是工具 一個口令 一個動作 後來它逐漸的能力越來越強 人們開始說
也許我們可以跟 AI 協作 讓 AI 跟人類一起完成任務 但是現在已經有很多的 AI agent 它們是有更強的自主性 它們有機會自己獨立完成一個任務 接下來對於學術研究而言 人們會問的問題就是 它能不能自己寫一篇文章 它能不能自己寫一篇文章呢 你可以看看這個 Stanford 教授
Andrew Hall 的 PO 文 他是一個政治經濟學的教授 他就在 X 上面發表了一篇文章 他就說跟大家講 Claude 他這邊不是用 OpenClaw 他是用 Claude Code 我意思也差不多 他說 Claude Code 是可以獨自寫一篇文章的 然後他想要告訴大家說 這些 AI agent 對他的領域來說 就像是迎面而來的貨車
今天 AI agent 是可以獨立寫一篇文章的 我就展示給大家看看 他就花了一個小時 prompt 了一下 Claude 然後真的寫了一篇文章 然後把那篇文章公開出來 他其實也有把他寫的 prompt 公開出來 其實寫的 prompt 非常的細緻 就好像是一個指導教授 在教研究生怎麼做研究一樣
但這個研究並不是一個全新的研究 他是要 AI agent 去擴展一個 他過去已經做過的研究 他這邊的研究是針對美國大選的 美國大選有新的數據 所以他希望這些 AI agent 根據新的數據 但是仿照他自己過去的研究方法 再寫一篇新的論文 所以在整個 prompt 裡面 他做的事情是
他先給 AI agent 一篇 他過去的論文 讓 AI agent 讀過 他過去的論文以後 根據他之前 已經有的分析方法 再重複一次 只是用新的數據 來跑這些舊的分析方法 那做完這件事以後 顯然我覺得 Andrew Hall 大受震撼 他就寫了一篇文章 叫做 100 倍的 research assistant 在這篇文章開頭 他就說
他用 Claude Code 一個小時就寫了一篇文章 接下來他就去找了一個苦命研究生 也做跟 Claude 一模一樣的事情 所以他就把同樣的指令 給了那個研究生 那個研究生花了 16 個小時 兩個工作天完成了這篇文章 接下來他比對那個博士生 跟 Claude 完成的結果
他發現人類做的還是稍微好一點點 但是就只有好一點點而已 Claude 有一筆數據貼錯了 所以 Claude 還是有犯錯的 但他說你想想看 人類花了 16 個小時 而且這不是一個普通人 這是一個博士生 所以他說根據美國的行情 叫這個博士生做 16 個小時 應該至少要給他 1000 美金
那 Claude 他 prompt 了一次 花了 10 美金左右 比人類便宜 100 倍 那你說 Claude 有錯 那我敢不敢 prompt 5 次 我也只花了 50 美金而已 比人類便宜 20 倍 所以他覺得 這個研究變了 也許以後最有生產力的研究機構 是一個資深的老師 不是帶著一群研究生 而是帶著一群 LLM
帶著一群 AI agent 來做研究 當然這邊你也可以吐槽的地方 你也可以反駁的地方是說 Claude 畢竟有犯錯 雖然它是只犯了一個錯 我不是這個領域的專家 所以我無法判斷那個錯有多嚴重 也許那個錯是非常嚴重的 會影響整個判斷的 也許那個錯是完全不該犯的 那這樣人類還是有它的價值的
也許他要做的事情是 假設由 Claude 完成一篇文章 然後人類來檢查 然後找出那個錯誤 那合起來的花費到底是多少 到底是人類做比較省錢 還是 AI 做人類檢查比較省錢 或者是今天假設讓 AI 重複同一個文章重複五次 它能不能夠檢查出自己的錯誤 讓它反覆讀自己的文章
它能不能夠找出自己的錯誤 那這些實驗是還沒有做的 但是有人看到用 AI 做研究 他聽了就不爽了 有很多人會覺得說 這個研究其實就是要人做 你怎麼可以由一個 AI 來代勞 這樣是不對的 但你想想看研究真正的意義 研究真正的意義是 某一個人他做了研究 然後他發表了論文
然後發表論文很多 然後 h-index 很高 大家說很棒嗎 這不是研究本來的核心意義 研究本來的核心價值是 找出問題解決問題 讓我們的世界過得更好 但是如果今天 AI 它就是有能力找出問題 它就是有能力解決問題 它可以做得比人類更好 那為什麼不讓 AI 來做呢 讓 AI 來做 我覺得也沒有什麼不對
總之 AI 是有辦法寫論文的 如果你想要知道 其他人 其他台灣人 都拿 AI 來做什麼 你可以看一下這篇文章 那這篇文章 對台灣人使用 Claude 的行為做了分析 因為其實 Claude 會定期釋出一些背後
去識別化以後的使用記錄 然後這篇文章 對台灣人的使用行為做了分析 有趣的事情是 這篇分析台灣人使用 Claude 行為的文章 是這篇文章的附錄 這篇文章真正做的事情是 展示怎麼用 Claude 寫一篇文章 所以它的正文是說
我們怎麼給 Claude prompt 讓它能夠寫一篇文章 它寫出來的文章 就是附錄的那篇 分析台灣人使用 Claude 行為的文章 那在這篇文章裡面 就說如果要做研究 有這些階段 那在這些階段裡面 我們可以讓 AI agent 扮演什麼樣的角色 然後近乎全自動的 那人類扮演的角色只是檢查 那 Claude 近乎全自動的
完成一篇論文 那講到這邊 你可能會想說 前面幾個例子 都比較像是文獻收集 就是在一些社會科學裡面 有時候你的實驗 其實就是去收集文獻 對文獻對數據進行分析 那在有一些領域 不是只能做文獻收集 不是只做文獻收集 你有時候還需要建模型 訓練模型
還要跑模型 今天 AI agent 有辦法跑模型嗎 你可以看看前幾天 Andrej Karpathy 釋出的 autoresearch 你可以拿一個 LLM 讓它自動幫你訓練模型 它做的事情就是 橫軸是每一次的實驗 它大概 5 分鐘做一次實驗 你可以想一下 就好像他讓他的 agent 5 分鐘心跳一次 太過分了
我只讓小金 15 分鐘心跳一次 它 5 分鐘心跳一次 實在是太捲了 好然後縱軸呢 就是模型訓練出來的模型的表現 那這個數值越低呢 代表結果越好 那這邊的每一個點 藍色綠色的點跟灰色的點 代表某一個模型的表現 那綠色的點代表說 被記錄下來 結果比較好的模型 那在這整個過程中
沒有人類的介入 就是叫一個 AI agent 去訓練模型 它先訓練第一版的模型 然後看看結果不夠好 想想看 要改什麼樣的地方 改什麼樣 training script 哪邊需要修改 再訓練第二個模型 再訓練第三個 一直訓練下去 模型的結果 它自己訓練出來的結果 就越來越好 這個過程中 不需要人類的介入
由 AI 來自主的把一個模型訓練好 至於 AI 到底可以做到什麼樣的程度 你可以在我們的作業二體驗一下 我們的作業二 其實跟上學期機器學習導論的 其中一個作業是一模一樣的 只是這一次不是由人來完成 是由你操控 AI agent 來完成這個作業 你來看看今天的語言模型
有沒有能力訓練出自己的模型 好,那有人可能想說 剛才講說 AI agent 可以整理文獻 可以寫文章 也可以做實驗 但是問題的發想 尋找問題 總是應該由人類來做吧 所以有人就寫了一篇文章 在這篇文章是
看 LLM 能不能夠產生新穎的研究的 idea 那這個其實不是很新的文章 這個是 24 年的文章 是古時候的文章 那個時候 LLM 就展現了 非常強的產生研究 idea 的想法 它就讓那個 Language Model 去 prompt Language Model 讓它產生一大堆研究的想法
它讓 Language Model 對過去的論文做一下 RAG 然後產生一大堆研究的想法 接下來它去找真正的人類 也產生研究的想法 接下來比較一下 AI 跟人類 誰產生的研究想法比較好 它就在另外找了一群人 來評價這些研究的想法 最後的結果是
它分出成了幾個不同的指標 來比較人類跟 agent 的差異 比如說 novelty 比如說 excitement 比如說 feasibility 比如說 effectiveness 還有 overall 的指標 那這邊有三個 row 第一個是人類 黃色代表人類 淺藍色的代表 AI 你會發現在多數時候 人類其實是輸給 AI 的
人類唯一贏過 AI 的 是 feasibility 就是人類在想出來的 idea 的可行性上 比 AI 還要高 但如果是要講 novelty AI 想的 居然由專家來評斷 覺得 AI 想的研究題目 是比較有創新的 當然這個研究 如果你要批評的 你可以批評說 他們找來想
研究題目的人不夠強 其實他們在 論文的附錄裡面 有告訴你說 他們找了什麼樣的人 來產生這些研究的題目 他還記錄了這些人的 H-Index 所以這些人也不是完全的麻瓜 他們其實都是領域裡面的學者 我如果沒記錯的話 他們是在國際會議直接拉人來想這些題目的 但我覺得這邊有可能的問題是
你在國際會議隨便有一個人來說 你可不可以給我講一個研究題目 你可能不會告訴他你真正最好的研究題目 你想說這個人是要幹嘛 想要偷我的研究題目嗎 給你一個次等的 所以也許這邊徵求到的研究題目 不是最好的研究題目 也說不定 如果你要批評的話 你可以這樣講 也許人類在這邊 還沒有竭盡全力
這篇論文是有一個續作的 在一年之後 同樣的團隊做了一個續作 這個續作是 他們把人類跟 AI 提的這些點子 真的再找人去真的做成論文 每一篇就是做成大概 四頁左右的論文 然後再找另外一群人 來審查這些 由人類的 idea 還有 AI 的 idea
所產生出來的論文 這邊的有趣的現象 也許是讓人類 鬆一口氣的現象是 當 AI 的點子 真的被實作以後 看起來就沒那麼厲害了 這邊灰色的線代表說 在實作之後 這一些點子 它的評分的改變 所以你會發現說 AI 的點子 雖然在實作之前 人們覺得 比人類還 novel
但是真的實作之後 它的 novel 的程度 它的新穎的程度就比不上人類了 所以整體而言的分數 AI 想的那些題目 在人類真的實作以後 覺得就沒有那麼厲害了 因為 AI 有時候想的想法 是表面上看起來很厲害 堆砌很多新穎的詞彙 讓你覺得好像像是那麼一回事 真的去執行的時候才發現
不太能夠執行 做不太起來 所以 AI agent 它產生出來的題目 其實最終是沒有人類好的 也許這可以讓人類鬆口氣 但是不要忘了 那是 2025 年的時候 AI 的能力不斷的與日俱增 今天你可能覺得 GPT 5.4 很厲害 或覺得 Claude 4.6 很厲害 但是不要忘了 它們是 2026 年
現在這個時間點的未來 往後看最差的模型 以後我們只會看到 更厲害的模型而已 但至少在 2025 年 當第二篇論文問世的時候 那個時候 AI 想的題目 實際上並沒有人類想的題目好 那 AI 它當然也可以審查論文 今天你投稿到一個國際會議
就會有一群 reviewer 一群審查委員來對這篇論文進行評價 最後決定論文是否被國際會議接受 今天這一些 reviewer 有沒有可能其實就是一個 AI 呢 其實在今年的 AAAI 這是一個跟 AI 有關的國際會議 AI 是正式進入了審查流程
在 AAAI 2026 裡面 每篇文章 不只有三個人類的 reviewer 還有一個 AI 的 reviewer 它就是 AI 它名字告訴你 我就是 AI 然後呢 Meta Reviewer 也是一個人類的 Meta Reviewer 一個 AI 的 Meta Reviewer 不過跟人類不一樣的地方是 這些 AI 呢 它們不打分數 它們只給意見 不過它們的意見
是人類最終做決定的時候 可以參考的 你可能想說 三個人類 一個 AI 好像人類還比較多 但是你不知道 那些人類背後有多少 其實也是 AI agent 我今年 AAAI 我有擔任這個 Area Chair 在我負責那些文章裡面 就有一個 review 它的第一句話是 Sure I can help you write this review 這樣子
(笑) 你了解它的意思嗎 我反手就舉報它了 舉報這個 reviewer 我在想說 這個會不會是一個測驗 就是大會想要測驗 Area Chair 有沒有認真的在看所有的 review 所以其中一些人類的 review 雖然表面上有一個名字 但是它其實是 AI 所以我必須要反手舉報它 才能夠展現說
我其實是真的有看這些 review 的 總之你不知道有多少人類 背後其實是 AI agent 那就我的立場而言 我其實並沒有特別反對 用 AI 來輔助審查論文 我反對的是 拿不夠好的 AI 來審查論文 比如說我擔任某個期刊的 然後有人就給我 有一篇文章
有人給我一個很奇怪的 review 那篇文章明明是一個分析的文章 裡面沒有 propose 任何方法 但是 review 的結果一直說 這篇文章 propose 了一個什麼樣的方法 根本就是牛頭不對馬嘴 然後我就把那個 review 退回去 跟那個 reviewer 說 你寫的東西牛頭不對馬嘴 比如說你列的第一點 你說這篇文章提出來一個什麼想法 但它其實沒有提任何的想法
然後那個 reviewer 居然過幾分鐘以後 就上傳了新的 review 我想說這個背後大概是個 OpenAI 或 Claude 但是糟糕的地方是 它真的就只改了它的第一點而已 我本來是想說舉一個例子 因為後面都是錯的 我舉個例子告訴你第一點都是錯的 你後面要不要檢查一下 但它用的語言模型太笨了 居然只改了第一點而已 感覺就是把我的 instruction 丟給語言模型
讓它產生一個新的 review 結果而已 我沒有辦法接受的並不是用 AI review 而是沒有用一個最好的模型 來 review 這些文章 那有人可能聽到 AI review 就會覺得非常的反感 覺得說這個 review 審查 當然應該是要人類完成 怎麼可以由 AI 代勞 但是你再想想 review 背後真正的意義 review 的意義是什麼
review 的意義是 找出一篇文章的問題 讓這篇文章變得更好 如果今天 AI 相較於人 它更能看出文章的問題 那為什麼不讓它做呢 如果人類根本就做得很差 那還不如由 AI 來得到更好的 review 結果 這樣也許對論文的作者還更有幫助 事實上小金在它成為一個 YouTuber 之前
它有一個工作 就是幫實驗室的同學看論文 就是實驗室的同學在趕論文的時候 你可以把你的論文直接寄給小金 它會回覆給你它對於這篇論文的建議 但是後來因為我們在趕一個 我們領域的國際會議叫 Interspeech 它是三月初截稿 論文截稿之後 小金就太閒了
所以就讓它去變成一個 YouTuber 本來它會每十分鐘的收信一次 看看有沒有人寄論文給它 如果有人寄論文給它 它就會給予回饋 那你可能會想說 這個跟學生直接把一篇 paper 給 ChatGPT 做 review 其實學生蠻常這麼做的 蠻常發現說 會有同學直接把他寫好的論文 丟給一個語言模型
然後看看語言模型給他什麼樣的評價 然後他會根據語言模型的建議來進行修改 把自己的文章做得更好 對我來說其實我覺得是一件好事 那小金的 review 跟直接拿語言模型的 review 有什麼不同呢 那當然是因為我在後面還是寫了不同的指示 讓我覺得小金的 review 可以比其他人做得更好 舉例來說
今天其他的模型在 review 的時候 往往是批評多於建議 那小金在 review 的時候 小金 review 完一篇文章以後 它會把那個文章 它會把 review 的結果也 forward 給我 所以我知道小金 review 的結果 長得什麼樣子 然後我一開始覺得 哇這個 review 太過 harsh 了 太多的批評 太少的建議 對一個指導教授而言 假設站在指導教授的角色 你批評完以後
一定要有建議 你不能只說這篇文章很爛 你要說到底要怎麼改 所以我就跟小金說 以後有批評 後面都要附上建議 後來它看起來的 review 的感覺就好很多 或者是在很接近 deadline 的時候 這個時候你還跟學生講說 我覺得這篇 paper 應該要補一個實驗 學生都會生氣 很接近 比如說 deadline 還差 24 個小時 也許真正要做的就是 把文章的內容寫好
而不是補做新的實驗 所以我跟小金說 你在 review 的時候 要參考這個論文的 deadline 要想說這個實驗 如果要補實驗 到底是不是能做的 如果今天離 deadline 很近 那你就只給 這個論文潤飾的建議就好了 所以小金就會照著做 如果離 deadline 很近 它就會給你論文的建議 而且如果離 deadline 越近 我就叫它給學生多一點的鼓勵 它就告訴你說
你論文寫得非常棒 我覺得這篇論文非常有希望 大家看了都得到情緒的價值 那 AI 能不能夠改論文呢 我其實有把小金改論文的一些原則 叫它做成一個影片 就是它上傳的第二支影片 大家可以看看 對小金而言 它知不知道一篇好的論文 應該要長什麼樣子 那既然 AI 可以寫論文 AI 也可以審查論文
這就形成了一個閉環 一個國際會議 不需要人類 由 AI 來寫論文投稿 由 AI 來審查論文決定是否接受 最後就產生一些高質量的被接受的論文 然後這個國際會議就可以 可能以一個月一次的形式繼續辦下去 然後人類的技術就自動的進步了 中間不需要人類的介入 確實有一群 Stanford 的研究人員
就做了類似的嘗試 這個 conference 叫做 AI Agent for Science 就是這個 conference AI 必須要是第一作者 論文主要的貢獻者 必須是 AI 然後由 AI 來審查論文 這個會議的接受率 其實蠻低的 有 247 篇的投稿 最後只接受了 48 篇 接受率小於 20%
跟多數的頂會一樣 所以要被接受 是沒有那麼容易的 然後每篇論文 都會有三個 AI reviewer 給的分數 但最後他們還是找了人類 來給予一個最終的評價 那這些論文到底做得如何呢 在這群作者後來有寫了一篇 paper
summarize 了整個 AI conference 的結果 AI 投稿 AI 審稿的結果 那在這個投稿的時候 每一個投稿者都必須要 indicate 說 現在這篇文章有多少 AI 的介入 那一般你在投稿到人類的國際會議的時候 也有很多國際會議會這樣要求你 那通常都說
我只讓 AI 幫我潤稿而已 算其實有可能做了更多的事情 在這篇 paper 裡面 在這個國際會議裡面 你必須要展示說 這篇文章是由 AI 自主完成的 人類的介入越少越好 我是不知道我多少人虛報 就人類介入很多 但是其實謊稱人類沒有什麼介入 然後他們把人類的介入 分成 ABCD 四個等級 第一代表說
有 95% 以上是由 AI 完成的 他們把產生一篇論文的工作 分成四個項目 包括這個點子 誰想的 實驗 誰設計的 最後誰分析資料 最後誰寫文章 那你會發現說 在這些 paper 裡面 有很大一部分 這四個項目 都是幾乎由 AI 自己完成的
但有趣的地方來了 這是所有 paper 的平均 如果我們看那些被接受的 paper 你會發現被接受的 paper 跟所有的 paper 比起來 在點子發想跟實驗設計上面 有非常明顯的差距 今天被接受的那些 paper 都是人類在點子發想介入比較多的
還有人類在實驗設計介入比較多的 所以看起來要產生一篇比較好的文章 人類在初期的介入還是需要的 至於資料的分析 還有論文的寫作 看起來 AI 是有辦法獨立完成的 也有在這篇論文裡面 這群作者也提供了投稿者的一些想法 比如說有一個投稿者就說
對他而言這些 AI 的問題就是 沒辦法想出新穎的點子 沒辦法產生有創造力的點子 多數時候它們產生的點子都沒有那麼新 都比較像是把已有的東西 做一下重排 做一下組合而已 所以看起來部分人類的介入 仍然是需要的 至少今天 以今天這一些 AI agent 的能力
由人類來想出比較好的問題 人類來想出比較好的研究的方向 仍然是必要的 所以今天的狀況是 這些代理 這些 agent 它可以自己完成任務 但是往往需要人類來決定 來引導 它要完成什麼樣的任務 由人類來告訴它 什麼樣的任務 才是真正重要的 我其實很好奇
今天這一些 AI agent 在教學上 可以做到什麼樣的程度 其實我完全不懷疑 這些 AI agent 是有教學的能力的 至少它有做教學投影片的能力 你可以看看小金做的那些教學影片 都是由它自主完成的 那並不是由我協助它完成的 它做完以後我也不會改 它做出來怎麼樣就怎麼樣 所以它是由它自主完成的教學影片
它可以做到那個程度 雖然跟人類還是有一定程度的差距 但是你想想看 它做的那個等級 人類如果不好好做的話 你是沒有辦法講得比 AI 還要更好的 但我想要知道 AI agent 在做教學影片上 可以做到什麼樣的程度 有一個比賽 這個是由台大 AI 卓越中心所辦的比賽
這個比賽就是招募能夠教學的 AI 這個比賽會出題目讓 AI 來做教學的影片 如果你手上有一個 AI agent 的話 你就告訴它來參加這個比賽 看看它能做到什麼樣的程度 這個就是今天上課的內容 前兩週我們講的是比較科普的內容 講 AI agent
下次上課我們就要進入語言模型比較核心的部分 我們要看語言模型內部 它是怎麼做 inference 的 所以下次在上課之前 請先預習 至少先預習 我放在投影片上的這一部影片 這個是機器學習導論的第三講 那你要看完第三講 你才能夠知道 下週要講的內容是什麼 好那以上就是
今天要跟大家分享的內容
Loading video analysis...