首頁 > 加密貨幣市場 > 卷積神經網路之父楊立昆:我對 LLM 模型沒興趣了,這四大挑戰才能定義 AI 下一步

卷積神經網路之父楊立昆:我對 LLM 模型沒興趣了,這四大挑戰才能定義 AI 下一步

2025/04/20 11

本文來自 Meta 首席 AI 科學家、圖靈獎得主楊立昆(Yann LeCun)與 NVIDIA 首席科學家 Bill Dally 的公開對談。LeCun 認為大型語言模型 (LLM) 的發展已近天花板,未來 AI 的突破將在於理解物理世界、推理規劃及開源模型。(前情提要:OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破)(背景補充:OpenAI 傳秘密打造「自家社群平台」,劍指死對頭馬斯克的 X)

本文目錄

告別 LLM 迷思:為何 AI 需要更懂世界?世界模型與 JEPA:通往真正推理的道路開源的必然性:打破壟斷,擁抱多樣性硬體需求與未來技術:GPU 仍是基石,新技術尚待成熟AI 的未來是開放、協作與多樣性

在AI 浪潮席捲全球的今天,當眾人目光仍聚焦於大型語言模型 (LLM) 的新進展時,被譽為卷積神經網路之父、現任 Meta 首席 AI 科學家的楊立昆(Yann LeCun)近期卻語出驚人地表示,他對 LLM 的興趣已逐漸減退。

上個月在輝達 GTC 大會上,楊立昆在一場與 NVIDIA 首席科學家 Bill Dally 的深度對談中,詳述了他對 AI 未來發展方向的獨到見解,強調理解物理世界、持久記憶、推理與規劃能力,以及開源生態的重要性,才是引領下一波 AI 革命的關鍵,下文為您做對談重點整理。


告別 LLM 迷思:為何 AI 需要更懂世界?

LeCun 坦言,儘管過去一年 AI 領域充滿了令人興奮的發展,但他認為 LLM 在很大程度上已成為業界產品團隊在邊際上改進的技術,例如追求更大的數據集、更強的算力,甚至生成合成數據來訓練模型。他認為這些並非最具前瞻性的研究方向。

相反地,他將目光投向了四大更根本的挑戰:

理解物理世界: 讓機器掌握我們生存的真實環境法則。擁有持久記憶: 使 AI 能夠像人一樣累積和運用經驗。具備推理能力: LeCun 認為目前讓 LLM 進行推理的方式過於簡化,需要更根本的方法。實現規劃能力: 讓 AI 能預測行動後果並制定計畫。

LeCun 強調,人類嬰兒在出生後數月內就能習得基本的物理世界模型,例如推倒水瓶和滑動水瓶的區別。這種對世界運作方式的直觀理解,是我們與真實世界互動的基礎,其難度遠超處理語言。他認為,要讓 AI 真正理解並應對真實世界,所需的架構將與目前主流的 LLM 完全不同。

他進一步解釋,LLM 的核心是預測下一個「符號」。雖然符號可以是任何東西,例如自動駕駛模型中,感測器輸入的符號最終產生驅動汽車的符號,這在某種程度上是對物理世界的推理(例如判斷哪裡開車安全),但這種基於離散符號的方法有其局限性。

LeCun 指出,典型的 LLM 符號數量約在 10 萬個左右,模型產生的是一個覆蓋所有可能符號的機率分佈。然而,這種方法難以應用於高維度、連續性的真實世界數據,如影片。

「所有試圖讓系統通過預測影片像素級細節來理解世界或建立世界模型的嘗試,基本上都失敗了。」

LeCun 提到,過去 20 年的經驗表明,即使是透過重建損壞或變換後的圖像來學習圖像表徵的技術(如自編碼器),效果也不如他所提倡的「聯合嵌入」(Joint Embedding) 架構。後者不試圖在像素層面進行重建,而是學習圖像或影片的抽象表徵 (representation),並在該抽象空間中進行預測。

他舉例說明,如果拍攝一段房間的影片,然後停下,要求系統預測接下來的畫面,系統或許能預測出房間裡有人坐著,但無法精確預測每個人的樣貌,因為這些細節是不可預測的。

如果強迫模型去預測這些像素級細節,將會浪費大量資源在無法實現的任務上。「透過預測影片進行自我監督學習的嘗試都行不通,只有在表徵層面進行才有效。」這意味著,真正能理解世界的模型,其架構可能並非生成式的。

世界模型與 JEPA:通往真正推理的道路

那麼,如果不是 LLM,能夠理解物理世界、擁有持久記憶並進行推理規劃的模型會是什麼樣子?

LeCun 認為答案在於「世界模型」(World Models)。他解釋,世界模型是我們內心對世界運作方式的模擬器,讓我們能夠在腦海中操縱想法、預測行為後果。這正是人類進行規劃和推理的核心機制,我們並非在符號空間中進行思考。

他提出了名為「聯合嵌入預測架構」(Joint Embedding Predictive Architecture, JEPA) 的概念。這種架構的運作方式是:將一段影片或圖像輸入編碼器得到一個表徵,再將後續的影片或圖像輸入另一個編碼器,然後嘗試在「表徵空間」中進行預測,而非在原始輸入空間(如像素或符號)中預測。雖然可以使用類似「填空」的訓練方法,但操作是在抽象的潛在空間 (latent space) 中進行。

這種方法的難點在於,如果設計不當,系統可能會「崩潰」,即忽略輸入,只產生一個恆定且無信息的表徵。LeCun 表示,直到五、六年前,才出現了有效防止這種情況的技術。他與同事們近年來已發表多篇論文,闡述 JEPA 世界模型的初步成果。

JEPA 的目標是建立一個預測器:當系統觀察到一段影片,它會形成對當前世界狀態的理解;接著,它需要能夠預測「如果我採取某個想像中的行動,下一個世界狀態會是什麼」。擁有這樣的預測器,AI 就能規劃一系列行動以達到特定目標。

LeCun 堅信,這才是實現真正推理和規劃的正確途徑,遠勝於目前一些所謂的「代理式推理系統」。這些系統通常生成大量符號序列,再用另一個神經網路挑選最佳序列,LeCun 形容這種方法如同「隨機寫程式,然後測試哪個能用」,效率極低且不可靠。

LeCun 也對當前一些 AI 研究者聲稱通用人工智慧 (AGI) 或他更傾向稱之為高級機器智慧 (AMI, Advanced Machine Intelligence) 指日可待的說法提出質疑。他認為,那種僅僅依靠擴展 LLM 規模、生成海量符號序列就能達到人類水平智慧的想法是「無稽之談」(nonsense)。

儘管他預計在未來 3 到 5 年內,能在小規模上掌握構建具有抽象世界模型並用於推理規劃的系統,並可能在十年左右達到人類水平,但他強調歷史上 AI 研究者多次宣告革命即將到來,結果都證明是過於樂觀。

「現在這一波也是錯誤的。」他認為,AI 在特定領域達到博士水平或許很快,但要實現全面的、媲美人類的智慧,仍有很長的路要走。

開源的必然性:打破壟斷,擁抱多樣性

在討論 AI 的未來時,LeCun 花費了大量篇幅強調開源的重要性。他以 Meta 開源的 LLaMA 模型為例,指出其下載量已突破 10 億次,這極大地促進了整個 AI 生態系的發展,尤其是新創公司的崛起。

「為什麼 Meta 要開源 LLaMA 這樣投入巨資研發的模型?」LeCun 解釋道,對於 Meta 或 Google 這樣收入來源多樣化的公司而言,最重要的不是短期內從模型服務直接獲利,而是能否構建所需的功能,並吸引全球最多的聰明人為其做出貢獻。開源 LLaMA 對 Meta 的核心業務(如社交網路)並無損害,反而能加速技術迭代和創新。

他更從哲學層面闡述了開源的必要性。未來,我們與數位世界的每一次互動都可能由 AI 系統介導。「我們不相信人們會想要單一的 AI 助手,更不相信這些助手會來自美國西岸或中國的少數幾家公司。」

LeCun 強調,世界需要極其多樣化的 AI 助手,它們需要能說各種語言、理解各種文化和價值觀、擁有不同的偏見和觀點,如同我們需要多樣化的媒體一樣。「要實現這種多樣性,唯一的途徑就是通過開源平台。」他預見,未來的基礎模型將是開源的,並且以分散式的方式進行訓練。

世界各地的機構可以貢獻數據來訓練一個全球性的基礎模型,而無需交出數據本身。這將形成一個「共識模型」。因此,他斷言:

「開源平台是完全不可避免的,專有平台我認為將會消失。」

此外,開源也使得企業能夠在本地部署模型,並使用自己的專有數據進行微調,這對於許多需要保護數據隱私的垂直應用至關重要。目前許多 AI 新創公司的商業模式正是建立於此。

硬體需求與未來技術:GPU 仍是基石,新技術尚待成熟

談及實現更強大 AI 所需的硬體,LeCun 對 NVIDIA 的 GPU 表示肯定,並笑稱「繼續推出吧,我們需要所有能得到的算力」。

他指出,JEPA 這類在抽象空間中進行推理的模型,在運行時將會非常消耗計算資源。這涉及到心理學家所說的「系統 1」(直覺、快速、不假思索的反應)和「系統 2」(深思熟慮、需要調動世界模型進行推理規劃的思考)。目前的 AI 系統大多處於系統 1,並試圖向系統 2 邁進,但 LeCun 認為系統 2 需要完全不同的架構,尤其是在理解物理世界方面。

他再次強調,理解物理世界比理解語言困難得多。語言因為是溝通工具而必須離散化,相對簡單;而真實世界則複雜得多。他用數據量進行了驚人的比較:當前 LLM 訓練數據量約為 10^14 字節(相當於一個人閱讀 40 萬年),而一個 4 歲兒童通過視覺接收的數據量也達到了 10^14 字節。「這告訴我們,僅僅通過文本訓練,永遠無法達到 AGI。」視覺等感官輸入對於學習世界模型至關重要。

對於新興硬體技術,LeCun 的態度則相對謹慎:

神經形態硬體 (Neuromorphic Hardware) / 脈衝神經網路 (Spiking Neural Networks): 他認為短期內難以取代 GPU。雖然生物神經元可能是類比計算,但長距離通訊(如大腦神經元之間)實際上是透過「脈衝」(spikes) 這種數位訊號進行的,這證明了數位通訊的必要性。類比硬體難以實現硬體複用和多晶片整合,效率和成本是巨大挑戰。不過,他認為在某些功耗極其敏感的邊緣計算場景(如智慧眼鏡上的持續視覺處理)可能有應用前景,例如將處理單元直接整合在感測器上(Processor-in-Memory, PIM),以減少數據傳輸能耗。光學計算 (Optical Computing): LeCun 回憶起 80 年代對光學神經網路的期待,但至今仍未實現。量子計算 (Quantum Computing): 他對量子計算在 AI 領域的應用持「極度懷疑」態度,認為其在中期內唯一可能的應用是模擬量子系統(如量子化學)。

總之,雖然 PIM 等技術在特定領域有潛力,但短期內,高效能數位計算(以 GPU 為代表)仍是推動 AI 模型發展,尤其是訓練和運行複雜世界模型的關鍵基礎設施。

AI 的未來是開放、協作與多樣性

在對談的最後,LeCun 再次強調,通往高級機器智慧的道路不會是某個秘密實驗室的單一突破,而是一個需要全球協作、逐步推進的過程。

「它不會是一個事件,人類不會在它發生的那一刻被毀滅。」

他堅信,這需要來自世界各地的貢獻,必須建立在開放研究和開源平台的基礎上。未來將是一個充滿多樣性 AI 助手的時代,這些助手將融入我們的日常生活,而我們將是它們的「老闆」。

LeCun 的觀點為當前火熱的 AI 領域提供了一個更為冷靜和長遠的視角。他提醒我們,不要沉迷於 LLM 的短期成就,而應關注那些更根本、更具挑戰性的問題——如何讓機器真正理解我們所處的世界。這不僅需要演算法和模型的創新(如 JEPA),更需要開放的文化、全球的協作以及持續進步的硬體基礎設施。

完整逐字稿內容請瀏覽》楊立昆:單靠LLM想實現AGI是胡說八道(GTC大會萬字訪談)

📍相關報導📍

GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難

OpenAI 重磅宣布:開放 Agents SDK 支援 MCP,串聯萬物再跨關鍵一步

OpenAI 解鎖 Deep Research:付費用戶每月可查詢 10 次、微軟發布多模態 AI 代理 Magma

最新文章

同类文章