您現在的位置是：首頁 > 攝影首頁 攝影

特斯拉前AI總監最新專訪：AGI、Optimus、軟體2.0時代

由科學小冰發表于攝影2023-01-30

簡介0●基於視覺的自動駕駛●特斯拉的資料引擎●實現自動駕駛的時間表●離開特斯拉●Optimus量產●生物演進●外星文明●ImageNet已被擊敗●神經網路的本質●Transformer強大且穩定●用語

用ai匯出cmyk注意什麼

大資料文摘授權轉載自智源社群

10月底，在著名AI播客主持人Lex Fridman長達三個小時的訪談節目中，特斯拉前AI總監Andrej Karpathy談及了他對於Transformer、神經網路、大規模語言模型、AGI的理解，以及對特斯拉、Optimus的看法。此外，在天馬行空的交流中，他還講到了對宇宙人生、外星生物的暢想，甚至包括他個人專注、近乎瘋狂的日常工作模式。在特斯拉的五年間，他一手促成了Autopilot的開發。智源社群選取全文精華內容進行了整理，供參考。

Andrej Ka

pathy

前特斯拉人工智慧和自動駕駛部門（Autopilot）負責人，主攻計算機視覺和深度學習領域，曾為OpenAI創始成員和研究科學家，師從斯坦福大學教授李飛飛，與其共同設計並講授廣為人知的斯坦福深度學習課程CS231n，2022年7月宣佈從特斯拉離職。

精彩提要

●

構建AG

I需要具身互動

● 當機器人想成為人類

● 讓特斯拉工程團隊實現軟體2。0

● 基於視覺的自動駕駛

● 特斯拉的資料引擎

● 實現自動駕駛的時間表

● 離開特斯拉

● Optimus量產

● 生物演進

● 外星文明

● ImageNet已被擊敗

● 神經網路的本質

● Transformer強大且穩定

● 用語言模型理解世界

● Karpathy的一天

● 給初學者的建議

構建AGI需要具身互動

Lex Fridman（以下簡稱“L”）：你對於AGI（通用智慧體）怎麼看，哪些進展或想法對於實現AGI是至關重要的。主要的阻礙有哪些？

Andrej Karpathy（以下簡稱“A”）：基本上，我相當看好我們構建AGI的能力，像人類一樣可以與之互動的自動化系統。我們可以在數碼範疇或物理範疇上與它們互動。目前，似乎大多數模型從紋理層面上解決這些神奇的任務。我懷疑紋理資訊不足以讓我們真正建立對世界的全面理解。我們需要進一步考慮畫素，瞭解物理世界及其工作機制。所以我確實認為我們需要擴充套件這些模型，使用影象和影片，以此訓練更多的多模態資料。

L：你認為你需要接觸這個世界才能理解它嗎？

A：這是一個懸而未決的大問題。如果你需要具身和與世界互動的能力，進行實驗並擁有這種形式的資料，那麼您需要使用「Optimus」人形機器人或類似的東西。

僅僅擁有來自網際網路的資料可能是不夠的，Optimus在某種程度上就像在AGI中實現對沖。Optimus既擁有人形的外觀，又可以做一些現實世界中的事情。未來，數百萬的 Optimus 將與人類互動。所以從完整性的角度來看，我認為這是一個非常好的平臺，但它也更難處理，因為你正在處理「原子」，你需要真正構建這些東西並將它們融入社會。

特斯拉Optimus

我們很可能會與數字實體進行互動。這將是一個緩慢的過程。增量化的過渡產品是基礎，重點在於讓「Copilot」平臺變得更好。然後GPT會幫助你寫作。我們即將能夠基於這些標準組件解決化學、物理、數學等非常複雜的問題，並讓它們得到完整的解決方案。

L：意識能進入AGI嗎？

A：意識並不是憑空想出來的，這是一種足夠大、足夠複雜的生成模型的湧現現象。如果你有一個足夠複雜的世界模型來理解這個世界，那麼它也會把它在世界上的困境理解為一個語言模型，這是自我意識的一種形式。

L：如果你可以和AGI交談，向她提問，談論任何事情。你會問什麼？

A：我會問一些實際的問題，例如，我或我所愛的人真的必須死嗎？我們能做些什麼呢？

L：你認為它能回答清楚嗎？還是會詩意地回答？

A：我希望它能夠提供解決方案。我希望它能夠像這樣回答：我已經閱讀了所有教科書，並對您的所有工作了如指掌。在我看來，您接下來做這些實驗會非常有幫助（舉例）。

讓我們進行這個思維實驗。想象一下，死亡實際上就像是幸福的先決條件，因為如果我們長生不老，其實會變得深深的不快樂。模型確實能夠知道這一問題的答案。那麼，他應該誠實地回答你嗎？如果AGI系統試圖同情人類，應該告訴你真實答案嗎？還是回答一些「善意的謊言」？就像在電影Interstellar中，AI表示，人類只想要90%的誠實度。

TARS，Interstellar中的機器人

當機器人想成為人類

L：

如果有一天，裝備有語言模型的機器人同時具有互動能力，它們能發推特、能回覆資訊，我們很難分辨機器人與人類。甚至人工智慧會試圖成為人類，想要得到尊重和愛，你如何看待這樣的世界？

A：這有點像軍事競賽，有攻擊和防禦，攻擊越強則防禦也會變得越強。社會也會隨之進步，產生新的類似於數字簽名的技術。我認為，我們需要與人工智慧分享數字空間。人工智慧會變得越來越好，在數字領域之外，它們最終還會與我們分享物理世界。大多數人工智慧是很友善的，能幫助人類；極少數人工智慧對人類有害，而我們需要檢測出它們。

L：在物理空間中製造假身份似乎比在數字空間中要困難一些。在數字空間中使用假身份的代價較低，除非我們準確追蹤到程式所有者。

A：是的，我們需要開始規定邊界，追蹤數字實體和人類實體並確定其所有者。目前機器人的能力飛速提升，而我們尚未構建起防禦措施。然而，我們終將解決這個問題。

讓特斯拉工程團隊實現軟體2.0

L：

軟體2。0這一概念在過去的幾個月中逐漸演化開來，能否對此做出一些解釋？

A：幾年前，我在一篇博文中提出了「軟體2。0」，這是因為我觀察到在軟體開發領域中，有很多程式碼並不是透過C++等語言編寫，而是透過神經網路生成程式碼。對於程式設計來說，這是一項重大的轉變，神經網路正在「接管」軟體領域。人們不再手工編寫程式碼，程式設計正規化轉變為收集訓練資料並設定訓練目標。我們需要將資料集、目標設定、架構設定透過編譯過程轉化為表示神經網路權重、前饋過程的二進位制語言。這一想法已經在諸多工業界的任務中得到了應用。

類比地看，在軟體1。0時代，我們在整合開發環境（IDE）中編寫程式碼、除錯程式碼、執行程式碼、在 GitHub上維護程式碼；而在軟體2。0時代，這種正規化則轉變為了Hugging Face這類模式。

L：你曾經是特斯拉的AI主管，你如何成規模地讓工程團隊實現軟體2。0？

A：在軟體2。0概念下，我們對計算機進行程式設計、影響演算法的方式並不是人工地編寫命令，而是對神經網路使用的資料集、網路架構、損失函式進行修改，如果訓練出的神經網路可以給出正確的答案，我們就可以部署這個系統。

L：為了完成各項任務，也許可以構建多頭神經網路。你如何將問題分解為一系列小任務？

A：以AutoPilot為例，許多在軟體1。0時代由C++編寫的程式可以逐漸由小型的神經網路替代，整個大的系統將這些小網路組合起來。我們也許擁有不止一個攝像頭，我們需要將根據各個攝像頭的影象得到的預測結果融合起來。我們可以將這個融合的過程交給神經網路完成，將各個軟體介面交由軟體2。0實現。神經網路可以比人類更加勝任編寫軟體的工作。

L：那麼這種預測是在4D空間進行的（隨時間變化的3D空間）。在軟體2。0下，如何在這樣的世界中進行資料標註？採用自監督的方式或是人類手工標註？

A：監督學習是目前工業界普遍可用的技術。因此，我們需要準備輸入資料集、輸出標籤，它們需要滿足以下三個特性：（1）大規模（2）準確（3）多樣。在此基礎之上，資料清洗的工作非常繁重。我們收集訓練資料的機制很多，例如：人工標註、模擬模擬、離線追蹤器（一種自動的三維重建過程）。

在特斯拉，我們從零開始構建了一個上千人的資料標註團隊。人類非常擅長於某些特定的標註工作（例如，2D影象標註），同時也有一些標註工作是人類不擅長的（例如，標註3維空間中隨時間變化的物體）。因此，我們分別將一些標註工作交給人類和離線追蹤器完成。

基於視覺的自動駕駛

：

你將駕駛任務形式化定義為了使用8個攝像頭的視覺任務，將攝像頭用於自動駕駛測試有何利弊？

A：人類也會使用視覺，畫素感測器能以極低的成本提供大量的資訊，這些資訊構成了對世界狀態的複雜、高頻寬的約束。

L：但是除了視覺之外，人類還會使用常識、物理等約束來認識世界。除了視覺感知，人類在對世界進行預測時還會用到推理等方法。

A：是的，人類對世界的演進形成了強大的先驗知識。不僅有根據資料得來的似然項，而是對資料的位置、運動方式等屬性的先驗項。

L：在自動駕駛任務中，可能發生的事件的複雜程度至關重要。其中存在哪些難點？

A：駕駛場景下，我們要實現心智理論，預測其它智慧體會做什麼。

L：從視覺的角度來說，自動駕駛任務中最困難的視覺問題是什麼？

A：儘管視覺感測器很強大，但是我們仍然需要對訊號進行精細的處理。最困難的問題是構建神經網路系統的整個工作流程。就資料引擎而言，它需要能夠訓練神經網路、迭代式地評估系統。而大規模地完成上述任務是十分困難的。此外，以較低的延遲在汽車晶片上部署系統也並非易事，此時算力、記憶體、頻寬都有限。

特斯拉的資料引擎

L：

能否介紹一下包含「人在迴路」的資料引擎？

A：如今，大多數神經網路的程式設計都要求資料集足夠大、足夠多樣、資料乾淨。接著，我們使用資料集訓練網路、部署網路，再觀察其效能。為了提升資料質量，我們試圖囊括一些罕見的場景，神經網路在這些場景下效能往往較差。我們可以重新構建這些場景下的資料，階梯式地完善訓練資料集。

實現自動駕駛的時間表

L：

你認為解決自動駕駛問題的時間表是什麼樣的？

A：我認為自動駕駛時間表的困難之處顯然在於，沒有人真正實現過自動駕駛。這並不像，你認為建造這座橋樑的時間表是什麼樣的？好吧，我們以前造過無數的橋，而這座需要這麼長時間。

沒有人實現過自動駕駛，答案並不清楚。有些部分比其他部分容易得多，這真的很難預測。你盡力而為，基於趨勢線等等，也基於直覺，但那就是為什麼從根本上說，真的很難預測。

L：福特和其他公司曾經做出預測，我們將在2020年，2021年，或某個特定時間解決L4級自動駕駛問題。而現在，這個預言證明他們都錯了。你如何形成一個強有力的表達，讓你能夠對於可解決性做出預測？你是很多人的領袖，你必須說，這實際上是可能的。如何建立這種直覺？

A：是的，專家級的直覺，僅僅直覺，一種信念。套用遊戲的類比，這裡有“戰爭迷霧”，但你肯定也能看到改進的前沿。可以通過歷史衡量，已經取得的進展。

我認為，例如，至少以我在特斯拉大約五年的時間裡所看到的，我加入公司時，它只能在高速公路上保持車道。我記得從帕洛阿爾託到舊金山，需要三到四次的人工干預。任何時候，道路有了任何幾何上的變化，或者轉彎太猛，它就無法運作。

在五年內，從那個狀態發展到一個具有相當能力的系統，並看到在表象之下，實際發生了些什麼，以及就資料，算力和其他一切而言，團隊現在運營的規模。這些都是巨大的進步。

早期的autopilot系統

L：這就像，你在爬山，雖然有霧，但你也在不斷取得很大的進展。

A：有霧，你正在取得進展，並且你看到接下來的方向是什麼。

你在看著剩下的一些挑戰，而它們並沒有干擾你，它們沒有改變你的哲學，而且你沒有扭曲自己。你會說，實際上這些就是我們仍然需要做的事情。

L：是的，解決問題的根本要素似乎就在那裡。從資料引擎，到車上的計算機，再到用於訓練的算力，所有這些要素。

離開特斯拉

L：

在特斯拉，這麼多年來，你已經實現了。。。你已經實現了很多驚人的突破性的想法和工程工作，所有這些。從資料引擎，到人員方面，所有這一切。你能說說，為什麼選擇離開特斯拉嗎？

A：基本上，正如我所描述的，在這五年裡，隨著時間的推移，我逐漸轉到管理崗位上。我大部分時間都是在開會，和發展組織，做出關於團隊的高層次的戰略決策，以及團隊應該做些什麼，等等。這有點像企業高管的角色。

我認為我做的還不錯，但這並不是我本質上最享受做的事情。我記得，當初加入公司時，還沒有計算機視覺團隊，因為特斯拉剛剛脫離第三方供應商MobilEye的依賴，開始搭建自己的計算機視覺系統。我加入的時候，有兩個人在訓練深度神經網路。他們的訓練工作是在腳邊的電腦上完成的，一臺工作站。

L：那是很基本的分類任務。

A：我把團隊從萌芽狀態，發展到了我認為是相當值得尊敬的一個深度學習團隊，一個大規模的計算叢集，一個非常好的資料標註團隊。我對團隊的情況非常滿意，團隊變得相當的自主，所以我可以退後一些。我很高興，能再次從事更多的技術工作，重新專注AGI（通用人工智慧）。

這個決定很難，因為我顯然非常愛這家公司。我愛Elon，我愛特斯拉，離開是很困難的，我愛這個團隊。我認為，特斯拉會開展一些不可思議的工作。它是一家大規模的機器人公司，擁有大量的內部人才。而我認為，人形機器人將會很了不起。自動駕駛的交通運輸將會很了不起。所有這些都發生於特斯拉。作為它的一部分，並幫助它成長，我很享受這個過程。我很高興有可能在未來某個時候，回到特斯拉開啟第二篇章，從事Optimus或AGI的工作。

Optimus量產

L：

你提到了人形機器人，你對於Optimus特斯拉機器人有什麼看法？你認為10年，20年，30年，40年，50年後，工廠和家庭中會有機器人嗎？

A：是的，我認為這是一個非常困難的專案，我認為需要一些時間。但還有誰在大規模地生產人形機器人？我認為，這是一個值得追求的非常好的外形尺寸。因為就像我提到的，這個世界是為人形尺寸設計的。這些東西將能夠操作我們的機器，它們將能坐在椅子上，甚至有可能駕駛汽車。基本上，這個世界是為人類設計的。這就是你想投資的外形尺寸，並且隨著時間的推移，使其發揮作用。

我認為，還有另外一派想法，那就是，選擇一個問題，並設計機器人來解決它。但實際上，設計機器人，讓整個資料引擎和它背後的一切技術都運作起來，實際上是一個非常困難的問題。

尋求通用的介面，是合理的。對於任何一個特定的任務，它們都不是完美的，但它們實際上具有通用性，只要給它英語指示，就能完成一些事情。我認為，在物理世界中尋求一個通用的介面，是非常合理的。

我認為，這是個非常困難的專案，將需要一些時間。但我認為，沒有其他公司能夠基於這一願景執行。我認為它將令人驚奇，它基本上代表著勞動力。如果你認為交通運輸是一個巨大的市場，那就試試勞動力市場吧，很瘋狂。

L：嗯，但對我來說，這不僅僅是勞動力，同樣令人興奮的是，社會性的機器人。我們與這些機器人在不同層面上建立的關係。這就是為什麼我看到Optimus時非常激動。人們因為我的激動而批評我。

A：是的，正如你所提到的，之所以能這麼快，是因為從autopilot系統中，複製貼上了大量的技術。特斯拉在生產人形機器人方面擁有大量的專業技術，讓人難以置信。

有一次Elon說，我們要開發機器人。然後基本上第二天，所有這些CAD模型就開始出現了，而人們開始討論供應鏈和生產製造。人們帶著螺絲刀和所有工具出現了，並開始把機器人的身體組裝在一起。我當時就說，哇，所有這些人，特斯拉都有。從根本上說，生產汽車和生產機器人並沒有什麼區別。的確如此，不僅僅是對於硬體而言。我們也不要忘記，硬體不僅僅是為了演示，大規模生產這些硬體，是一件完全不同的事情。而對於軟體來說，也是如此。基本上，這款機器人目前認為自己是一輛汽車。

L：後續問題是，我們開車，操控物體，這個任務有多難，以至於進行規模化，它就可以產生影響？我認為，根據不同的場景，機器人技術的好處在於，除非用於製造業，它會有更大的容錯空間。對於駕駛來說，安全性至關重要，時間精度也非常重要。

A：（規模化）需要很長的時間。制定產品發展路線圖，獲得收入是至關重要的。我不會給自己設定一個非零即一的損失函式：在它成功之前，是無法運作的。我們不希望處於這種境地。我們想讓它幾乎立即運作起來，然後，我們想要慢慢地部署它，並進行規模化。我們想要搭建我們的資料引擎，我們的改進迴圈，測量，評估，控制管理，以及所有的流程。我們想要隨著時間的推移，逐步改進產品。而且我們在這一過程中獲得收入，這一點至關重要。因為否則的話，我們將無法推進這些大型專案，那在經濟上並不合理。

而且從工作團隊的角度來看，他們也需要一路都獲得多巴胺。他們不能接受，只是承諾這會成為有用的產品，一旦成功，它將在10年內改變世界。這不是我們想要的方式。我們想要的方式類似於今天的autopilot，它提供了不斷增強的安全性和駕駛的便利性，就在今天。人們為它掏錢，人們喜歡它，人們購買它。然後，你也有更大的使命，正在努力實現。

L：團隊的多巴胺，是快樂的來源。

A：沒錯，我們部署這個產品，人們喜歡它，人們駕駛試用它，人們為它掏錢，他們關心它，釋出所有這些油管影片。你的奶奶駕駛試用它，她給你反饋。人們喜歡它，人們參與其中，你參與其中，這無比重要。

生物演進

L：

作為忠實的生物學愛好者，你認為有什麼重要的事是生物神經網路可以完成而計算機還不能做到的？

A：如今，將神經網路與人腦類比是值得商榷的。誠然，神經網路的起源受到了人腦的啟發，但如今透過訓練得到的人工智慧的最佳化過程和人腦的最佳化過程有很大區別。人腦透過長時間的多智慧體的自博弈（self-play）過程不斷演化，大腦中的預測模型對於人類的存活和繁衍至關重要。而神經網路的最佳化實際上是對於大量資料的壓縮。

L：人類由單個受精卵發育成胚胎，進而構建出器官和肢體，而DNA起到了編碼的作用。這個發育的過程伴隨著「學習和計算」。而縱觀地球上的生命史，你認為最有趣的創造是什麼？是物種起源，真核生物的誕生，哺乳動物、人類、智力的起源還是整個連續的過程？

A：從整個太陽系、地球的物質構成，生命的起源開始，生命的演進是非常傳奇的故事。作為人工智慧研究者，我認為人類的特別之處在於，人類在非常短的時間內形成了其他動物沒有形成的科技社會。

L：有兩種有趣的解釋：（1）人類並不特別，所有的一切都寫在了基因編碼中，人類會越來越聰明，在多智慧體的博弈中存活下來，這是一種自然的演化過程（2）有一些特殊的罕見事件發生了（例如，火的發明、太空漫遊）。那麼有哪些神奇的事情說明人類智慧在宇宙中是特別的存在？

A：人類智慧是否罕見尚不可知。但似乎在進化過程中會透過探索斷斷續續達到一些均衡點，從而實現一些稀疏的飛躍。例如，DNA、性別、真核生物系統、意識的出現。

外星文明

L：

你認為存在多少有智慧的外星文明？他們的智慧與人類是否相似

A：我一直都在思考這個問題。我想知道在宇宙中，科技社會的存在是否普遍。而隨著我研究的深入，我認為這樣的科技社會應該相當多。

L：贊成，但是人類在地球上所取得的成就為什麼很難實現？

A：我曾經認為宣告的起源是非常神奇、罕見的事情。但是如果我們關注更加基礎的化學上的細節，我們就會發現這一過程也可能在其它系統中發生。

實際上，在地球形成不久後，生命的起源就開始了。

ImageNet已被擊敗

L：

著名的ImageNet資料集近期在學術界有一些負面評價，你認為在機器學習研究中資料集的優勢和劣勢分別是什麼？

A：網際網路本身就是一個基準，允許深度學習社群證明深度神經網路確實有效，這當中有很大的價值。ImageNet很有用，但它在這方面變得有點像Minist資料集了，Minist資料集是28×28畫素點的資料集，基本上快成為一個用來搞笑的資料集了。Imagenet已被擊敗，在1，000種分類預測方式中獲得了90%的準確率。如果我沒記錯的話，目前前五名的錯誤率是1%左右。

L：鑑於您擁有構建龐大的現實世界資料集的經驗，您是否希望看到基準資料集朝著研究社群使用的特定方向發展？

A：不幸的是，我認為學術界目前還沒有下一個Imagenet。很明顯，我認為我們已經擊敗了Emnist，我們基本上已經擊敗了imagenet。目前整個學術社群還沒有下一個大的基準。

L：我們可以用很少的資料來訓練和構建一個知識庫嗎？

A：當然，百分百。我只是覺得在未來某一時刻，你一定需要一個龐大的資料集。在經過大規模神經網路的預訓練之後，獲得類似GPT的模型，就可以高效地訓練任意新任務了。因此比如在GPT上，透過較少的提示可以實現情感分析或者翻譯之類的任務。一個輸入語句，德文翻譯。一個輸入語句，空白。神經網路會自動根據前面的示例完成德語翻譯。

這是小樣本學習的一個示例。我認為，就像人類一樣，神經網路在學習其他新任務時會變得非常資料高效，但前提是，某一點上，需要大量資料集來進行預訓練。

L：人類有類似的東西嗎？我們是否在「後臺」有一個構建系統，一直在以自監督的方式運轉著，只是我們沒有意識到這一點。

A：人類絕對是這樣，我們在一生中學到了很多東西，也有大量的硬體幫助我們，初始化，進行某種進化。不知何故，進化就這樣找到了解碼這些演算法的方式。這些神經網路的初始化非常適合蛋白質鹼基對。

L：從單個細胞到生命最初幾年出生的有機體，挺神奇的。我們不記得生命最初幾年的任何事情是因為這是一個非常痛苦的過程，就像一個非常困難的智力訓練過程。之所以不記得，是因為一些瘋狂的訓練正在進行中。

A：我認為這就像長期記憶的硬體還沒有完全開發。我覺得嬰兒的最初幾年並不像學習，而是大腦還未發育成熟。有一些關於產道的理論，是大腦逐漸成熟的過程。最終才能學習。

神經網路的本質

L：

何為神經網路？為什麼它能如此好地進行學習？

A：最初，神經網路是一種對人腦工作機制的數學化的抽象。歸根到底，它是一種簡單的數學表示式，可以寫作矩陣乘法（點積）、非線性運算元等操作構成的序列，包含若干個計算節點。我們可以寬泛地認為這種節點就好比人腦中的突觸，它們可以被訓練、修改。我們要合理設定這些計算節點，使其完成各種任務。人們不要過於糾結賦予神經網路與大腦相對應的意義。

L：正是如此。詩歌本質上也是字母和空格的組合，但是它能讓人有奇妙的感觸。同理，計算機和大腦中的這些計算節點組合起來也產生了令人驚訝的力量。

A：當足夠大的由神經元組成的網路在足夠複雜的問題上訓練時（例如，預測大規模網際網路資料中下一個詞），往往會產生神奇的結果。

L：那麼，在我們對話時，你的大腦會預測我要說的下一個詞嗎？或者它在做其它更有趣的事嗎？

A：我們的大腦就好比一個與GPT類似的生成模型，對話的另一方會給出一些提示（prompt），而你也會根據自己的結構化知識（例如，記憶）加入一些額外的提示。

L：但是，如果要對你一生中所說過的話進行搜尋，搜尋的規模可能很大。同時，你也許透過同樣的語序說過很多單詞。

A：是的，我們重新組合一些常用的短語組成獨特的句子。

L：許多人認為神經網路並不可信。你如何看待神經網路產生的令人意想不到的結果？

A：儘管從數學上說，神經網路非常簡單，它湧現出的神奇行為看似並不可信，但我們有時也確實低估了神經網路。實際上，我們非常擅長最佳化神經網路，如果我們讓它處理非常困難的問題，它會被迫在最佳化過程中學習到非常有趣的解。

L：直觀地說，網路中大量的計算節點得到的表徵從資料中捕獲了一些智慧和知識，你認為這些知識竟是什麼？

A：以目前大熱的 GPT 模型為例，它可以根據網際網路上的單詞序列預測下一個單詞。當我們利用足夠大規模的資料訓練好這些模型後，可以以任意方式為神經網路提供提示，要求網路解決一些問題。例如，你可以讓網路求解某個數學問題，它們就會基於在網際網路上見到的方法，給出與其幾乎一致的答案，這些答案看上去是正確的。

Transformer強大且穩定

L：

你見證了深度學習、人工智慧領域的發展，在你眼中該領域最精妙的想法是什麼？

A：就近期而言，Transformer可能是最棒的想法。實際上，流行的神經網路架構經歷了數次更迭。我們可以採用不同的神經網路分別處理視覺、音訊、文字資料。近年來，我們看到Transformer架構趨向於統一地處理各種資料。自2016年論文「Attention is All You Need」問世以來，Transformer逐漸發展為一種通用的可學習計算架構，並且可以高效地在硬體上執行。

L：作者是不是並沒有意識到這篇文章將會產生的巨大影響？

A：這我並不確定。儘管它們並不一定有完整的先見之明，但是我認為他們清楚地明白超越Transformer本身的設計動機。他們並不是僅僅提出了一種很棒的可微、可最佳化的高效的翻譯計算架構。

L：「Attention is All You Need」這篇文章的標題像是一個梗，之前貌似沒有人這麼給文章起標題？嚴肅些是不是會更好？

A：是的，但如果標題嚴肅一些，可能影響力就不會那麼大了。

L：你曾在推文中寫道「Transformer 是一種出色的神經網路架構，它是一種通用的可微計算器。它同時具備以下特性：（1）在前向傳播中有出色的表達能力（2）可透過反向傳播+梯度下降進行最佳化（3）透過高度並行的計算圖實現高效計算」，能否對上述論點做出解釋？

A：研究者們希望希望通用計算架構可以在任意的問題上訓練，設定其權重。我認為Transformer的作者有意地同時考慮了很多設計準則，因此成為了一種成功的強大架構。實際上，它在前向傳播時進行了一些通用的計算（例如，透過「鍵-值」自注意力的方式在存有向量的節點之間廣播、聚合節點所需的資訊來實現資訊傳遞）。

Transformer不僅包含注意力機制，還融合了殘差連線、層歸一化、softmax等許多其它可最佳化的元件（例如，透過殘差連線來組織堆疊起來的多層感知機）。這十分重要，因為有許多強大的計算機構是我們難以透過現有的「反向傳播+梯度下降」這種簡單的一階最佳化演算法來最佳化的。

我們還希望讓計算架構在吞吐量巨大的硬體上高效執行。例如，在GPU上，我們更青睞大量的平行計算而非序列計算，而Transformer的設計也考慮到了這些因素。

L：你曾說Transformer中的「殘差連線」具有首先快速學習「短演算法」，並在訓練過程中逐漸將其擴充套件地「更長」。怎樣理解「短演算法」？

A：Transformer由一系列包含自注意力和多層感知機的模組組成，而在執行這兩種操作之後的結果會與執行它們之前的輸入透過殘差連結相加。我們將這樣的模組按順序堆疊起來。

在反向傳播中，殘差連結使得梯度流更加連續，它透過加法將梯度均勻地分配到各個分支，使得由頂層監督訊號傳出的梯度能夠直接傳到第一層，而在初始化時它們對殘差通路則沒有影響。由於殘差連結的存在，我們可以透過動態的最佳化學習「短演算法」得到近似的張量，從而逐步最佳化各層。

有趣的是，Transformer網路具有很強的「彈性」，它很穩定。我們當前使用的Transformer與2016年提出的原始Transformer相差無幾（除了有時會對層歸一化操作的順序進行調整）。當然，研究者們提出了一些附加的元件來提升其效能。總而言之，我認為Transformer本身就同時針對許多理想的神經網路架構的特性進行了最佳化，所以至今十分穩定。

用語言模型理解世界

L：

語言模型是Transformer的成功應用之一。你對GPT等語言模型感到驚訝嗎？就自然語言而言，GPT以及其它比它更大的語言模型有什麼缺點？

A：我們透過利用網際網路上的海量文字資料訓練GPT，使他試著預測序列中的下一個單詞。實際上，人們對語言模型的研究已經有很長的歷史。早在2003年，Bengio等人就曾試圖將3到5個詞輸入給多層感知機神經網路，並令其預測接下來單詞。只不過，他們使用的資料集較小，網路也並非Transformer。在更早期的研究中，人們利用基於計數的N-gram模型構建語言模型。

因此，在語言模型的研究領域中，令人興奮的是當我們將語言模型擴充套件到強大的Transformer上，在多工場景下（例如，化學、物理、人性）使用足夠大的資料集訓練它，得到了一些驚喜的特性。儘管學習目標很簡單，但是模型需要對世界有很全面的認識，才能得到很好的預測結果。

L：面對各種各樣的上下文，語言模型究竟在搜尋什麼？處理過程是怎樣的？

A：為了在網際網路上收集到的完整的資料集上獲得優異的效能，語言模型需要理解上下文。當我們使用Transformer等強大的架構構建 GPT 等語言模型時，可以透過上下文學習（In-Context Learning）等方法得到一些有趣的性質。在GPT的原始論文中，我們可以透過各種方式對模型施加提示，讓其補全句子。

L：你認為語言模型是否做了與人類理解語言類似的事情？

A：我認為語言模型透過訓練模型中的權重實現了一部分「理解」功能，為了更好地預測序列中的下一個單詞，它必須對世界有所瞭解。

L：你如何看待使用來自網際網路的資料訓練模型？網際網路上有足夠的結構化資料向人工智慧傳授人類文明嗎？

A：網際網路上有海量的資料，但我不敢確切地說它是否有足夠完整的文字資料來訓練強大的通用人工智慧系統（還要考慮音訊、影片、圖片等模態的資料）。僅就文字資料本身而言，也許仍然有很多資訊我們並沒有透過文字的方式記錄，這是一些常識（例如，某些物理規律）。

文字是人類交流的一種媒介，但它並不能全方位地包含世界知識。我們也許可以透過其它模態的資料幫助模型學習更全面的知識，但是我們還沒有充分的訓練這樣的模型。因此也有許多研究者對該方向感興趣。

L：對於人類而言，往往並沒有人顯式地告知我們一些常識，我們透過與世界的互動，自然地領悟了它們。為了正確地補全句子，模型需要學習人類與世界互動的方式，在表徵中推理出隱含在網際網路資料中的常識。為此，你在專案「World of bits」中，訓練強化學習系統在網際網路空間中執行動作，這種系統對學習是否有幫助？

A：是的，我認為這對於很多模型來說是最終的邊界。「World of bits」我任職於 OpenAI 時參與的專案，神經網路可以感知到螢幕上的畫素作為輸入，並且使用滑鼠和鍵盤完成預定酒店等動作。數字領域中有一些為類人機器設定的運算元字設施的通用介面，就好比物理世界中有一些面向人類的通用介面。

該專案大約在 2015 年前後釋出，那時人工智慧界的風向與當下有很大差別。當時，人們對於從頭開始訓練強化學習有很高的熱情，出現了一系列讓神經網路玩 Atari 遊戲的工作（例如，AlphaGo）。事實證明，由於動作空間、狀態空間巨大，獎勵稀疏，強化學習是一種效率極低的訓練生津網路的方式。我們在「World of bits」中讓智慧體隨機初始化，試圖透過滑鼠和鍵盤完成預定任務。實際上，這種方式也不理智，必須很費力地完成預定任務才能得到獎勵。從頭開始學習缺乏大量的關於世界的知識。

如今，當我們回過頭來看這一專案，藉助於GPT等預訓練模型的初始化表徵，網路可以理解預定這一動作，可以更好地利用「World of bits」中強大的介面。此時，訓練的效率被大大提高。

Karpathy的一天

L：

作為世界上最有生產力、最聰明的人之一，你的富有成效的一天是怎麼度過的？平時幾點起床？

A：我不是一個早起的人，我是個夜貓子，八九點左右起床。我在讀博期間，通常凌晨3點睡覺，我覺得凌晨時間是很寶貴的，因為大家都睡著了。

東海岸，每天早上7、8點，已經開始有各種分散你精力的訊息了。但是凌晨3點，萬籟俱寂，你不會被打擾，有大量的時間去做事情。你需要在一些專案上積聚動力。你需要載入你的工作記憶體，甚至洗澡、睡覺的時候，都沉迷於某個問題，醒來的時候馬上進入狀態開始工作。

在解決某些問題的幾天裡幾乎是與世隔絕的，我不想被打擾。

在特斯拉的時候，解決問題意味著面臨各種障礙。比如，需要關聯到我的叢集中，調出VS程式碼編輯器，我可能會遭遇一些愚蠢的錯誤，各種各樣阻礙生產力的小問題。你需要遮蔽各種形式分散注意力的內容，比如新的故事、郵件、其他有趣的專案，你只想真正集中注意力。

我也可以抽出一些時間來分散注意力，但不能太多。早上我喝咖啡，常規地看一些新聞、推特、hackernews、華爾街日報等等。

L：在高效的一天，你通常可以專注工作多長時間？

A：我大概可以小几個小時專注，然後中間休息吃點東西。我正在使用一個跟蹤器，可以準確告訴我每天花在寫程式碼上的時間，即使在非常富有成效的一天，我仍然只花了大約6到8個小時。

這都是因為有太多的填充物。通勤、與人交談，食物等等。這就是生活的成本，只是維繫生命本身，和體內平衡，僅僅維持自己作為一個人本身要付出的成本都是非常高的。

L：在特斯拉工作是什麼體驗，是不是讓員工們突破他們的工作極限？

A：特斯拉在這方面幾乎是「臭名昭著」，是一種相對激烈的環境。相比於谷歌，我實習過3次的地方，在谷歌和DeepMind，整體基線是要高於前者的。偶爾會有間斷的平衡，會有爆發點。表面看上去有些瘋狂，有火藥味和衝刺。

L：你的電腦設定是什麼？開發環境呢？

A：我有一個大屏，27英寸的mac。旁邊是我的筆記本。做深度學習，所有東西都得是linux系統。mac執行VS Code。但實際上你有一個遠端資料夾，透過 ssh 你在其他地方的叢集上操作實際檔案。我認為當前最好的程式碼編輯器是VSCode。目前，我相信這是最好的IDE，它有大量的擴充套件。還有GitHub Copilot，這是非常有價值的。

（我最近和Python創始人Guido van Rossum交流，他也很喜歡用Copilot）

L：作為特斯拉的AI總監，包括在斯坦福的經歷，全世界都視你為AI專家，你是否患有冒名頂替綜合症（imposter syndrome）？

A：在特斯拉的5年間，我大量的時間都花在會議室裡。一開始加入特斯拉的時候，我在寫程式碼，後來寫的程式碼越來越少，我開始讀程式碼，後來讀的程式碼也越來越少。所以這只是一個自然漸進的過程。結果到後來，你意識到你應該當一個專家了。但事實上，真相來源於那些實際在寫程式碼的人。你不像之前那麼熟悉程式碼了。確實在這方面有一些不安全感。