您現在的位置是:首頁 > 動漫首頁動漫

5天使用者破百萬,ChatGPT背後有何玄機?

由 51CTO 發表于 動漫2023-01-27
簡介OpenAI後來將人類反饋強化學習(RLHF)應用於InstructGPT,這是一個大型語言模型(LLM)系列,旨在更好地理解和響應使用者提示中的指令

兔子頓什麼好吃

譯者:李睿

OpenAI又火了!近期許多人的朋友圈裡都混進了一個讓人既愛又怕的狠角色,以至於StackOverflow不得不急忙下架。

近日,OpenAI釋出了聊天AI ChatGPT,短短几天,其使用者量直衝百萬級,甚至伺服器一度被註冊使用者擠爆了。

這種被網友驚歎“超越谷歌搜尋”的神器究竟怎麼做到的?到底靠譜嗎?

5天使用者破百萬,ChatGPT背後有何玄機?

事件回顧

OpenAI公司日前釋出了ChatGPT,這是另一個基於旗艦GPT系列的大型語言模型(LLM),是一個專門用於對話互動的模型。使用者可以下載該公司的免費演示版本。

與釋出的大多數大型語言模型(LLM)一樣,ChatGPT的釋出也引發了一些爭議。在釋出之後的短短几個小時內,這個新的語言模型就在Twitter上引起了轟動,使用者紛紛上傳ChatGPT令人印象深刻的成就或者遭遇災難性失敗的截圖。

然而,從大型語言模型的廣泛角度來看,ChatGPT反映了該領域短暫而豐富的歷史,代表了在短短几年內取得了多大的進展,以及還有哪些基本問題有待解決。

無監督學習的夢想

無監督學習仍然是人工智慧社群追求的目標之一,而網際網路上有大量寶貴的知識和資訊。但直到最近,其中大部分的資訊都無法用於機器學習系統。大多數機器學習和深度學習應用程式都是被監督的,這意味著人類必須採集大量資料樣本並對每個樣本進行註釋,以訓練機器學習系統。

隨著Transformer架構(大型語言模型的關鍵元件)的出現,這種情況發生了變化。可以使用大量的無標記文字語料庫來訓練Transformer模型。它們隨機遮蔽文字的部分,並試圖預測缺失的部分。透過反覆執行這一操作,Transformer調整其引數,以表示大序列中不同單詞之間的關係。

這已被證明是一種非常有效和可擴充套件的策略。不需要人工標記,就可以收集非常大的訓練語料庫,從而允許建立和訓練越來越大的Transformer模型。研究和實驗表明,隨著Transformer模型和大型語言模型(LLM)的規模增大,它們可以生成更長的連貫文字序列。大型語言模型(LLM)還展示了大規模的應急能力。

迴歸監督學習?

大型語言模型(LLM)通常只有文字,這意味著它們缺乏試圖模仿的人類豐富的多感官體驗。儘管GPT-3等大型語言模型(LLM)取得了令人印象深刻的成果,但它們存在一些基本缺陷,使得它們在需要常識、邏輯、規劃、推理和其他知識的任務中無法預測,而這些知識通常在文字中被省略。大型語言模型(LLM)以產生幻覺反應、生成連貫但事實上虛假的文字以及經常誤解使用者提示的明顯意圖而聞名。

透過加大模型及其訓練語料庫的規模,科學家們已經能夠減少大型語言模型中明顯錯誤的頻率。但根本的問題並沒有消失,即使是最大的大型語言模型(LLM)也會在很小的推動下犯愚蠢的錯誤。

如果大型語言模型(LLM)只在科學研究實驗室中用於跟蹤基準測試的表現,這可能不會是一個大問題。然而,隨著人們對在現實應用中使用大型語言模型(LLM)越來越感興趣,解決這些問題和其他問題變得更加重要。工程師必須確保他們的機器學習模型在不同的條件下保持健壯,並滿足使用者的需求和要求。

為了解決這一問題,OpenAI使用了來自人類反饋強化學習(RLHF)技術,該技術此前開發用於最佳化強化學習模型。人類反饋強化學習(RLHF)不是讓強化學習模型隨機探索其環境和行為,而是使用來自人類主管的偶爾反饋來引導代理朝正確的方向前進。人類反饋的強化學習(RLHF)的好處是,它能夠以極小的人為反饋改善強化學習代理的訓練。

OpenAI後來將人類反饋強化學習(RLHF)應用於InstructGPT,這是一個大型語言模型(LLM)系列,旨在更好地理解和響應使用者提示中的指令。InstructGPT是一個GPT-3模型,它根據人類反饋進行了微調。

這顯然是一種權衡。人工註釋可能成為可擴充套件訓練過程中的瓶頸。但透過在無監督學習和有監督學習之間找到正確的平衡,OpenAI能夠獲得重要的好處,包括更好地響應指令、減少有害輸出和資源最佳化。根據OpenAI的研究結果,13億個引數的InstructionGPT在指令跟隨方面通常優於1750億個引數GPT-3模型。

5天使用者破百萬,ChatGPT背後有何玄機?

ChatGPT的訓練過程

ChatGPT建立在從InstructGPT模型中獲得的經驗之上。人工註釋器建立一組示例對話,其中包括使用者提示和模型響應。這些資料用於微調構建ChatGPT所基於的GPT-3。5模型。在下一步中,將為經過微調的模型提供新的提示,併為其提供若干響應。標註人員對這些反應進行排名。然後,從這些互動中生成的資料被用於訓練獎勵模型,這有助於在強化學習管道中進一步微調大型語言模型(LLM)。

OpenAI尚未披露強化學習過程的全部細節,但人們很想知道這個過程的“不可擴充套件的成本”,也就是需要多少人力。

能在多大程度上信任ChatGPT?

ChatGPT的結果令人印象深刻。該模型已經完成了各種各樣的任務,包括提供程式碼反饋、寫詩、用不同的音調解釋技術概念、為生成人工智慧模型生成提示。

然而,該模型也容易出現類似大型語言模型(LLM)所犯的那種錯誤,例如引用不存在的論文和書籍,誤解直觀的物理學,以及在組合性方面失敗。

人們對這些失敗並不感到驚訝。ChatGPT並沒有發揮什麼神奇的作用,它應該遇到與它的前一代同樣的問題。然而,在現實世界的應用中,可以在哪裡以及在多大程度上信任它?顯然,這裡有一些有價值的內容,正如人們在Codex和GitHubCopilot中所看到的,大型語言模型(LLM)可以被非常有效地使用。

在這裡,決定ChatGPT是否有用的是與它一起實現的工具和保護的種類。例如,ChatGPT可能成為為企業建立聊天機器人的一個非常好的平臺,例如編碼和圖形設計的數字伴侶。首先,如果它遵循InstructGPT的示例,那麼應該能夠以更少的引數獲得複雜模型的效能,這將使它具有成本效益。此外,如果OpenAI提供了工具,使企業能夠實現自己的人類反饋強化學習(RLHF)的微調,那麼它可以進一步針對特定應用程式進行最佳化,在大多數情況下,這比聊天機器人更有用,聊天機器人可以隨意談論任何事情。最後,如果為應用程式開發人員提供了將ChatGPT與應用程式場景整合,並將其輸入和輸出對映到特定應用程式事件和操作的工具,他們將能夠設定正確的護欄,以防止模型採取不穩定的操作。

基本上,OpenAI創造了一個強大的人工智慧工具,但具有明顯的缺陷。它現在需要建立正確的開發工具生態系統,以確保產品團隊能夠利用ChatGPT的力量。GPT-3為許多不可預測的應用開闢了道路,因此瞭解ChatGPT的庫存會很有趣。