首頁 > 區(qū)塊鏈 > OpenAI「登月計(jì)劃」劍指超級(jí)AI！LeCun提出AGI之路七階段，打造世界模型是首位

OpenAI「登月計(jì)劃」劍指超級(jí)AI！LeCun提出AGI之路七階段，打造世界模型是首位

時(shí)間：2023-12-18 15:20:41

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #OpenAI「登月計(jì)劃」劍指超級(jí)AI！LeCun提出AGI之路七階段，打造世界模型是首位#】

來源：新智元

圖片來源：由無界 AI生成

OpenAI「登月計(jì)劃」篤定了超級(jí)人工智能必定會(huì)到來，甚至近在眼前。而在LeCun看來，實(shí)現(xiàn)AGI還很遙遠(yuǎn)，打造出世界模型僅是第一步。

通用AGI，或許近在咫尺。

OpenAI下一步「登月計(jì)劃」，就是實(shí)現(xiàn)人類期待已久的超級(jí)人工智能，而到達(dá)這一步的前提是——解決超級(jí)AI對(duì)齊問題。

就在前幾天，首席科學(xué)家Ilya帶頭OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)取了的實(shí)質(zhì)性成果。他們發(fā)表的最新論文，首次確定了超級(jí)AI對(duì)齊的研究方向：

即小模型監(jiān)督大模型。

實(shí)證表明，GPT-2可以用來激發(fā)GPT-4的大部分能力，能夠達(dá)到GPT-3.5的性能。甚至還可以泛化到小模型失敗難題上。

其中，官方博客的第一句便是：我們相信超級(jí)智能可能會(huì)在未來10年內(nèi)出現(xiàn)。

再加上傳聞中即將面世的GPT-4.5，以及或許會(huì)在明年誕生的GPT-5，OpenAI似乎已經(jīng)準(zhǔn)備好迎接超級(jí)人工智能到來了。

然而，在LeCun看來，「超人AI」的發(fā)展不會(huì)一蹴而就，而是要經(jīng)歷多個(gè)階段逐漸完成。

第一階段：學(xué)習(xí)世界運(yùn)作方式

首先，是構(gòu)建能像小動(dòng)物一樣學(xué)習(xí)世界運(yùn)作方式的系統(tǒng)——可以觀察環(huán)境并從中學(xué)習(xí)，為發(fā)展更高級(jí)的AI能力打下基礎(chǔ)。而這也是AI進(jìn)化的關(guān)鍵一步。

相比之下，如今的語言模型如GPT-4或Gemini，主要關(guān)注的還是文本數(shù)據(jù)，這顯然遠(yuǎn)遠(yuǎn)不夠。

LeCun經(jīng)常嘲諷當(dāng)前AI的一句話是，「如今大模型的智力連貓狗都不如」。甚至在他看來，通往AGI路上，大模型就是在走歪路。

一直以來，他堅(jiān)信世界有一種「世界模型」，并著力開發(fā)一種新的類似大腦的AI架構(gòu)，目的是通過更真實(shí)地模擬現(xiàn)實(shí)世界來解決當(dāng)前系統(tǒng)的局限性，例如幻覺和邏輯上的缺陷。

這也是想要AI接近人類智力水平，需要像嬰兒一樣學(xué)習(xí)世界運(yùn)作的方式。

這個(gè)世界模型的架構(gòu)，由6個(gè)獨(dú)立的模塊組成：配置器模塊、感知模塊、世界模型模塊、成本模塊、短期記憶模塊，以及參與者模塊。

其中，核心是世界模型模塊，旨在根據(jù)來自感知模塊的信息預(yù)測(cè)世界。能夠感知人在向哪移動(dòng)？汽車是轉(zhuǎn)彎還是繼續(xù)直行？

另外，世界模型必須學(xué)習(xí)世界的抽象表示，保留重要的細(xì)節(jié)，并忽略不重要的細(xì)節(jié)。然后，它必須在與任務(wù)水平相適應(yīng)的抽象級(jí)別上提供預(yù)測(cè)。

LeCun認(rèn)為「聯(lián)合嵌入預(yù)測(cè)架構(gòu)」（JEPA）能夠解決這個(gè)難題。JEPA支持對(duì)大量復(fù)雜數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)，同時(shí)生成抽象表示。

今年6月，基于「世界模型」的愿景，他又提出了一個(gè)全新架構(gòu)I-JEPA。

論文地址：https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

不過，LeCun更高層次的愿景留下了許多未解決的問題，例如關(guān)于世界模型的架構(gòu)和訓(xùn)練方法的細(xì)節(jié)。

第二階段：目標(biāo)驅(qū)動(dòng)且有保護(hù)措施的系統(tǒng)

其次，是構(gòu)建目標(biāo)驅(qū)動(dòng)并在一定的保護(hù)措施下運(yùn)作的機(jī)器。

這些保護(hù)措施將確保AI系統(tǒng)在追求目標(biāo)時(shí)仍然安全可控。

第三階段：規(guī)劃與推理

隨著AI系統(tǒng)的不斷成熟，它們將發(fā)展出規(guī)劃和推理的能力，從而在遵守安全規(guī)范的前提下，實(shí)現(xiàn)既定目標(biāo)。

這將使AI系統(tǒng)能夠基于對(duì)世界的理解做出更加明智的決策，并采取合適的行動(dòng)。

第四階段：分層規(guī)劃

再進(jìn)一步，AI系統(tǒng)將能夠進(jìn)行分層規(guī)劃，從而大幅提升決策能力。

這將使AI系統(tǒng)更加高效地處理復(fù)雜任務(wù)和難題。

第五階段：增強(qiáng)機(jī)器智能

隨著AI的進(jìn)化，這些系統(tǒng)的智能將從最初的老鼠提升至類似狗或者烏鴉的水平。

在此過程中，為確保AI系統(tǒng)保持可控和安全，將需要不斷對(duì)其保護(hù)措施進(jìn)行調(diào)整。

第六階段：更廣泛的訓(xùn)練與微調(diào)

當(dāng)AI系統(tǒng)達(dá)到一定的智能水平時(shí)，就需要將它們放在不同環(huán)境和任務(wù)中接受訓(xùn)練，使其更加靈活，能夠應(yīng)對(duì)各種挑戰(zhàn)。

隨后，還需要對(duì)AI系統(tǒng)進(jìn)行微調(diào)，以便在特定任務(wù)上表現(xiàn)出色。

第七階段：超人類AI的時(shí)代

總有一天，我們開發(fā)的AI系統(tǒng)會(huì)在幾乎所有的領(lǐng)域超越人類智能。

但這并不意味著這些系統(tǒng)具備情感或意識(shí)。只不過是在執(zhí)行任務(wù)方面，會(huì)比人類做得更好。

同時(shí)，即使這些高級(jí)AI系統(tǒng)智力超群，它們也必須始終受到人類的控制。

根據(jù)LeCun之前提出的觀點(diǎn)，這理論上是可行的：由于智力水平與主導(dǎo)欲望之間并無直接聯(lián)系，而AI并不像人類那樣具有天生的主導(dǎo)欲望。因此，AI或許會(huì)愿意為智力上不及它們的人類服務(wù)。

當(dāng)然，這種情況在未來5年內(nèi)不太可能出現(xiàn)。

LLM自我迭代，走向AGI

為了讓超級(jí)AI系統(tǒng)能夠迭代學(xué)習(xí)，持續(xù)完成任務(wù)并不斷改進(jìn)效果，當(dāng)前的許多框架采用了可識(shí)別的過程。
類似于下圖中的結(jié)構(gòu)，包括反饋控制和強(qiáng)化學(xué)習(xí)。

另外，還可以采用一些附加功能，以最大限度地減少人工輸入并增強(qiáng)流程自動(dòng)化。

那么，上面展示的迭代學(xué)習(xí)系統(tǒng)是如何運(yùn)行的？

首先，人類將廣義定義的任務(wù)分配給智能體。

任務(wù)通常采取提示的形式，概述主要目標(biāo)，例如，「探索環(huán)境，并完成盡可能多的不同任務(wù)」。

Planner（規(guī)劃）模塊以這個(gè)目標(biāo)為條件，將目標(biāo)分解為一系列可執(zhí)行的、可理解的任務(wù)。

由于LLM已經(jīng)在大量數(shù)據(jù)上進(jìn)行了訓(xùn)練，充分了解智能體運(yùn)行的環(huán)境，可以很好地支持目標(biāo)分解。此外，還可以補(bǔ)充上下文來增強(qiáng)LLM的性能。

當(dāng)Planner提供了一組派生的子任務(wù)后，Selector負(fù)責(zé)確定最合適的下一個(gè)子任務(wù)（滿足先決條件，且能產(chǎn)生最佳結(jié)果）。

Controller的工作是生成當(dāng)前子任務(wù)所需要的操作。然后，生成的操作被引入到環(huán)境中。

在這個(gè)過程中，使用Memory塊檢索最相似的學(xué)習(xí)任務(wù)，將它們集成到其正在進(jìn)行的工作流中。

為了評(píng)估最近操作的影響，Critic會(huì)監(jiān)視環(huán)境狀態(tài)，提供反饋，包括識(shí)別缺點(diǎn)和失敗原因等。

Descriptor塊把環(huán)境和智能體的狀態(tài)描述為文本，作為Critic的輸入，然后，Critic為Planner提供全面的反饋，以協(xié)助進(jìn)行下一次試驗(yàn)。

下面來看一下系統(tǒng)中每個(gè)模塊的一些具體細(xì)節(jié)。

規(guī)劃（Planner）

Planner負(fù)責(zé)組織整個(gè)任務(wù)，根據(jù)智能體的當(dāng)前狀態(tài)和水平來協(xié)調(diào)學(xué)習(xí)過程。

通常會(huì)假設(shè)基于LLM的Planner在訓(xùn)練中接觸過類似的任務(wù)分解過程，但這個(gè)假設(shè)在這里并不成立。

因此，研究人員提出了一種方法：從環(huán)境手冊(cè)文本中提取所有相關(guān)信息，總結(jié)成一個(gè)小尺寸的上下文，并連接到提示中。

在現(xiàn)實(shí)生活中的應(yīng)用程序中，智能體會(huì)遇到各種不同復(fù)雜程度的環(huán)境，這種簡(jiǎn)單而有效的方法，可以避免頻繁為新任務(wù)進(jìn)行微調(diào)。

Planner模塊與VOYAGER和DEPS在某些方面類似。

VOYAGER使用 GPT-4作為自動(dòng)課程模塊，試圖根據(jù)探索進(jìn)度和智能體的狀態(tài)提出越來越難的任務(wù)。它的提示包括：

在設(shè)定約束條件的同時(shí)鼓勵(lì)探索;
當(dāng)前智能體的狀態(tài)；
以前完成和失敗的任務(wù)，
來自另一個(gè)GPT-3.5自問答模塊的任何其他上下文。

然后，VOYAGER輸出要由智能體完成的任務(wù)。

DEPS在不同環(huán)境中使用CODEX、GPT-4、ChatGPT和GPT-3作為L(zhǎng)LM規(guī)劃器，提示內(nèi)容包括：

強(qiáng)大的最終目標(biāo)（例如，在Minecraft環(huán)境中獲得鉆石）；
最近生成的計(jì)劃；
對(duì)環(huán)境的描述和解釋。

為了提高計(jì)劃的效率，DEPS還提出了一個(gè)狀態(tài)感知選擇器，從規(guī)劃器生成的候選目標(biāo)集中，根據(jù)當(dāng)前狀態(tài)選擇最近的目標(biāo)。

在復(fù)雜的環(huán)境中，通常存在多個(gè)可行的計(jì)劃，優(yōu)先考慮更接近的目標(biāo)可以提高計(jì)劃效率。

為此，研究人員使用離線軌跡訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，根據(jù)在當(dāng)前狀態(tài)下完成給定目標(biāo)所需的時(shí)間步長(zhǎng)進(jìn)行預(yù)測(cè)和排名。然后，Planner與Selector協(xié)作生成一系列要完成的任務(wù)。

控制（Controller）

Controller的職責(zé)是選擇下一個(gè)動(dòng)作來完成給定的任務(wù)。

Controller可以是一個(gè)LLM（例如VOYAGER），也可以是深度強(qiáng)化學(xué)習(xí)模型（例如DEPS），根據(jù)狀態(tài)和給定任務(wù)生成操作。

VOYAGER在交互式提示中使用GPT-4來扮演控制器的角色。

VOYAGER、Progprompt和CaP選擇使用代碼作為操作空間，因?yàn)榇a可以自然地表示時(shí)間擴(kuò)展和組合操作。在VOYAGER中生成代碼的提示包括：

代碼生成動(dòng)機(jī)指南；
可用的控制基元API列表及其描述；
從記憶中檢索到的相關(guān)技能或代碼；
上一輪生成的代碼、環(huán)境反饋、執(zhí)行錯(cuò)誤、Critic輸出；
當(dāng)前狀態(tài)；
思維鏈提示在代碼生成前進(jìn)行推理。

記憶（Memory）

人類的記憶一般可以分為短期記憶和長(zhǎng)期記憶：

短期記憶存儲(chǔ)用于學(xué)習(xí)和推理等任務(wù)的信息，可容納大約7件物品，持續(xù)約20-30秒。

所有基于LLM的終身學(xué)習(xí)方法，都是通過上下文學(xué)習(xí)來使用短期記憶，而上下文學(xué)習(xí)受到LLM上下文長(zhǎng)度的限制。

長(zhǎng)期記憶用于長(zhǎng)時(shí)間存儲(chǔ)和檢索信息，可以作為具有快速檢索功能的外部向量存儲(chǔ)來實(shí)現(xiàn)。

VOYAGER通過添加/檢索從外部向量存儲(chǔ)中學(xué)習(xí)到的技能，從長(zhǎng)期記憶中受益。

如下圖所示，上半部分描述了VOYAGER添加新技能的過程，下半部分表示技能檢索。

當(dāng)Critic驗(yàn)證代碼可以完成任務(wù)時(shí)，使用GPT-3.5生成代碼的描述。

然后，技能將被以鍵值對(duì)的形式（技能描述和代碼）存儲(chǔ)在技能庫中。

當(dāng)Planner生成一項(xiàng)新任務(wù)時(shí)，GPT-3.5會(huì)生成新的描述，然后從技能庫中檢索前5個(gè)相關(guān)技能。

添加長(zhǎng)期內(nèi)存可以顯著提高性能。上圖展示了技能庫對(duì)VOYAGER的重要性。

Controller同時(shí)利用短期記憶和長(zhǎng)期記憶，以生成和完善其策略。

評(píng)論（Critic）

Critic也是一個(gè)基于LLM的模塊，它對(duì)先前執(zhí)行的計(jì)劃進(jìn)行點(diǎn)評(píng)，并提供反饋。

Critic可以采用GPT-4，利用獎(jiǎng)勵(lì)信號(hào)、當(dāng)前軌跡以及持久記憶來生成反饋，這種反饋比標(biāo)量獎(jiǎng)勵(lì)提供了更多的信息，并存儲(chǔ)在內(nèi)存中，供Planner用于優(yōu)化計(jì)劃。

描述（Descriptor）

在基于LLM的終身學(xué)習(xí)中，Planner的輸入和輸出是文本。

雖然很多環(huán)境（如Crafter）是基于文本的，但有一些其他環(huán)境，會(huì)返回2D或3D圖像的渲染，或者返回一些狀態(tài)變量。

這時(shí)，Descriptor就可以充當(dāng)中間的橋梁，將其他模態(tài)轉(zhuǎn)換為文本，并將它們合并到LLM的提示中。

自主AI智能體

以上主要討論了將基礎(chǔ)模型與持續(xù)學(xué)習(xí)相結(jié)合的最新研究，這是實(shí)現(xiàn)AGI的重要一步。

而最近的AutoGPT和BabyAGI等幾個(gè)工作又帶給人們新的啟發(fā)。

這些系統(tǒng)接受任務(wù)后，將任務(wù)分解為子任務(wù)，自動(dòng)進(jìn)行提示和響應(yīng)，并重復(fù)執(zhí)行，直到實(shí)現(xiàn)提供的目標(biāo)。

他們還可以訪問不同的API，或者訪問互聯(lián)網(wǎng)，大大擴(kuò)展自己的應(yīng)用范圍。

AutoGPT可以訪問互聯(lián)網(wǎng)，并能夠與在線和本地的應(yīng)用程序、軟件和服務(wù)進(jìn)行交互。

為了實(shí)現(xiàn)人類給出的更高層次的目標(biāo)，AutoGPT使用一種稱為Reason and ACT （ReACT）的提示格式。

ReACT使智能體能夠接收輸入、理解并采取行動(dòng)、根據(jù)結(jié)果進(jìn)行推理，然后在需要時(shí)重新運(yùn)行該循環(huán)。

由于AutoGPT可以自己提示自己，所以可以在完成任務(wù)的同時(shí)進(jìn)行思考和推理，尋找解決方案，丟棄不成功的解決方案，并考慮不同的選擇。

BabyAGI是另一個(gè)最近推出的自主AI智能體，上面是它的流程圖。它有三個(gè)基于LLM的組件：

任務(wù)創(chuàng)建智能體：提出了一個(gè)任務(wù)列表（類似于Planer）；
優(yōu)先級(jí)智能體：嘗試通過LLM提示（類似于Selector）確定任務(wù)列表的優(yōu)先級(jí)；
執(zhí)行智能體（類似于Controller）：執(zhí)行具有最高優(yōu)先級(jí)的任務(wù)。

AutoGPT和BabyAGI都使用向量數(shù)據(jù)庫來存儲(chǔ)中間結(jié)果并從經(jīng)驗(yàn)中學(xué)習(xí)。

局限性和挑戰(zhàn)

不過，大語言模型（LLM）在終身學(xué)習(xí)過程中仍然存在一些問題。

首先就是模型有時(shí)會(huì)出現(xiàn)幻覺、捏造事實(shí)或安排不存在的任務(wù)，而且在一些研究中，將GPT-4換成GPT-3.5會(huì)嚴(yán)重影響性能。

其次，當(dāng)大語言模型扮演規(guī)劃者（Planner）或評(píng)論者（Critic）時(shí)，它們的表現(xiàn)可能不夠準(zhǔn)確。——比如評(píng)論者可能提供錯(cuò)誤的反饋，而規(guī)劃者可能重復(fù)同樣的計(jì)劃。

另外，大語言模型的上下文長(zhǎng)度限制了它們的短期記憶能力，這影響了模型保存詳細(xì)的過往經(jīng)驗(yàn)、具體指令和控制原語API。

最后，多數(shù)研究假設(shè)大語言模型已經(jīng)掌握了進(jìn)行終身學(xué)習(xí)所需的全部信息，但這種假設(shè)并不總是成立。

所以研究人員為智能體提供互聯(lián)網(wǎng)訪問（如AutoGPT），或提供文本材料作為輸入上下文（如本文介紹），這些方法對(duì)之后的研究提供了幫助。

參考資料：

https://the-decoder.com/heres-how-we-get-to-superhuman-ai-according-to-metas-yann-lecun/
https://towardsdatascience.com/towards-agi-llms-and-foundational-models-roles-in-the-lifelong-learning-revolution-f8e56c17fa66

小編推薦下載