首頁 > 區(qū)塊鏈 > 大模型正在重構(gòu)機(jī)器人，谷歌Deepmind這樣定義具身智能的未來

大模型正在重構(gòu)機(jī)器人，谷歌Deepmind這樣定義具身智能的未來

時(shí)間：2024-01-06 11:26:39

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #大模型正在重構(gòu)機(jī)器人，谷歌Deepmind這樣定義具身智能的未來#】

文章來源：機(jī)器之心

圖片來源：由無界 AI生成

過去一年中，連連取得突破的大模型正在重塑機(jī)器人研究領(lǐng)域。

在最先進(jìn)的大模型成為具身機(jī)器人感知世界的「大腦」之后，機(jī)器人的進(jìn)化速度取得了遠(yuǎn)超想象的進(jìn)步。

7 月，谷歌 DeepMind 宣布推出 RT-2：全球第一個(gè)控制機(jī)器人的視覺 - 語言 - 動(dòng)作（VLA）模型。

只需要向?qū)υ捯粯酉逻_(dá)命令，它就能在一堆圖片中辨認(rèn)出霉霉，送給她一罐「快樂水」。

甚至能主動(dòng)思考，完成了從「選擇滅絕的動(dòng)物」到抓取桌子上的塑料恐龍這種多階段推理的飛躍。

在 RT-2 之后，谷歌 DeepMind 又提出了 Q-Transformer，機(jī)器人界也有了自己的 Transformer 。Q-Transformer 使得機(jī)器人突破了對(duì)高質(zhì)量的演示數(shù)據(jù)的依賴，更擅長依靠自主「思考」來積累經(jīng)驗(yàn)。

RT-2 發(fā)布僅兩個(gè)月，又迎來了機(jī)器人的 ImageNet 時(shí)刻。谷歌 DeepMind 聯(lián)合其他機(jī)構(gòu)推出了 Open X-Embodiment 數(shù)據(jù)集，改變了以往需要針對(duì)每個(gè)任務(wù)、機(jī)器人具體定制模型的方法，將各種機(jī)器人學(xué)的知識(shí)結(jié)合起來，創(chuàng)造出了一種訓(xùn)練通用機(jī)器人的新思路。

想象一下，只需向你的機(jī)器人小助理發(fā)出「為我打掃房子」或「為我們做一頓美味健康的飯菜」等簡(jiǎn)單的要求，它們就可以完成這些工作。打掃房間或做飯這種任務(wù)，對(duì)于人類來說很簡(jiǎn)單，但對(duì)于機(jī)器人來說，可真不容易，需要它們對(duì)世界有深度理解。

基于在機(jī)器人 Transformer 領(lǐng)域深耕多年的研究基礎(chǔ)，近期，谷歌宣布了一系列機(jī)器人研究進(jìn)展：AutoRT、SARA-RT 和 RT-Trajectory，它們能夠幫助機(jī)器人更快地做出決策，更好地理解它們身處于怎樣的環(huán)境，更好地指導(dǎo)自己完成任務(wù)。

谷歌相信隨著 AutoRT、SARA-RT 和 RT-Trajectory 等研究成果的推出，能為現(xiàn)實(shí)的世界機(jī)器人的數(shù)據(jù)收集、速度和泛化能力帶來增益。

接下來，讓我們回顧一下這幾項(xiàng)重要研究。

AutoRT：利用大型模型更好地訓(xùn)練機(jī)器人

AutoRT 結(jié)合了大型基礎(chǔ)模型（如大型語言模型（LLM）或視覺語言模型（VLM））和機(jī)器人控制模型（RT-1 或 RT-2），創(chuàng)建了一個(gè)可以在新環(huán)境中部署機(jī)器人用以收集訓(xùn)練數(shù)據(jù)的系統(tǒng)。AutoRT 可以同時(shí)指導(dǎo)多個(gè)配備了視頻攝像機(jī)和末端執(zhí)行器的機(jī)器人，在各種各樣環(huán)境中執(zhí)行多樣化的任務(wù)。

具體來說，每個(gè)機(jī)器人將根據(jù) AutoRT，使用視覺語言模型（VLM）來「看看四周」，了解其環(huán)境和視線內(nèi)的物體。接下來，大型語言模型會(huì)為其提出一系列創(chuàng)造性任務(wù)，例如「將零食放在桌子上」，并扮演決策者的角色，為機(jī)器人選擇需要執(zhí)行的任務(wù)。

研究人員在現(xiàn)實(shí)世界中對(duì) AutoRT 進(jìn)行了長達(dá)七個(gè)月的廣泛評(píng)估。實(shí)驗(yàn)證明，AutoRT 系統(tǒng)能夠同時(shí)安全地協(xié)調(diào)多達(dá) 20 個(gè)機(jī)器人，最多時(shí)共能協(xié)調(diào) 52 個(gè)機(jī)器人。通過指導(dǎo)機(jī)器人在各種辦公樓內(nèi)執(zhí)行各種任務(wù)，研究人員收集了涵蓋 77,000 個(gè)機(jī)器人試驗(yàn)，6,650 個(gè)獨(dú)特任務(wù)的多樣化數(shù)據(jù)集。

上圖呈現(xiàn)了 AutoRT 系統(tǒng)的運(yùn)作過程：（1）自主輪式機(jī)器人找到了一個(gè)有多個(gè)物體的位置。（2）VLM 向 LLM 描述場(chǎng)景和物體。（3）LLM 為機(jī)器人提出各種操作任務(wù)，并決定哪些任務(wù)機(jī)器人可以獨(dú)立完成，哪些任務(wù)需要人類遠(yuǎn)程控制，哪些任務(wù)不可能完成，然后做出選擇。（4）機(jī)器人嘗試選擇要做的任務(wù)，收集實(shí)驗(yàn)數(shù)據(jù)，并對(duì)數(shù)據(jù)的多樣性和新鮮度進(jìn)行評(píng)分。機(jī)器人將不斷重復(fù)這個(gè)過程。

AutoRT 具有利用大型基礎(chǔ)模型的潛力，這對(duì)于機(jī)器人理解實(shí)際應(yīng)用中的人類指令至關(guān)重要。通過收集更全面的實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)和更多樣化的數(shù)據(jù)，AutoRT 能夠擴(kuò)展機(jī)器人的學(xué)習(xí)能力，為現(xiàn)實(shí)世界的機(jī)器人訓(xùn)練帶來提升。

在機(jī)器人融入我們的日常生活之前，需要保證它們的安全性，這要求研究者做到負(fù)責(zé)任地開發(fā)，并對(duì)機(jī)器人的安全性進(jìn)行深度研究。

雖然 AutoRT 現(xiàn)在只是一個(gè)數(shù)據(jù)收集系統(tǒng)，但可以將其視為現(xiàn)實(shí)世界中自主機(jī)器人的早期階段。它具有安全護(hù)欄，其中一項(xiàng)是一套以安全為重點(diǎn)的提示詞，它能夠在機(jī)器人執(zhí)行基于 LLM 的決策時(shí)提供需要遵守的基本規(guī)則。

這些規(guī)則部分受到艾薩克?阿西莫夫的機(jī)器人三定律的啟發(fā)，其中最重要的是機(jī)器人「不得傷害人類」。安全規(guī)則還要求機(jī)器人不得嘗試涉及人類、動(dòng)物、尖銳物體或電器的任務(wù)。

僅在提示詞方面下功夫，也無法完全保證機(jī)器人實(shí)際應(yīng)用中的安全問題。因此，AutoRT 系統(tǒng)還包含實(shí)用安全措施層這一機(jī)器人技術(shù)的經(jīng)典設(shè)計(jì)。例如，協(xié)作機(jī)器人的程序被設(shè)定為如果其關(guān)節(jié)上的力超過給定閾值，則自動(dòng)停止，并且所有自主控制的機(jī)器人都能夠通過物理停用開關(guān)被限制在人類監(jiān)督員的視線范圍內(nèi)。

SARA-RT：讓機(jī)器人 Transformer（RT）變得更快、更精簡(jiǎn)

另一項(xiàng)成果 SARA-RT，可將機(jī)器人 Transformer（RT）模型轉(zhuǎn)換為更高效的版本。

谷歌團(tuán)隊(duì)開發(fā)的 RT 神經(jīng)網(wǎng)絡(luò)架構(gòu)已被用于最新的機(jī)器人控制系統(tǒng)，包括 RT-2 模型。最好的 SARA-RT-2 模型在獲得簡(jiǎn)短的圖像歷史記錄后，比 RT-2 模型的精確度高 10.6%，速度快 14%。谷歌表示，這是首個(gè)在不降低質(zhì)量的情況下提高計(jì)算能力的可擴(kuò)展注意力機(jī)制。

雖然 Transformer 功能強(qiáng)大，但它們可能會(huì)受到計(jì)算需求的限制，從而減慢決策速度。Transformer 主要依賴于二次復(fù)雜度的注意力模塊。這意味著，如果 RT 模型的輸入增加一倍（例如，為機(jī)器人提供更多或更高分辨率的傳感器），處理該輸入所需的計(jì)算資源就會(huì)增加四倍，從而導(dǎo)致決策速度減慢。

SARA-RT 采用了一種新穎的模型微調(diào)方法（稱為「向上訓(xùn)練」）來提高模型的效率。向上訓(xùn)練將二次復(fù)雜性轉(zhuǎn)換為單純的線性復(fù)雜性，從而大幅降低了計(jì)算要求。這種轉(zhuǎn)換不僅能提高原始模型的速度，還能保持其質(zhì)量。

谷歌希望許多研究人員和從業(yè)人員能將這一實(shí)用系統(tǒng)應(yīng)用于機(jī)器人技術(shù)及其他領(lǐng)域。由于 SARA 提供了加快 Transformer 速度的通用方法，無需進(jìn)行計(jì)算成本高昂的預(yù)訓(xùn)練，因此這種方法具有大規(guī)模推廣 Transformer 技術(shù)的潛力。SARA-RT 不需要任何額外的代碼，因?yàn)榭梢允褂酶鞣N開源的線性變體。

當(dāng) SARA-RT 應(yīng)用于擁有數(shù)十億個(gè)參數(shù)的 SOTA RT-2 模型，它能在各種機(jī)器人任務(wù)中實(shí)現(xiàn)更快的決策和更好的性能：

用于操縱任務(wù)的 SARA-RT-2 模型。機(jī)器人的動(dòng)作以圖像和文本指令為條件。

憑借其堅(jiān)實(shí)的理論基礎(chǔ)，SARA-RT 可應(yīng)用于各種 Transformer 模型。例如，將 SARA-RT 應(yīng)用于點(diǎn)云 Transformer（用于處理來自機(jī)器人深度攝像頭的空間數(shù)據(jù)），其速度能夠提高一倍以上。

RT-Trajectory：幫助機(jī)器人泛化

人類可以直觀地理解、學(xué)會(huì)如何擦桌子，但機(jī)器人需要許多可能的方式將指令轉(zhuǎn)化為實(shí)際的物理動(dòng)作。

傳統(tǒng)上，對(duì)機(jī)械臂的訓(xùn)練依賴于將抽象的自然語言（擦桌子）映射到具體的動(dòng)作（關(guān)閉抓手、向左移動(dòng)、向右移動(dòng)），這使得模型很難推廣到新任務(wù)中。與此相反，RT - 軌跡模型通過解釋具體的機(jī)器人動(dòng)作（如視頻或草圖中的動(dòng)作），使 RT 模型能夠理解「如何完成」任務(wù)。

RT-Trajectory 模型能自動(dòng)添加視覺輪廓，描述訓(xùn)練視頻中的機(jī)器人動(dòng)作。RT-Trajectory 將訓(xùn)練數(shù)據(jù)集中的每段視頻與機(jī)器人手臂執(zhí)行任務(wù)時(shí)抓手的 2D 軌跡草圖疊加在一起。這些軌跡以 RGB 圖像的形式，為模型學(xué)習(xí)機(jī)器人控制策略提供了低層次、實(shí)用的視覺提示。

在對(duì)訓(xùn)練數(shù)據(jù)中未見的 41 項(xiàng)任務(wù)進(jìn)行測(cè)試時(shí)，由 RT-Trajectory 控制的機(jī)械臂的性能比現(xiàn)有的 SOTA RT 模型高出一倍多：任務(wù)成功率達(dá)到 63%，而 RT-2 的成功率僅為 29%。

該系統(tǒng)的用途十分廣泛，RT-Trajectory 還可以通過觀看人類對(duì)所需任務(wù)的演示來創(chuàng)建軌跡，甚至可以接受手繪草圖。而且，它還能隨時(shí)適應(yīng)不同的機(jī)器人平臺(tái)。

左圖：只使用自然語言數(shù)據(jù)集訓(xùn)練的 RT 模型控制的機(jī)器人，在執(zhí)行擦桌子這一新任務(wù)時(shí)受挫，而由 RT 軌跡模型控制的機(jī)器人，在經(jīng)過 2D 軌跡增強(qiáng)的相同數(shù)據(jù)集訓(xùn)練后，成功規(guī)劃并執(zhí)行了擦拭軌跡。右圖：訓(xùn)練有素的 RT 軌跡模型在接到新任務(wù)（擦桌子）后，可以在人類的協(xié)助下或利用視覺語言模型自行以多種方式創(chuàng)建 2D 軌跡。

RT 軌跡利用了豐富的機(jī)器人運(yùn)動(dòng)信息，這些信息存在于所有機(jī)器人數(shù)據(jù)集中，但目前尚未得到充分利用。RT-Trajectory 不僅代表著在制造面向新任務(wù)高效準(zhǔn)確移動(dòng)的機(jī)器人的道路上又邁進(jìn)了一步，而且還能從現(xiàn)有數(shù)據(jù)集中發(fā)掘知識(shí)。

小編推薦下載