目前大模型技術(shù)已從單純的大語言模型(LLM)發(fā)展到圖像-語言多模態(tài)模型(VLM)乃 至圖像-語言-動(dòng)作多模態(tài)模型(VLA),其中圖像-語言-動(dòng)作多模態(tài)模型(VLA)的推出,實(shí) 現(xiàn)了數(shù)據(jù)與處理任務(wù)的躍升。從文本到圖像再到現(xiàn)實(shí)世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù) 據(jù)規(guī)模的數(shù)量級(jí)迅速增長,大模型的應(yīng)用場景和價(jià)值量也成比例擴(kuò)張。
在人形機(jī)器人領(lǐng)域,AI 大模型將會(huì)從感知(語音、視覺)、決策、控制等多方面與人形 機(jī)器人結(jié)合,形成感知、決策、控制閉環(huán),提升機(jī)器人的智能水平。
未來人形機(jī)器人大模型的方向?qū)?huì)是感知-決策-控制一體化的端到端通用大模型,集合 大規(guī)模數(shù)據(jù)集管理、云邊端一體計(jì)算架構(gòu)、多模態(tài)感知與環(huán)境建模等技術(shù)。
1 微軟 ChatGPT
在機(jī)器人領(lǐng)域的應(yīng)用主要體現(xiàn)在兩個(gè)方面:自然語言交互和自動(dòng)化決 策。在自然語言方面,機(jī)器人可以通過 ChatGPT 來理解人類的自然語 言指令,并根據(jù)指令進(jìn)行相應(yīng)的動(dòng)作;在自動(dòng)化決策方面,機(jī)器人可以 通過 ChatGPT 來生成任務(wù)方案,根據(jù)任務(wù)要求做出相應(yīng)的決策。
柏林工業(yè)大學(xué)和 Google Robotics 團(tuán)隊(duì) PaLM-E
是最大的多模態(tài)視覺語言模型,在 PaLM 模型基礎(chǔ)上,引入了具身化和 多模態(tài)概念,實(shí)現(xiàn)了指導(dǎo)現(xiàn)實(shí)世界機(jī)器人完成相應(yīng)任務(wù)的功能。
2 谷歌 RT-2
全球第一個(gè)控制機(jī)器人的視覺-語言-動(dòng)作(Vision-Language-Action, VLA)模型,通過將 VLM 預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,能夠端到端直接 輸出機(jī)器人的控制。
斯坦福大學(xué)李飛飛團(tuán)隊(duì) VoxPoser
智能系統(tǒng) VoxPose 可以從大模型 LLM 和視覺語言模型 VLM 中提取可行 性和約束,以構(gòu)建 3D 仿真環(huán)境中的值地圖,供運(yùn)動(dòng)規(guī)劃器使用,用于 零樣本地合成機(jī)器人操縱任務(wù)的軌跡,從而實(shí)現(xiàn)在真實(shí)世界中的零樣 本機(jī)器人操縱。
3 Meta 和 CMU 團(tuán)隊(duì) RoboAgent
采用了大規(guī)模機(jī)器人數(shù)據(jù)集進(jìn)行訓(xùn)練,考慮到機(jī)器人在現(xiàn)實(shí)世界中的 訓(xùn)練和部署效率問題,Meta 將數(shù)據(jù)集限制到了 7500 個(gè)操作軌跡中,并 基于此讓 RoboAgent 實(shí)現(xiàn)了 12 種不同的復(fù)雜技能,包括烘焙、拾取物 品、上茶、清潔廚房等任務(wù),并能在 100 種未知場景中泛化應(yīng)用。
4 英偉達(dá) Eureka
該系統(tǒng)以 OpenAI 的 GPT-4 為基礎(chǔ),本質(zhì)是一種由大模型驅(qū)動(dòng)的算法生 成工具,能訓(xùn)練實(shí)體機(jī)器人執(zhí)行例如“轉(zhuǎn)筆”、“開抽屜”、“拿剪 刀”、“雙手互傳球”等多種復(fù)雜動(dòng)作。
5 英偉達(dá) GR00T
目標(biāo)是成為人形機(jī)器人通用大模型,旨在讓人形機(jī)器人理解自然語言文本、語音、視頻,以模仿人類運(yùn)動(dòng),并與現(xiàn)實(shí)世界互動(dòng)。
6 阿里云機(jī)器人大模型
方案集成了通義千問、通義萬相等基礎(chǔ)模型及阿里云物聯(lián)網(wǎng)平臺(tái),可賦予機(jī)器人知識(shí)庫問答、工藝流程代碼生成、機(jī)械臂軌跡規(guī)劃、3D 目標(biāo) 檢測和動(dòng)態(tài)環(huán)境理解等全方位能力,不僅可以大幅降低機(jī)器人開發(fā)的 門檻,還讓機(jī)器人輕松完成靈活性更高的非標(biāo)任務(wù),推動(dòng)機(jī)器人在更廣 泛的應(yīng)用場景落地。
7 華為盤古大模型
“盤古”大模型具備強(qiáng)大的語義理解、動(dòng)態(tài)規(guī)劃、多模態(tài)信號(hào)理解等能 力,將為人形機(jī)器人大模型的開發(fā)提供智能化決策基礎(chǔ)。依托盤古大模 型的數(shù)據(jù)處理能力,可建立豐富且高質(zhì)量的人形機(jī)器人數(shù)據(jù)集,并且充分發(fā)揮盤古大模型的多模態(tài)能力,實(shí)現(xiàn)復(fù)雜任務(wù)場景下綜合感知和任 務(wù)分解,提升各類泛化場景下的具身智能操作水平。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |