創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
從技術(shù)路線上看,目前基于大模型的“大腦”技術(shù)路線正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現(xiàn)階段主要是 4 條技術(shù)路線:
實(shí)現(xiàn)人機(jī)語言交互、任務(wù)理解、推理和規(guī)劃,目前最為成熟。主要代表是谷歌的 SayCan 模型,通過預(yù)訓(xùn)練技能的價(jià)值函數(shù)對(duì)齊(Grounds)大語言模 型或者通過價(jià)值函數(shù)的訓(xùn)練使大語言模型對(duì)用戶指令進(jìn)行推理分解 獲得任務(wù)步驟。
彌合語言與視覺理解間的差距,讓機(jī)器人實(shí)現(xiàn)更準(zhǔn)確的任務(wù)規(guī)劃和決策。主要代表是清華大學(xué)的 CoPa 模型,利用嵌入在基礎(chǔ)模型(比如視覺語言模型的代表 GPT-4V)中 的常識(shí)知識(shí)為開放世界機(jī)器人操控生成一系列的自由度末端執(zhí)行器 姿勢(shì),生成的操控任務(wù)分為任務(wù)導(dǎo)向抓取和感知運(yùn)動(dòng)規(guī)劃。
在 VLM 基礎(chǔ)上增加運(yùn)動(dòng)控制,解決機(jī)器人運(yùn)動(dòng)軌跡決策問題。主要代表是谷歌的 RT-H 模型,學(xué)習(xí)語言和運(yùn)動(dòng), 并使用視覺上下文,通過利用語言-視覺-動(dòng)作結(jié)合的多任務(wù)數(shù)據(jù)集學(xué) 習(xí)更強(qiáng)大和靈活的動(dòng)作策略。
實(shí)現(xiàn)對(duì)物理世界環(huán) 境的全面感知,是未來的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型,將視覺、觸覺、語音等 3D 環(huán)境的各類 特征作為輸入,以形成場(chǎng)景外觀的初步印象,并通過多視圖關(guān)聯(lián)將印 象中的輸出融合到 3D,最終得到以對(duì)象為中心的場(chǎng)景特征。
此外,類腦智能和腦機(jī)接口等創(chuàng)新技術(shù)也為人形機(jī)器人“大腦”的 解決方案帶來無限可能。類腦智能是人工智能技術(shù)的進(jìn)一步延伸,是 通過對(duì)人腦生物結(jié)構(gòu)和思維方式進(jìn)行直接模擬,使智能體能夠像人腦 一樣精確高效處理多場(chǎng)景下的復(fù)雜任務(wù),是未來有望代替大模型的新 技術(shù)路線。腦機(jī)接口是在人腦與外部設(shè)備間建立連接通路的技術(shù),實(shí) 現(xiàn)人腦與外界設(shè)備的信息交換。未來有望基于腦機(jī)接口實(shí)現(xiàn)“大腦”的 “人+機(jī)”混合智能。
機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線消毒機(jī)器人 消毒機(jī)器人價(jià)格 展廳機(jī)器人 服務(wù)機(jī)器人底盤 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |