Copyright 2012-2025 家電庫 版權所有 京ICP備20132067號-1
北京智在無界科技有限公司(以下簡稱「智在無界」,英文為BeingBeyond)近日完成數千萬元融資,聯想之星領投,智譜Z基金、燕緣創投、彬復資本跟投,勢能資本擔任獨家財務顧問。資金將用于加大核心技術研發投入,加速現有模型迭代與產業化驗證,以持續提升技術壁壘與產品競爭力。
「智在無界」成立于2025年1月,專注人形機器人通用大模型的研發與應用。創始人盧宗青是北京大學計算機學院長聘副教授,曾任智源研究院多模態交互研究中心負責人,負責過首個國家自然科學基金委原創探索計劃通用智能體項目;多位核心成員均來自智源研究院,在強化學習、計算機視覺、機器人控制和多模態等領域有豐富的技術研發積累和應用落地經驗。
當前,數據規模與泛化能力是制約具身大腦性能提升的核心矛盾。一方面,具身智能機器人要實現高度擬人化的行動與決策能力,依賴海量且多樣化的數據進行深度訓練。這些數據覆蓋了日常瑣碎操作、復雜環境交互等各類場景,數據規模呈指數級攀升態勢。然而,數據采集過程仍面臨技術、資源等多重門檻,依賴大量人力且難度大,存儲成本更是隨著數據量激增而迅速攀升。
另一方面,即便有海量的數據支持,機器人在未知環境中要靈活應對新任務、新物體與新干擾,仍依賴于強大的泛化能力。然而,現有模型面對存在顯著差異的場景時,表現差強人意,難以將所學知識有效遷移至新情境,實際應用中適應性欠佳。
因此,如何在有限數據規模下提升泛化能力,成為具身大腦突破性能瓶頸、邁向實用化的關鍵挑戰。
「智在無界」所使用的預訓練數據(圖源/企業)
面向人形機器人的操作和運動兩大核心能力,「智在無界」將其通用大模型系統分為具身多模態大語言模型、多模態姿態大模型和運動模型三層,并搭建了自學習具身智能體框架。
盧宗青告訴硬氪,區別于其他模型,「智在無界」的預訓練數據來自互聯網端的人類運動和手部操作視頻,通過解析這些自然場景下的動作序列,構建機器人運動操作能力的預訓練基礎。這種以公開視頻數據為驅動的技術路線,突破了傳統方案對機器人真機數據的強依賴,可實現從 “人類行為示范” 到 “機器人動作生成” 的跨模態遷移。
具體而言,「智在無界」提出了多模態姿態模型,通過互聯網上豐富的視頻資源,包括如行走、舞蹈等人體全身運動,抓取物體、工具使用等第一人稱視角的手部精細操作數據,能夠為模型提供豐富且多元的動作樣本。通過這些視頻-動作數據,模型可學習到各種動作在不同環境下的表現形式,能依據實時的環境信息與任務要求,實現具有泛化性的端到端運動操作。
在具身多模態大語言模型方面,「智在無界」自主研發了Video Tokenizer技術,其強調時空環境的理解與推理能力,尤其是針對第一人稱視角視頻內容的解析。通過將連續視頻流解構為兼具時間序列與空間語義的視覺token單元,使得該模型能精準捕捉動作的時序邏輯,比如伸手、抬升手臂到抓起物體的連貫過程,并基于物體方位、肢體相對位置等空間特征理解物理世界和人類行為。
目前,雖然簡單的多模態大語言模型+運動操作策略已具備商業落地條件,但受真實場景中的動態環境變化影響,機器人的泛化能力難以適應,如何讓人形機器人具備自主學習能力,成為其實現商業化落地的關鍵突破點。
為此,「智在無界」提出Retriever-Actor-Critic框架,通過對真實交互數據的RAG(檢索增強生成)與強化學習,二者的協同應用,不僅能提升模型的響應準確性與用戶體驗,形成 “數據收集-模型優化-效果反饋” 的閉環,使機器人具備了動態適應多變場景的能力,為其規模化落地提供了可行的技術路徑。