2025-08-18 拓墣產業研究院

人型機器人之窗：從視覺模型剖析人型機器人進展

焦點報告 AI人工智慧人機科技

意見反映字體大小小中大

摘要

現階段人型機器人模型發展重點包含視覺－動作學習模型(VLA)的優化，以及結合多元數據、提升指令解讀與理解人類意圖。在訓練數據方面，主要透過世界模型、人類影片與VR遠端訓練等方式，並更著重「第一人稱視角」，以增強其感知能力。儘管人型機器人的最終目標是實現通用性，但現階段模型發展仍面臨諸多挑戰，使歐美與中國廠商各自發展出不同的路徑。

一. 視覺模型為機器人感知核心
二. 人型機器人模型廠商布局動態
三. 拓墣觀點

圖一　人型機器人模型運作示意圖
圖二　人型機器人訓練資料說明
圖三　Apple HAT模型說明
圖四　ViLLA架構說明

表一　第一人稱視角和第三人稱視角算法比較
表二　第一人稱資料集舉要

會員專屬

您好，該資料屬會員權益方可瀏覽，您需成為會員且購買此產業項目權限才可觀看，詳細說明如下：

拓墣產業研究院之「產業資料庫」為付費的會員服務，若您尚未具備會員身份，歡迎您申請加入或是與我們的客服聯絡瞭解。
若您所屬公司機關已具有拓墣會員身份，並且設定予貴公司人員線上申請，請先行移至「申請會員帳號」填寫申請資料後送出，我們會儘快為您審核辦理。若未開放線上申請，請您詢問貴公司的承辦連絡人處理，謝謝。
由於貴公司無採購此產業項目，因此您將無法瀏覽此篇文章，欲查詢貴公司所購買的產業項目明細，請至「會員權益」查詢，謝謝。