一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

VLAs 仍然非常新，很多人发现很难理解 VLAs 和 LLMs 之间的区别。這裡深入探討這些 AI 系統在推理、感知和行動方面的不同。第一部分。讓我們分解關鍵區別，以及圍繞 LLM 包裝的 AI 代理與使用 VLA 模型的操作代理之間的不同： 1. 感知：它們如何感知世界代理（LLM）：處理文本或結構化數據，例如 JSON、API，有時還包括圖像。就像一個大腦處理乾淨、抽象的輸入。想像一下閱讀手冊或解析電子表格。適合結構化環境，但受限於輸入的數據。操作員（VLA）：從攝像頭獲取原始實時像素，以及傳感器數據（例如觸摸、位置）和本體感知（對運動的自我意識）。就像用眼睛和感官在世界中導航，適應動態、混亂的環境，如用戶界面或物理空間。 2. 行動：它們如何互動代理：通過調用函數、工具或 API 來行動。想像它像一個經理發送精確的指令，比如“通過 Expedia API 預訂航班。”這是有意的，但依賴於預構建的工具和清晰的接口。操作員：執行連續的低級動作，如移動鼠標光標、打字或控制機器人關節。就像一個熟練的工人直接操控環境，適合需要實時精確的任務。 3. 控制：它們如何做出決策代理：遵循一個緩慢的反思循環：計劃、調用工具、評估結果、重複。它是受限於令牌（受限於文本處理）和網絡（等待 API 響應）。這使得它在實時任務中顯得方法論但緩慢。操作員：在緊密的反饋循環中進行逐步決策。想像一下玩家對螢幕上的內容做出即時反應。這種速度使得流暢的互動成為可能，但需要強大的實時處理能力。 4. 學習數據：什麼推動它們的訓練代理：在大量文本語料庫、指令、文檔或 RAG（檢索增強生成）數據集上進行訓練。它從書籍、代碼或常見問題中學習，擅長對結構化知識進行推理。操作員：從演示（例如人類執行任務的視頻）、遠程操作日誌或獎勵信號中學習。就像通過觀察和實踐學習，適合那些明確指令稀缺的任務。 5. 失敗模式：它們的弱點...