المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لا تزال VLAs جديدة جدا ويجد الكثير من الناس صعوبة في فهم الفرق بين VLAs و LLMs.
فيما يلي نظرة عميقة على كيفية اختلاف أنظمة الذكاء الاصطناعي هذه في التفكير والاستشعار والعمل. الجزء 1.
دعنا نقسم الفروق الرئيسية وكيف تختلف عوامل الذكاء الاصطناعي الملفوفة حول LLM عن وكلاء المشغل الذين يستخدمون نماذج VLA:
1. الإحساس: كيف ينظرون إلى العالم
الوكيل (LLM): يعالج النصوص أو البيانات المنظمة، مثل JSON وواجهات برمجة التطبيقات وأحيانا الصور. إنه مثل الدماغ الذي يعمل بمدخلات نظيفة ومجردة. فكر في قراءة دليل أو تحليل جدول بيانات. رائع للبيئات المنظمة ولكنه مقيد بما يتم تغذيته به.
المشغل (VLA): يشاهد وحدات البكسل الأولية في الوقت الفعلي من الكاميرات، بالإضافة إلى بيانات المستشعر (مثل اللمس والموضع) واستقبال الحس العميق (الوعي الذاتي بالحركة). إنه مثل التنقل في العالم بالعيون والحواس ، والازدهار في الإعدادات الديناميكية والفوضوية مثل واجهات المستخدم أو المساحات المادية.
2. التصرف: كيف يتفاعلون
الوكيل: يعمل عن طريق استدعاء الوظائف أو الأدوات أو واجهات برمجة التطبيقات. تخيل ذلك كمدير يرسل تعليمات دقيقة مثل "حجز رحلة عبر Expedia API". إنه متعمد ولكنه يعتمد على أدوات مسبقة الصنع وواجهات واضحة.
المشغل: ينفذ إجراءات مستمرة منخفضة المستوى، مثل تحريك مؤشر الماوس أو الكتابة أو التحكم في مفاصل الروبوت. إنه مثل العامل الماهر الذي يتلاعب بالبيئة بشكل مباشر ، وهو مثالي للمهام التي تتطلب دقة في الوقت الفعلي.
3. السيطرة: كيف يتخذون القرارات
الوكيل: يتبع حلقة بطيئة وعاكسة: التخطيط ، استدعاء أداة ، تقييم النتيجة ، التكرار. إنه مرتبط بالرمز المميز (مقيد بمعالجة النص) ومرتبط بالشبكة (في انتظار استجابات واجهة برمجة التطبيقات). هذا يجعلها منهجية ولكنها بطيئة للمهام في الوقت الفعلي.
المشغل: يعمل ، ويتخذ قرارات تدريجية في حلقة تغذية مرتدة ضيقة. فكر في الأمر كلاعب يتفاعل على الفور مع ما يظهر على الشاشة. تتيح هذه السرعة تفاعلا سلسا ولكنها تتطلب معالجة قوية في الوقت الفعلي.
4. البيانات للتعلم: ما الذي يغذي تدريبهم
الوكيل: مدرب على مجموعات نصية واسعة أو تعليمات أو وثائق أو مجموعات بيانات RAG (Retrieval-Augmented Generation). يتعلم من الكتب أو التعليمات البرمجية أو الأسئلة الشائعة ، ويتفوق في التفكير على المعرفة المنظمة.
المشغل: يتعلم من العروض التوضيحية (على سبيل المثال، مقاطع فيديو لبشر يؤدون المهام) أو سجلات التشغيل عن بعد أو إشارات المكافأة. إنه مثل التعلم من خلال المشاهدة والممارسة ، وهو مثالي للمهام التي تكون فيها التعليمات الصريحة نادرة.
5. أوضاع الفشل: حيث تنكسر...

الأفضل
المُتصدِّرة
التطبيقات المفضلة