
مدل Gemini Robotics On-Device، نسخهای پیشرفته و بهینهشده از مدلهای VLA (بینایی-زبان-عمل) است که بهصورت محلی روی رباتها اجرا میشود. این مدل جدید، که بر پایه مدل هوش مصنوعی قدرتمند Gemini 2.0 ساخته شده، توانایی بالایی در انجام وظایف دقیق، درک دستورات زبان طبیعی، و سازگاری سریع با وظایف جدید دارد و بهویژه برای کاربردهایی با نیاز به پاسخدهی آنی و بدون اتصال دائمی به اینترنت طراحی شده است. Gemini Robotics On-Device با هدف ارائه دکستریتی (مهارت حرکتی دقیق) عمومی در رباتهای دارای دو بازو توسعه یافته و میتواند بدون نیاز به منابع محاسباتی زیاد، وظایف مختلفی مانند باز و بسته کردن زیپ، تا کردن لباس یا مونتاژ قطعات صنعتی را انجام دهد. از دیگر قابلیتهای مهم این مدل میتوان به توانایی اجرای دستورات چند مرحلهای، تعمیم رفتاری و بینایی، و عملکرد بهتر نسبت به سایر مدلهای مشابه در شرایط دشوار اشاره کرد.
این مدل برای ربات ALOHA آموزش داده شده، اما بهراحتی به دیگر پلتفرمها از جمله ربات دو بازوی Franka FR3 و ربات انساننمای Apollo نیز قابل تطبیق است. توانایی مدل در یادگیری سریع از تنها ۵۰ تا ۱۰۰ نمونه از وظایف جدید، آن را به ابزاری قدرتمند برای توسعهدهندگان تبدیل کرده است. برای کمک به ارزیابی و استفاده بهتر از این مدل، گوگل یک SDK ویژه (کیت توسعه نرمافزاری) نیز ارائه داده که امکان آزمایش مدل در شبیهساز فیزیکی MuJoCo و انطباق با محیطها و وظایف مختلف را فراهم میکند. این SDK از طریق ثبتنام در برنامه تستکنندگان مورد اعتماد قابل دسترسی است.
از منظر ایمنی و مسئولیتپذیری، توسعه این مدل با اصول اخلاقی هوش مصنوعی و چارچوبی جامع از ایمنی معنایی و فیزیکی انجام شده است. مدلها به سیستمهای کنترلی حساس به ایمنی متصل شده و با ابزارهایی مثل API زنده برای پایش محتوای تولیدی در زمان اجرا ترکیب میشوند. همچنین، ارزیابیهایی از سوی تیم ReDI و شورای مسئولیت و ایمنی انجام میشود تا ریسکها به حداقل و تأثیرات مثبت اجتماعی به حداکثر برسند. در نهایت، Gemini Robotics On-Device گامی مهم در جهت قابلدسترستر کردن هوش مصنوعی رباتیک برای جامعه پژوهشی و صنعتی است و میتواند نقش مهمی در رفع چالشهایی چون تأخیر و نبود اتصال مداوم ایفا کند. علاقهمندان میتوانند با ثبتنام در برنامه تست، به مدل و ابزارهای توسعهای آن دسترسی یابند.
منبع خبر: chatgpt
پاسخ :