
تصور کنید یک کارگر کارخانه، قطعهای را در انبار میگذارد و فردای آن روز بهراحتی آن را پیدا میکند. این یک فرآیند ساده انسانی است، اما برای رباتهای هوش مصنوعی، درکِ «کجا» و «چه زمانی» (حافظه مکانی-زمانی) همواره یک چالش بزرگ بوده است. اکنون محققان دانشگاه MIT با معرفی یک چارچوب حافظه جدید، این مانع را از سر راه برداشتهاند. این دستاورد که با نام DAAAM (مخفف Describe Anything, Anywhere, Anytime, at Any Moment) شناخته میشود، به رباتها اجازه میدهد تا نقشههای سنتی خود را به نقشههایی مبتنی بر زبان تبدیل کنند. با این فناوری، ربات نه تنها محیط را میبیند، بلکه آن را «درک» کرده و میتواند به زبان ساده با انسان تعامل کند. به گفته لوکا کارلون، سرپرست تیم تحقیقاتی در آزمایشگاه SPARK، هدف نهایی این است که رباتها دنیا را همانند انسانها درک کنند و بتوانند به سوالاتی مانند «قطعهای را که دیشب شروع کردیم، کجا گذاشتیم؟» پاسخ دهند.
DAAAM چگونه کار میکند؟
پیش از این، مدلهای بینایی ماشین میتوانستند اشیاء را توصیف کنند، اما در پردازش همزمان و مدیریت حافظه در مقیاس بزرگ ضعیف بودند. از سوی دیگر، نقشهبرداریهای رباتیک سهبعدی فاقد جزئیات معنایی (مانند نام اشیاء یا وضعیت آنها) بودند. DAAAM با ترکیب این دو حوزه، پلی میان بینایی ماشین و نقشهبرداری رباتیک ایجاد کرده است. وقتی ربات با استفاده از این سیستم در محیط حرکت میکند، به اشیاء برچسبهای توصیفی دقیق میزند؛ برای مثال، نه تنها یک ساختمان را شناسایی میکند، بلکه جزئیاتی مانند «دوچرخه قرمزی که لاستیک آن پنچر است در کنار مرکز استاتا» را در حافظه خود ذخیره میکند. این دادهها بهصورت سلسلهمراتبی و مکانی طبقهبندی میشوند تا ربات بتواند به سرعت به اطلاعات دسترسی پیدا کند.

سرعت؛ کلید موفقیت در محیطهای واقعی
یکی از بزرگترین مشکلات روشهای قبلی، کندی در پردازش بود که استفاده از آنها را در محیطهای واقعی ناممکن میساخت. محققان MIT برای حل این مشکل، از روشی بهینه استفاده کردند که تصاویر کلیدی را برای تحلیل انتخاب کرده و اشیاء مجاور را به صورت دستهای بررسی میکند. این نوآوری باعث شده است که سرعت پردازش ده برابر افزایش یابد و امکان اجرای آن در لحظه (Real-time) فراهم شود. علاوه بر این، برای جلوگیری از توهم (Hallucination) مدلهای زبانی بزرگ (LLM)، سیستم DAAAM از ابزارهای جستجوی معنایی بهره میبرد. این یعنی ربات برای پاسخ به سوال کاربر، به جای حدس زدن، مستقیماً به پایگاه داده نقشهبرداری شده خود مراجعه میکند که نتیجه آن افزایش ۲۱ تا ۵۳ درصدی دقت نسبت به روشهای پیشین بوده است.

آینده رباتهای دستیار
این فناوری فراتر از دیوارهای کارخانه کاربرد دارد. از واقعیت افزوده (AR) برای کمک به تعمیرکاران گرفته تا سیستمهای مسیریابی هوشمند برای عابران در شهرهای بزرگ، همگی میتوانند از این حافظه مکانی-زمانی بهرهمند شوند. نیکلاس گورلو، نویسنده اصلی این مقاله میگوید: «ما در حال پیریزی بنیانی برای رباتهای همهکاره هستیم؛ رباتهایی که میتوانند در انجام هر کاری به انسان کمک کنند.» این تحقیق که در کنفرانس CVPR ارائه شده است، گامی بلند به سوی تحقق رباتهایی است که نه فقط با دستورات سختافزاری، بلکه با درک هوشمندانه از محیط پیرامون، در کنار انسانها فعالیت کنند. با این دستاورد MIT، دیگر فاصله میان یک دستگاه مکانیکی و یک «دستیار هوشمند واقعی» بسیار کمتر از گذشته شده است.
منبع خبر: mit

شاهین آقامعلی


پاسخ :