این مدل هوش مصنوعی جهان هستی را درک میکند

...

پژوهشگران شرکت Meta اخیراً از یک سیستم هوش مصنوعی پیشرفته به نام V-JEPA (Video Joint Embedding Predictive Architecture) رونمایی کرده‌اند که می‌تواند تنها با مشاهده ویدیوها، درکی شهودی از جهان پیرامون به دست آورد. نکته شگفت‌انگیز این مدل آن است که بدون داشتن هیچ‌گونه دانش از پیش‌تعریف‌شده درباره قوانین فیزیک، می‌تواند رویدادهای «ممکن» و «غیرممکن» را تشخیص دهد و هنگام مواجهه با اتفاقات غیرعادی، نوعی «شگفتی» از خود نشان دهد.
عبور از محدودیت‌های مدل‌های پیکسلی

بیشتر مدل‌های هوش مصنوعی امروزی که برای درک ویدیو یا تصویر استفاده می‌شوند، در فضای پیکسل (Pixel Space) آموزش می‌بینند. در این روش، هر پیکسل اهمیت یکسانی دارد. چنین رویکردی باعث می‌شود مدل در صحنه‌های پیچیده، روی جزئیات کم‌اهمیت مانند حرکت برگ درختان تمرکز کند و اطلاعات حیاتی مثل موقعیت خودروها یا چراغ راهنمایی را نادیده بگیرد. V-JEPA برای حل این مشکل طراحی شده است. این مدل به‌جای تمرکز روی تک‌تک پیکسل‌ها، از نمایش‌های نهفته (Latent Representations) استفاده می‌کند؛ نمایش‌هایی فشرده و انتزاعی که فقط اطلاعات ضروری صحنه را در خود نگه می‌دارند.

 

هوش مصنوعی که جهان را درک میکند

 

معماری V-JEPA چگونه کار می‌کند؟

در معماری V-JEPA سه بخش اصلی وجود دارد: انکودر اول، انکودر دوم و پیش‌بینی‌کننده (Predictor). در مرحله آموزش، بخش‌هایی از فریم‌های ویدیویی عمداً ماسک می‌شوند. انکودر اول، فریم‌های ناقص را به نمایش‌های نهفته تبدیل می‌کند. هم‌زمان، انکودر دوم فریم‌های کامل را پردازش کرده و نمایش‌های نهفته دقیق‌تری تولید می‌کند. در ادامه، شبکه پیش‌بینی‌کننده تلاش می‌کند نمایش‌های نهفته تولیدشده توسط انکودر دوم را از روی خروجی انکودر اول پیش‌بینی کند. به این ترتیب، مدل یاد می‌گیرد که به جای بازسازی پیکسل‌های ازدست‌رفته، «مفهوم» صحنه را بازسازی کند. نتیجه این فرآیند، مدلی است که بیشتر به خودروها، اشیاء و تعاملات مهم توجه می‌کند و جزئیات کم‌اهمیت را کنار می‌گذارد.

درک شهودی فیزیک و مفهوم «شگفتی»

تیم متا عملکرد V-JEPA را با استفاده از آزمونی به نام IntPhys بررسی کرد؛ تستی که توانایی مدل در تشخیص رویدادهای فیزیکی ممکن و غیرممکن را می‌سنجد. V-JEPA در این آزمون به دقتی نزدیک به ۹۸ درصد رسید؛ عددی که بسیار فراتر از مدل‌های پیکسلی رایج است. جالب‌تر آنکه پژوهشگران توانستند مقدار «شگفتی» مدل را نیز محاسبه کنند. زمانی که پیش‌بینی V-JEPA از آینده ویدیو با واقعیت هم‌خوانی نداشت، میزان خطا به‌شدت افزایش پیدا می‌کرد. برای مثال، اگر توپی پشت یک مانع ناپدید می‌شد و دیگر ظاهر نمی‌شد، مدل واکنشی مشابه تعجب انسان – به‌ویژه نوزادان – نشان می‌داد.

 

هوش مصنوعی که جهان را درک میکند

 

شباهت یادگیری V-JEPA به مغز انسان

برخی دانشمندان علوم شناختی معتقدند این مدل شباهت قابل‌توجهی به یادگیری انسان دارد. همان‌طور که نوزادان بدون آموزش رسمی قوانین فیزیک را یاد می‌گیرند، V-JEPA نیز تنها با مشاهده ویدیوها به چنین درکی می‌رسد. با این حال، برخی پژوهشگران مانند Karl Friston اشاره می‌کنند که این مدل هنوز در نمایش و مدیریت «عدم‌قطعیت» ضعف دارد.

V-JEPA 2 و ورود به دنیای رباتیک

در سال ۲۰۲۴، متا نسخه پیشرفته‌تری با نام V-JEPA 2 منتشر کرد؛ مدلی با ۱.۲ میلیارد پارامتر که روی ۲۲ میلیون ویدیو آموزش دیده است. این نسخه برای برنامه‌ریزی حرکات ربات‌ها نیز آزمایش شده و تنها با ۶۰ ساعت داده رباتیک توانسته وظایف ساده دست‌کاری اشیاء را انجام دهد. با این حال، این مدل هنوز حافظه کوتاه‌مدتی دارد و فقط چند ثانیه از ویدیو را به خاطر می‌سپارد؛ محدودیتی که پژوهشگران آن را با حافظه یک «ماهی قرمز» مقایسه کرده‌اند . V-JEPA گامی مهم در مسیر ساخت هوش مصنوعی‌هایی است که جهان را «می‌فهمند»، نه فقط می‌بینند. هرچند این فناوری هنوز کامل نیست، اما نشان می‌دهد آینده سیستم‌های هوشمند به سمت یادگیری شهودی، انتزاعی و نزدیک‌تر به ذهن انسان در حال حرکت است.

منبع خبر: wired

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟