
پژوهشگران شرکت Meta اخیراً از یک سیستم هوش مصنوعی پیشرفته به نام V-JEPA (Video Joint Embedding Predictive Architecture) رونمایی کردهاند که میتواند تنها با مشاهده ویدیوها، درکی شهودی از جهان پیرامون به دست آورد. نکته شگفتانگیز این مدل آن است که بدون داشتن هیچگونه دانش از پیشتعریفشده درباره قوانین فیزیک، میتواند رویدادهای «ممکن» و «غیرممکن» را تشخیص دهد و هنگام مواجهه با اتفاقات غیرعادی، نوعی «شگفتی» از خود نشان دهد.
عبور از محدودیتهای مدلهای پیکسلی
بیشتر مدلهای هوش مصنوعی امروزی که برای درک ویدیو یا تصویر استفاده میشوند، در فضای پیکسل (Pixel Space) آموزش میبینند. در این روش، هر پیکسل اهمیت یکسانی دارد. چنین رویکردی باعث میشود مدل در صحنههای پیچیده، روی جزئیات کماهمیت مانند حرکت برگ درختان تمرکز کند و اطلاعات حیاتی مثل موقعیت خودروها یا چراغ راهنمایی را نادیده بگیرد. V-JEPA برای حل این مشکل طراحی شده است. این مدل بهجای تمرکز روی تکتک پیکسلها، از نمایشهای نهفته (Latent Representations) استفاده میکند؛ نمایشهایی فشرده و انتزاعی که فقط اطلاعات ضروری صحنه را در خود نگه میدارند.

معماری V-JEPA چگونه کار میکند؟
در معماری V-JEPA سه بخش اصلی وجود دارد: انکودر اول، انکودر دوم و پیشبینیکننده (Predictor). در مرحله آموزش، بخشهایی از فریمهای ویدیویی عمداً ماسک میشوند. انکودر اول، فریمهای ناقص را به نمایشهای نهفته تبدیل میکند. همزمان، انکودر دوم فریمهای کامل را پردازش کرده و نمایشهای نهفته دقیقتری تولید میکند. در ادامه، شبکه پیشبینیکننده تلاش میکند نمایشهای نهفته تولیدشده توسط انکودر دوم را از روی خروجی انکودر اول پیشبینی کند. به این ترتیب، مدل یاد میگیرد که به جای بازسازی پیکسلهای ازدسترفته، «مفهوم» صحنه را بازسازی کند. نتیجه این فرآیند، مدلی است که بیشتر به خودروها، اشیاء و تعاملات مهم توجه میکند و جزئیات کماهمیت را کنار میگذارد.
درک شهودی فیزیک و مفهوم «شگفتی»
تیم متا عملکرد V-JEPA را با استفاده از آزمونی به نام IntPhys بررسی کرد؛ تستی که توانایی مدل در تشخیص رویدادهای فیزیکی ممکن و غیرممکن را میسنجد. V-JEPA در این آزمون به دقتی نزدیک به ۹۸ درصد رسید؛ عددی که بسیار فراتر از مدلهای پیکسلی رایج است. جالبتر آنکه پژوهشگران توانستند مقدار «شگفتی» مدل را نیز محاسبه کنند. زمانی که پیشبینی V-JEPA از آینده ویدیو با واقعیت همخوانی نداشت، میزان خطا بهشدت افزایش پیدا میکرد. برای مثال، اگر توپی پشت یک مانع ناپدید میشد و دیگر ظاهر نمیشد، مدل واکنشی مشابه تعجب انسان – بهویژه نوزادان – نشان میداد.

شباهت یادگیری V-JEPA به مغز انسان
برخی دانشمندان علوم شناختی معتقدند این مدل شباهت قابلتوجهی به یادگیری انسان دارد. همانطور که نوزادان بدون آموزش رسمی قوانین فیزیک را یاد میگیرند، V-JEPA نیز تنها با مشاهده ویدیوها به چنین درکی میرسد. با این حال، برخی پژوهشگران مانند Karl Friston اشاره میکنند که این مدل هنوز در نمایش و مدیریت «عدمقطعیت» ضعف دارد.
V-JEPA 2 و ورود به دنیای رباتیک
در سال ۲۰۲۴، متا نسخه پیشرفتهتری با نام V-JEPA 2 منتشر کرد؛ مدلی با ۱.۲ میلیارد پارامتر که روی ۲۲ میلیون ویدیو آموزش دیده است. این نسخه برای برنامهریزی حرکات رباتها نیز آزمایش شده و تنها با ۶۰ ساعت داده رباتیک توانسته وظایف ساده دستکاری اشیاء را انجام دهد. با این حال، این مدل هنوز حافظه کوتاهمدتی دارد و فقط چند ثانیه از ویدیو را به خاطر میسپارد؛ محدودیتی که پژوهشگران آن را با حافظه یک «ماهی قرمز» مقایسه کردهاند . V-JEPA گامی مهم در مسیر ساخت هوش مصنوعیهایی است که جهان را «میفهمند»، نه فقط میبینند. هرچند این فناوری هنوز کامل نیست، اما نشان میدهد آینده سیستمهای هوشمند به سمت یادگیری شهودی، انتزاعی و نزدیکتر به ذهن انسان در حال حرکت است.
منبع خبر: wired

شاهین آقامعلی


پاسخ :