مدل هوش مصنوعی جدید متا با تماشای ویدئو، یاد می‌گیرد

...

• متا از V-JEPA رونمایی کرد، مدل جدیدی که می‌تواند مهارت‌های خود را با تماشای ویدئوها به دست آورد.

متا برای مدل‌های هوش مصنوعی غیر مولد خود، امروز با رونمایی از آخرین نسخه از مدل JEPA، گام دیگری به جلو برداشت. مدل JEPA به نحوه یادگیری انسان نزدیک‌تر است و می‌تواند با ایجاد مدلی درونی از دنیای بیرون یاد بگیرد. طبق گفته متا، معمولاً ماشین‌ها برای یادگیری یک مفهوم واحد به هزاران مثال و ساعت‌ها آموزش نیاز دارند. اکنون، تیم تحقیقاتی که او رهبری می‌کند، دومین مدل JEPA خود را منتشر کرده است که تمرکز اصلی آن بر روی ویدئوهاست. این مدل که V-JEPA نام دارد، بخش‌های از دست رفته یا پوشانده شده یک ویدئو را در فضای بازنمایی انتزاعی پیش‌بینی می‌کند. متا گفت که این مدل مانند یک نوزاد می‌تواند یاد بگیرد، به این ترتیب که می‌تواند به صورت غیرفعال شروع به تماشا و درک ویدئو کند و سپس مهارت‌های آموزش داده شده در ویدئو را یاد بگیرد. V-JEPA برای درک جزئیات آموزش ندیده بود. در عوض، از آموزش خود نظارتی برای تماشا و درک طیف وسیعی از ویدئوها استفاده می‌کند.V-JEPA  می‌تواند برای بهبود توانایی‌های ماشین‌ها برای درک دنیای اطرافشان با تماشای ویدئوها مورد استفاده قرار گیرد. دانشمندان متا می‌گوید که این مدل می‌تواند به آن‌ها کمک کند تا به استدلال و برنامه‌ریزی عمومی‌تر دست پیدا کنند. آنها اشاره کردند که هدف ما ساختن هوش ماشینی پیشرفته‌ای است که می‌تواند؛ مانند انسان‌ها بیاموزد.

مدل هوش مصنوعی V-JEPA

یاد گیری مثل یک نوزاد:

این سیستم به طور کامل با داده‌های بدون برچسب یا همان داده‌های نامشخص از قبل آموزش داده شده است. برخلاف مدل‌های تولیدی که سعی می‌کنند هر پیکسل از دست رفته را جایگزین کنند، V-JEPA می‌تواند اطلاعات غیر قابل پیش‌بینی را کنار بگذارد، که متا ادعا می‌کند که منجر به بهبود آموزش و کارایی بین 1.5 تا 6 برابر می‌شود. تاکنون، این مدل تنها توانسته محتوای بصری را مدیریت کند؛ اما متا گفت که در حال کار بر روی ترکیب صدا در کنار تصاویر است تا مدل بتواند با هر دوی آنها کار کند. همچنین، در حال حاضر این مدل فقط یک مدل تحقیقاتی است، بنابراین انتظار نداشته باشید که به این زودی‌ها از آن در سیستم‌های بینایی رایانه خود استفاده کنید. اما متا گفت که در حال بررسی تعدادی از برنامه‌های آینده در مورد این مدل است. انتظار می‌رود زمینه‌ای که V-JEPA ارائه می دهد بتواند برای کار تجسم هوش مصنوعی و همچنین کار برای ساخت یک دستیار هوش مصنوعی متنی برای عینک های AR آینده مفید باشد. با این حال، برای اهداف تحقیقاتی می توانید به آن در GitHub دسترسی داشته باشید. متا از زمان انتشار I-JEPA در ژوئن گذشته نسبت به کار JEPA نسبتاً ساکت بود و شرکت متا تنها فاش کرد که نسخه ای با تمرکز بر ویدیو در جشنواره جهانی کن هوش مصنوعی در حال توسعه است. علت بیزاری متا از سیستم های مولد و چشم انداز گسترده تر یادگیری ماشین در حال حاضر این است که آنها درک درستی از نحوه کار جهان ندارند و همچنین توانایی به خاطر سپردن، استدلال و برنامه ریزی ندارند. هنگام صحبت در مورد I-JEPA در جشنواره کن هفته گذشته، متا گفت که این مدل بر روی یک مجموعه داده بزرگ آموزش ندیده است، اما به نظر می رسد که بر مدل بینایی کامپیوتری DINOv2 متا غلبه کرده است.

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟