برای مدل‌های تصویری بهتر نیاز به محاسبات بیشتر دارید

...

شبکه‌های عصبی کانولوشنال (CNN) در میان الگوریتم‌و معماری‌های مدل، معماری غالب و پرکاربرد برای وظایف بینایی کامپیوتری مانند طبقه‌بندی تصویر می‌باشد. اما اخیراً علاقه فزاینده‌ای به استفاده از مدل‌های ترانسفورماتور به نام Vision Transformers (ViTs) وجود دارد، زیرا آنها در مقیاس، دقت محاسباتی و کارایی بهتر عمل می‌کنند. اکنون، محققان Google DeepMind استدلال می‌کنند که هر دو سیستم تقریباً نتایج یکسانی دارند و تنها مقدار محاسباتی که برای آموزش سیستم استفاده می‌شود، مهم است. این بدان معناست که شرکت‌هایی که نیاز به مدل‌های بینایی کامپیوتری دارند، برای دستیابی به دقت بالاتر، نیازی به تغییر معماری به ViT ندارند و در عوض، با داده‌ها و محاسبات کافی، عملکرد CNN به طور قابل توجهی بهبود می‌یابد و سرمایه گذاری در مدل‌های بزرگ‌تر و زیرساخت‌های آموزشی نتیجه بهتری خواهد داشت. در مقاله‌ای با عنوان «ConvNets Match Vision Transformers in Scale»، محققان Google دریافتند که ViTs می‌توانند به سادگی با استفاده از محاسبات بیشتر به نتایجی مشابه CNN دست یابند. آنها یک معماری CNN به نام NFNet را بر روی مجموعه داده عظیمی از چهار میلیارد تصویر حداکثر 110000 ساعت در تراشه‌های TPU گوگل آموزش دادند. مدل حاصل با دقت سیستم‌های ViT موجود که از محاسبات آموزشی مشابه استفاده می‌کردند مطابقت داشت.Yann LeCun ، دانشمند ارشد هوش مصنوعی متا و برنده جایزه تورینگ، در پستی در X (توییتر) گفت که این یافته‌ها نشان می‌دهد که «محاسبات تمام چیزی است که شما نیاز دارید» و هر دو CNN و ViTs «نقشی برای بازی کردن دارند».

شبکه های عصبی کانولوشنال

این یعنی چی؟

محققان معتقدند که انتخاب معماری سیستم برای موارد استفاده از بینایی کامپیوتر کار سختی نیست و یک امر روشن است. شبکه‌های عصبی کانولوشنال به دلیل توانایی‌شان در تطابق با ViTs با توجه به منابع کافی، همچنان گزینه‌ای قوی هستند. محققان دریافتند که با افزایش بودجه محاسباتی برای پیش آموزش مدل‌های NFNet، عملکرد مجموعه اعتبارسنجی بهبود می‌یابد. محققان دریافتند که با افزایش بودجه محاسباتی، خطا در اعتبار سنجی مدل کاهش میابد. به عبارت ساده‌تر هرچه توسعه‌دهندگان CNN از بودجه محاسباتی بیشتری استفاده کنند، بیشتر به دستاوردهای قابل پیش‌بینی در دقت مدل منجر می‌شود، بدون اینکه بازدهی کاهش یابد. بر اساس این مقاله، اگرچه ViTs در بینایی کامپیوتر بسیار کارآمد است؛ اما از نظر ما هیچ مدرک قوی وجود ندارد که نشان دهد ViTهای از پیش آموزش دیده بهتر از ConvNetهای از پیش آموزش دیده هستند. مهم‌ترین عوامل تعیین کننده در عملکرد یک مدل معقول طراحی شده، محاسبات و داده‌های موجود برای آموزش است. اگرچه موفقیت ViTs در بینایی کامپیوتر بسیار چشمگیر است، از نظر ما شواهد قوی وجود ندارد که نشان دهد ViTها عملکرد بهتری از ConvNetهای از پیش آموزش دیده دارند.

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟