
شبکههای عصبی کانولوشنال (CNN) در میان الگوریتمو معماریهای مدل، معماری غالب و پرکاربرد برای وظایف بینایی کامپیوتری مانند طبقهبندی تصویر میباشد. اما اخیراً علاقه فزایندهای به استفاده از مدلهای ترانسفورماتور به نام Vision Transformers (ViTs) وجود دارد، زیرا آنها در مقیاس، دقت محاسباتی و کارایی بهتر عمل میکنند. اکنون، محققان Google DeepMind استدلال میکنند که هر دو سیستم تقریباً نتایج یکسانی دارند و تنها مقدار محاسباتی که برای آموزش سیستم استفاده میشود، مهم است. این بدان معناست که شرکتهایی که نیاز به مدلهای بینایی کامپیوتری دارند، برای دستیابی به دقت بالاتر، نیازی به تغییر معماری به ViT ندارند و در عوض، با دادهها و محاسبات کافی، عملکرد CNN به طور قابل توجهی بهبود مییابد و سرمایه گذاری در مدلهای بزرگتر و زیرساختهای آموزشی نتیجه بهتری خواهد داشت. در مقالهای با عنوان «ConvNets Match Vision Transformers in Scale»، محققان Google دریافتند که ViTs میتوانند به سادگی با استفاده از محاسبات بیشتر به نتایجی مشابه CNN دست یابند. آنها یک معماری CNN به نام NFNet را بر روی مجموعه داده عظیمی از چهار میلیارد تصویر حداکثر 110000 ساعت در تراشههای TPU گوگل آموزش دادند. مدل حاصل با دقت سیستمهای ViT موجود که از محاسبات آموزشی مشابه استفاده میکردند مطابقت داشت.Yann LeCun ، دانشمند ارشد هوش مصنوعی متا و برنده جایزه تورینگ، در پستی در X (توییتر) گفت که این یافتهها نشان میدهد که «محاسبات تمام چیزی است که شما نیاز دارید» و هر دو CNN و ViTs «نقشی برای بازی کردن دارند».
این یعنی چی؟
محققان معتقدند که انتخاب معماری سیستم برای موارد استفاده از بینایی کامپیوتر کار سختی نیست و یک امر روشن است. شبکههای عصبی کانولوشنال به دلیل تواناییشان در تطابق با ViTs با توجه به منابع کافی، همچنان گزینهای قوی هستند. محققان دریافتند که با افزایش بودجه محاسباتی برای پیش آموزش مدلهای NFNet، عملکرد مجموعه اعتبارسنجی بهبود مییابد. محققان دریافتند که با افزایش بودجه محاسباتی، خطا در اعتبار سنجی مدل کاهش میابد. به عبارت سادهتر هرچه توسعهدهندگان CNN از بودجه محاسباتی بیشتری استفاده کنند، بیشتر به دستاوردهای قابل پیشبینی در دقت مدل منجر میشود، بدون اینکه بازدهی کاهش یابد. بر اساس این مقاله، اگرچه ViTs در بینایی کامپیوتر بسیار کارآمد است؛ اما از نظر ما هیچ مدرک قوی وجود ندارد که نشان دهد ViTهای از پیش آموزش دیده بهتر از ConvNetهای از پیش آموزش دیده هستند. مهمترین عوامل تعیین کننده در عملکرد یک مدل معقول طراحی شده، محاسبات و دادههای موجود برای آموزش است. اگرچه موفقیت ViTs در بینایی کامپیوتر بسیار چشمگیر است، از نظر ما شواهد قوی وجود ندارد که نشان دهد ViTها عملکرد بهتری از ConvNetهای از پیش آموزش دیده دارند.
پاسخ :