
• محققان MIT و گوگل تکنیک جدیدی را توسعه دادند که تصاویر بسیار دقیقی را در مدلهای تولید تصویر ایجاد میکند.
• این تحقیق جدید StableRep نام دارد که از تصاویر تولید شده توسط هوش مصنوعی برای آموزش مدلهای هوش مصنوعی استفاده میکند.
پس از راه اندازی DALL-E 3، با توانایی خود در ایجاد تصاویر بسیار دقیق در مقایسه با نسخههای قبلی، کاربران را شگفت زده کرد. OpenAI گفت که توانایی بهبود یافته مدل برای انجام این کار ناشی از استفاده از تصاویر تولید شده با هوش مصنوعی برای آموزش مدل است. اکنون، تیمی از محققان MIT و Google در حال گسترش این تحقیق هستند و قصد دارند از آن در مدل تبدیل متن به تصویر محبوب Stable Diffusion استفاده کنند. در مقالهای که به تازگی منتشر شده است، محققان رویکرد جدیدی را برای استفاده از تصاویر تولید شده توسط هوش مصنوعی برای آموزش مدلهای تولید تصویر که StableRep نامیده میشوند، ارائه کردند که از میلیونها تصویر تولید شده با هوش مصنوعی و برچسب گذاری شده برای تولید تصاویر با کیفیت بالا استفاده میکند. روش کار StableRep به این صورت است که یک مدل تولید تصویر هوش مصنوعی چندین تصویر از یک متن ورودی را تولید میکند و آنها را با تمام توضیحات مربوط به آن تصویر مقایسه میدهد تا تفاوتهای ظریف بین تصاویر را تشخیص دهد. سپس آنها را در خروجی نهایی اعمال میکند تا منجر به تولید تصاویر دقیقتر شود. این همان چیزی است که باعث به وجود آمدن تصاویر بسیار دقیق میشود.
MIT و Google از رقبا پیشی میگیرند:
محققان MIT و Google از StableRep به صورت پایدار استفاده میکنند تا از مدلهای تولید تصویر رقیب مانند SimCLR و CLIP که با ورودیهای متنی و تصاویر واقعی مربوطه آموزش داده شده بودند، بهتر عمل کنند. StableRep در طبقه بندی ImageNet با مدل Vision Transformer به دقت خطی 76.7% دست یافت. با اضافه کردن نظارت زبان، محققان دریافتند که StableRep که بر روی 20 میلیون تصویر مصنوعی آموزش داده شده است؛ از CLIP که بر روی 50 میلیون تصویر واقعی آموزش داده شده بود، بهتر عمل کرده است. لیجی فن، کاندیدای دکترا در MIT و محقق اصلی این رویکرد گفت که تکنیک آنها بسیار بهتر از رقبا عمل میکند. زمانی که تصاویر متعددی که همگی از یک متن تولید شدهاند و همگی بهعنوان تصویری از یک چیز تلقی میشوند کنار هم قرار میگیرند، مدل میتواند عمیقتر به مفاهیم جزئی تصاویر بپردازد. اما با این همه StableRep معایب خود را دارد. بهعنوان مثال، تولید تصاویر کند است. همچنین در مورد عدم تطابق معنایی بین پیامهای متنی و تصاویر، خروجی به دست آمده ممکن است با درصدی از خطا همراه باشد. StableRep هم اکنون از طریق GitHub و برای استفادههای تجاری در دسترسی است.
پاسخ :