
گوگل بهتازگی از مدل Gemini 2.5 Flash Image (با نام مستعار nano-banana) رونمایی کرده است. این مدل پیشرفته در حوزه تولید و ویرایش تصویر با هوش مصنوعی، امکاناتی فراتر از نسخههای پیشین ارائه میدهد. مهمترین ویژگیهای این نسخه شامل حفظ ثبات شخصیتها در تصاویر، ویرایش مبتنی بر متن، ترکیب چند تصویر در یک صحنه و بهرهگیری از دانش دنیای واقعی است. زمانی که گوگل مدل Gemini 2.0 Flash را معرفی کرد، کاربران از سرعت بالا و هزینهی مناسب آن استقبال کردند، اما همزمان خواستار کیفیت بیشتر و کنترل خلاقانهتر شدند. حالا در نسخه ۲.۵، گوگل توانسته به این نیازها پاسخ دهد و مدلی ارائه کند که تصاویر با کیفیتتری تولید کرده و قابلیتهای گستردهای برای توسعهدهندگان و کسبوکارها فراهم میآورد.
قیمت و دسترسی
این مدل در حال حاضر از طریق Google AI Studio، Gemini API و Vertex AI برای توسعهدهندگان و شرکتها در دسترس است. هزینه آن ۳۰ دلار برای هر یک میلیون توکن خروجی تعیین شده و هر تصویر معادل ۱۲۹۰ توکن خروجی است؛ یعنی چیزی حدود ۰.۰۳۹ دلار برای هر تصویر.
قابلیتهای کلیدی Gemini 2.5 Flash Image
1. حفظ ثبات شخصیتها و اشیا
یکی از چالشهای اصلی مدلهای تولید تصویر، ایجاد ثبات ظاهری شخصیتها و اشیا در تصاویر مختلف بود. این نسخه بهطور ویژه برای رفع این مشکل طراحی شده و میتواند یک شخصیت یا محصول را در محیطهای مختلف بازتولید کند؛ قابلیتی بسیار کاربردی برای برندینگ، طراحی محصول و تولید محتوای تجاری.
2. ویرایش مبتنی بر متن (Prompt-based editing)
کاربران میتوانند تنها با نوشتن یک دستور ساده، تغییرات دقیقی روی تصویر ایجاد کنند. از جمله: محو کردن پسزمینه، حذف لکه یا شیء ناخواسته، تغییر ژست، رنگآمیزی تصاویر سیاهوسفید یا حتی بازطراحی کامل بخشهایی از تصویر.
3. دانش بومی و درک دنیای واقعی
برخلاف بسیاری از مدلهای قبلی که تنها در تولید تصاویر زیبا موفق بودند، Gemini 2.5 Flash Image درک عمیقتری از مفاهیم دنیای واقعی دارد. این ویژگی باعث میشود که برای کاربردهای آموزشی، علمی و تجاری بسیار کارآمدتر باشد.
4. ترکیب چند تصویر (Multi-image fusion)
مدل جدید گوگل میتواند چند تصویر مختلف را با هم ادغام کند. به عنوان مثال، قرار دادن یک محصول در یک صحنه جدید یا تغییر کامل طراحی یک فضا با چند ورودی تصویری.
ابزارها و اکوسیستم توسعه
برای سهولت استفاده، گوگل در Google AI Studio قالبهای آماده و اپلیکیشنهای نمونه ارائه کرده است. توسعهدهندگان میتوانند این اپها را بر اساس نیاز خود ویرایش، شخصیسازی یا حتی تنها با یک پرامپت جدید بازسازی کنند. همچنین، این مدل در OpenRouter و پلتفرم fal.ai نیز عرضه شده تا دسترسی جامعه بزرگ توسعهدهندگان به آن فراهم شود.
امنیت و آینده
تمام تصاویر تولید یا ویرایش شده با SynthID نشانهگذاری نامرئی میشوند تا قابل شناسایی بهعنوان محتوای AI باشند. گوگل وعده داده است در نسخههای آینده، قابلیتهایی مانند رندر دقیقتر متن، ثبات بیشتر شخصیتها و نمایش جزئیات واقعیتر بهبود پیدا کند.
منبع خبر: developers.googleblog
پاسخ :