Gemini 2.5 Flash Image نسل جدید مدل تولید تصویر گوگل

گوگل به‌تازگی از مدل Gemini 2.5 Flash Image (با نام مستعار nano-banana) رونمایی کرده است. این مدل پیشرفته در حوزه تولید و ویرایش تصویر با هوش مصنوعی، امکاناتی فراتر از نسخه‌های پیشین ارائه می‌دهد. مهم‌ترین ویژگی‌های این نسخه شامل حفظ ثبات شخصیت‌ها در تصاویر، ویرایش مبتنی بر متن، ترکیب چند تصویر در یک صحنه و بهره‌گیری از دانش دنیای واقعی است. زمانی که گوگل مدل Gemini 2.0 Flash را معرفی کرد، کاربران از سرعت بالا و هزینه‌ی مناسب آن استقبال کردند، اما همزمان خواستار کیفیت بیشتر و کنترل خلاقانه‌تر شدند. حالا در نسخه ۲.۵، گوگل توانسته به این نیازها پاسخ دهد و مدلی ارائه کند که تصاویر با کیفیت‌تری تولید کرده و قابلیت‌های گسترده‌ای برای توسعه‌دهندگان و کسب‌وکارها فراهم می‌آورد.

قیمت و دسترسی

این مدل در حال حاضر از طریق Google AI Studio، Gemini API و Vertex AI برای توسعه‌دهندگان و شرکت‌ها در دسترس است. هزینه آن ۳۰ دلار برای هر یک میلیون توکن خروجی تعیین شده و هر تصویر معادل ۱۲۹۰ توکن خروجی است؛ یعنی چیزی حدود ۰.۰۳۹ دلار برای هر تصویر.

Gemini 2.5 Flash Image

قابلیت‌های کلیدی Gemini 2.5 Flash Image

1. حفظ ثبات شخصیت‌ها و اشیا

یکی از چالش‌های اصلی مدل‌های تولید تصویر، ایجاد ثبات ظاهری شخصیت‌ها و اشیا در تصاویر مختلف بود. این نسخه به‌طور ویژه برای رفع این مشکل طراحی شده و می‌تواند یک شخصیت یا محصول را در محیط‌های مختلف بازتولید کند؛ قابلیتی بسیار کاربردی برای برندینگ، طراحی محصول و تولید محتوای تجاری.

2. ویرایش مبتنی بر متن (Prompt-based editing)

کاربران می‌توانند تنها با نوشتن یک دستور ساده، تغییرات دقیقی روی تصویر ایجاد کنند. از جمله: محو کردن پس‌زمینه، حذف لکه یا شیء ناخواسته، تغییر ژست، رنگ‌آمیزی تصاویر سیاه‌وسفید یا حتی بازطراحی کامل بخش‌هایی از تصویر.

3. دانش بومی و درک دنیای واقعی

برخلاف بسیاری از مدل‌های قبلی که تنها در تولید تصاویر زیبا موفق بودند، Gemini 2.5 Flash Image درک عمیق‌تری از مفاهیم دنیای واقعی دارد. این ویژگی باعث می‌شود که برای کاربردهای آموزشی، علمی و تجاری بسیار کارآمدتر باشد.

4. ترکیب چند تصویر (Multi-image fusion)

مدل جدید گوگل می‌تواند چند تصویر مختلف را با هم ادغام کند. به عنوان مثال، قرار دادن یک محصول در یک صحنه جدید یا تغییر کامل طراحی یک فضا با چند ورودی تصویری.

Gemini 2.5 Flash Image

ابزارها و اکوسیستم توسعه

برای سهولت استفاده، گوگل در Google AI Studio قالب‌های آماده و اپلیکیشن‌های نمونه ارائه کرده است. توسعه‌دهندگان می‌توانند این اپ‌ها را بر اساس نیاز خود ویرایش، شخصی‌سازی یا حتی تنها با یک پرامپت جدید بازسازی کنند. همچنین، این مدل در OpenRouter و پلتفرم fal.ai نیز عرضه شده تا دسترسی جامعه بزرگ توسعه‌دهندگان به آن فراهم شود.

امنیت و آینده

تمام تصاویر تولید یا ویرایش شده با SynthID نشانه‌گذاری نامرئی می‌شوند تا قابل شناسایی به‌عنوان محتوای AI باشند. گوگل وعده داده است در نسخه‌های آینده، قابلیت‌هایی مانند رندر دقیق‌تر متن، ثبات بیشتر شخصیت‌ها و نمایش جزئیات واقعی‌تر بهبود پیدا کند.

منبع خبر: developers.googleblog

هوش مصنوعی و اخبار و مقالات دنیای هوش مصنوعی

هوش مصنوعی همینجاست...

Gemini 2.5 Flash Image نسل جدید مدل تولید تصویر گوگل

قیمت و دسترسی

قابلیت‌های کلیدی Gemini 2.5 Flash Image

1. حفظ ثبات شخصیت‌ها و اشیا

2. ویرایش مبتنی بر متن (Prompt-based editing)

3. دانش بومی و درک دنیای واقعی

4. ترکیب چند تصویر (Multi-image fusion)

ابزارها و اکوسیستم توسعه

امنیت و آینده

نظرات 0

ارسال نظر

برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

سایر خبرها

هوش مصنوعی چگونه افکار انسان را به متن و تصویر تبدیل می‌کند؟

LabOS؛ تحول هوش مصنوعی در آزمایشگاه‌های علمی

آنر گوشی هوش مصنوعی رباتیک خود را معرفی کرد

Gemini 2.5 Flash Image نسل جدید مدل تولید تصویر گوگل

قیمت و دسترسی

قابلیت‌های کلیدی Gemini 2.5 Flash Image

1. حفظ ثبات شخصیت‌ها و اشیا

2. ویرایش مبتنی بر متن (Prompt-based editing)

3. دانش بومی و درک دنیای واقعی

4. ترکیب چند تصویر (Multi-image fusion)

ابزارها و اکوسیستم توسعه

امنیت و آینده

نظرات 0

ارسال نظر

برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

سایر خبرها

هوش مصنوعی چگونه افکار انسان را به متن و تصویر تبدیل می‌کند؟

LabOS؛ تحول هوش مصنوعی در آزمایشگاه‌های علمی

آنر گوشی هوش مصنوعی رباتیک خود را معرفی کرد

در آرتیجنس دنبال چی میگردی؟