هوش مصنوعی

نانو بنانا؛ معرفی قابلیت جدید تولید تصویر توسط Gemini

تصور کنید جهانی که در آن مرزهای خلاقیت بصری با یک دستور و پرامپت ساده متنی محو می‌شود و تصاویر نه تنها تولید، بلکه با دقت مفهومی ویرایش و ادغام می‌گردند. مدل پیشرفته Gemini 2.5 Flash Image، که با نام مستعار Nano Banana یا نانو بنانا شناخته می‌شود، این چشم‌انداز را به واقعیت تبدیل کرده است. این نوآوری از گوگل جمینای ۲.۵ فلش ایمیج، با تمرکز بر حفظ ثبات شخصیت‌ها، ویرایش هدفمند تصاویر و بهره‌گیری از دانش عمیق هوش مصنوعی، کاربران را به ابزارهایی مجهز می‌کند که فراتر از تولید ساده تصاویر عمل کرده و روایت‌های بصری پیچیده‌ای را خلق می‌نماید.

با دسترسی آسان از طریق API و پلتفرم‌هایی مانند Google AI Studio، مدل Nano Banana نه تنها سرعت و مقرون‌به‌صرفه بودن را تضمین می‌کند، بلکه کنترل خلاقانه‌ای را ارائه می‌دهد که توسعه‌دهندگان و هنرمندان را به کاوش افق‌های نوین دعوت می‌نماید. در ادامه، به بررسی عمیق قابلیت‌های این مدل می‌پردازیم و نشان می‌دهیم چگونه گوگل جمینای ۲.۵ فلش ایمیج می‌تواند تحول‌آفرین باشد.

در آگوست 2025، در حوزه هوش مصنوعی مولد تصویری، شاهد معرفی مدل پیشرفته Gemini 2.5 Flash Image (با نام مستعار نانو بنانا یا Nano Banana) هستیم. این مدل جدید، قابلیت‌های نوینی را در زمینه تولید و ویرایش تصویر به کاربران ارائه می‌دهد. به کمک این به‌روزرسانی، می‌توان چندین تصویر را به صورت یکپارچه در یک تصویر واحد ادغام کرد، به منظور خلق روایت‌های بصری غنی‌تر، ثبات شخصیت‌ها را در مجموعه‌ای از تصاویر حفظ نمود، تغییرات هدفمند در تصاویر را با استفاده از پردازش زبان طبیعی (NLP) به کار گرفت و از دانش گسترده هوش مصنوعی Gemini برای خلق و ویرایش تصاویر بهره‌مند شد.

زمانی که در اوایل سال جاری، قابلیت تولید تصویر در مدل Gemini 2.0 Flash به صورت عمومی عرضه شد، کاربران از سرعت بالا، مقرون به صرفه بودن و سهولت استفاده از آن استقبال کردند. با این حال، بازخوردهای دریافتی نشان می‌داد که نیاز به تصاویر با کیفیت بالاتر و کنترل خلاقانه قوی‌تری وجود دارد. در همین راستا، توسعه Gemini 2.5 Flash Image با تمرکز بر این نیازها صورت گرفته است تا پاسخگوی انتظارات کاربران باشد.

این مدل جدید، نانو بنانا، در حال حاضر از طریق API Gemini و پلتفرم Google AI Studio برای توسعه‌دهندگان و همچنین از طریق Vertex AI برای استفاده‌های تجاری در دسترس است. قیمت‌گذاری Gemini 2.5 Flash Image به ازای هر ۱ میلیون توکن خروجی، مبلغ ۳۰ دلار تعیین شده و هر تصویر تولیدی نیز معادل ۱۲۹۰ توکن خروجی است که هزینه آن به ازای هر تصویر ۰.۰۳۹ دلار می‌باشد. قیمت‌گذاری سایر حالت‌های ورودی و خروجی نیز مطابق با مدل Gemini 2.5 Flash است.

قابلیت تولید تصویر Gemini 2.5 در عمل

به منظور تسهیل کاربری با مدل Gemini 2.5 Flash Image، به‌روزرسانی‌های قابل توجهی در “حالت ساخت (build mode)” Google AI Studio اعمال شده است و توسعه‌های آتی نیز در دستور کار قرار دارد. مثال‌های ارائه شده در این پلتفرم، نه تنها امکان آزمایش سریع قابلیت‌های نانو بنانا را با استفاده از برنامه‌های سفارشی‌سازی‌شده مبتنی بر هوش مصنوعی فراهم می‌آورند، بلکه به کاربران اجازه می‌دهند تا این نمونه‌ها را بازسازی کرده یا ایده‌های خلاقانه خود را تنها با یک دستور متنی به واقعیت تبدیل کنند. پس از تکمیل ساخت یک برنامه، کاربران می‌توانند به راحتی و مستقیماً از داخل Google AI Studio آن را منتشر کرده یا کد مربوطه را در پلتفرم GitHub ذخیره نمایند.

یکی از قابلیت‌های بارز این پلتفرم، امکان تولید برنامه‌های سفارشی با استفاده از دستورات زبان طبیعی است. به عنوان مثال، کاربران می‌توانند دستوری همچون “یک اپلیکیشن ویرایش تصویر برای من بساز که به کاربر اجازه دهد یک عکس را آپلود کرده و فیلترهای مختلف روی آن اعمال کند” را ارائه دهند. همچنین، گزینه‌ای دیگر برای شروع کار، انتخاب یکی از الگوهای آماده و تغییر رایگان آن بر اساس نیازهای شخصی است. این انعطاف‌پذیری، کار با مدل گوگل جمینای ۲.۵ فلش ایمیج را برای طیف وسیعی از کاربران، از توسعه‌دهندگان باتجربه گرفته تا تازه‌کاران، بسیار ساده‌تر می‌سازد.

حفظ ثبات شخصیت

یکی از چالش‌های مهم در زمینه هوش مصنوعی مولد تصویری، مسئله حفظ انسجام و ثبات ظاهری یک شخصیت یا شی در مجموعه‌ای از دستورات و پرامپت‌های متوالی (prompt) و فرآیندهای ویرایشی است. در حال حاضر، با استفاده از مدل Gemini 2.5 Flash Image، این قابلیت فراهم شده است که یک شخصیت واحد در محیط‌های گوناگون قرار داده شود، یک محصول از زوایای مختلف و در تنظیمات جدید به نمایش گذاشته شود، یا مجموعه‌ای از تصاویر مرتبط با برند تولید گردد، در حالی که سوژه اصلی به صورت ثابت و پایدار باقی می‌ماند. این ویژگی نانو بنانا به طور چشمگیری کیفیت و کارایی تولید تصاویر را افزایش می‌دهد.

برای نمایش قابلیت‌های برجسته مدل Gemini 2.5 Flash Image در زمینه حفظ ثبات شخصیت، یک الگوی برنامه‌ در پلتفرم Google AI Studio طراحی شده است. این الگو به گونه‌ای است که کاربران می‌توانند به راحتی آن را بر اساس نیازهای خود سفارشی‌سازی کرده و کدهای بیشتری به آن اضافه کنند تا از این ویژگی کلیدی مدل گوگل جمینای ۲.۵ فلش ایمیج به بهترین نحو بهره‌برداری نمایند.

فراتر از حفظ ثبات شخصیت‌ها، مدل نانو بنانا در پیروی از الگوهای بصری نیز عملکردی عالی از خود نشان می‌دهد. هم‌اکنون، توسعه‌دهندگان در حال بررسی کاربردهای متنوعی از این قابلیت هستند، از جمله تولید کارت‌های املاک، کارت‌های شناسایی یکسان برای کارمندان، یا ساخت نمونه‌های اولیه پویا برای کل یک کاتالوگ محصول. تمامی این کاربردها تنها با استفاده از یک الگوی طراحی واحد امکان‌پذیر شده است. این توانایی، پتانسیل‌های گسترده‌ای را برای استفاده‌های خلاقانه و حرفه‌ای مدل Nano Banana ایجاد می‌کند.

تولید تصویر مبتنی بر پرامپت در Gemini 2.5 Flash Image

مدل Gemini 2.5 Flash Image این قابلیت را دارد که تغییرات هدفمند و ویرایش‌های دقیق را به صورت موضعی (محلی) و تنها با استفاده از زبان طبیعی انجام دهد. به عنوان مثال، این مدل قادر است پس‌زمینه یک تصویر را به صورت انتخابی محو کند، لکه‌ای را از روی یک لباس پاک نماید، یک فرد کامل را از یک عکس حذف کند، ژست و حالت یک سوژه را تغییر دهد، به یک تصویر سیاه و سفید رنگ اضافه نماید، یا هر نوع ویرایش دیگری را که با یک دستور متنی ساده به ذهنتان می‌رسد، به اجرا درآورد. این سطح از کنترل در ویرایش تصویر، امکانات خلاقانه و کاربردی وسیعی را در اختیار کاربران قرار می‌دهد.

برای نمایش عملی قابلیت‌های مدل گوگل جمینای ۲.۵ فلش ایمیج در زمینه ویرایش تصویر، یک برنامه الگوی ویرایش عکس در Google AI Studio طراحی شده است. این برنامه، علاوه بر کنترل‌های گرافیکی رابط کاربری، به کاربران اجازه می‌دهد تا با استفاده از دستورات متنی (prompts) به ویرایش تصاویر بپردازند و از تمام پتانسیل مدل نانو بنانا بهره‌مند شوند.

درک عمیق از دنیای واقعی

مدل‌های تولید تصویر در گذشته عمدتاً بر خلق تصاویر هنری و زیبا تمرکز داشتند، اما فاقد درکی عمیق و معنایی از دنیای واقعی بودند. با معرفی Gemini 2.5 Flash Image، این نقص به طور اساسی برطرف شده است. مدل نانو بنانا از دانش جامع و جهانی هوش مصنوعی Gemini بهره‌مند است که این امکان را فراهم می‌آورد تا کاربردهای نوینی در زمینه تولید و ویرایش تصویر محقق شود. این قابلیت به مدل اجازه می‌دهد که تنها به تولید تصاویر بسنده نکند، بلکه محتوای آن‌ها را نیز به صورت مفهومی درک کند.

به منظور اثبات این توانایی‌های پیشرفته، یک الگوی برنامه در پلتفرم Google AI Studio توسعه یافته است که یک صفحه سفید ساده را به یک ابزار آموزشی تعاملی تبدیل می‌کند. این برنامه به وضوح نشان می‌دهد که مدل گوگل جمینای ۲.۵ فلش ایمیج قادر است نمودارهای ترسیم شده با دست را بخواند و آن‌ها را درک کند، به حل مسائل دنیای واقعی کمک نماید و دستورالعمل‌های پیچیده ویرایشی را در یک مرحله به دقت اجرا کند. این توانمندی‌ها، مدل Nano Banana را از سایر مدل‌های مولد تصویری متمایز می‌سازد و افق‌های جدیدی را در کاربردهای هوش مصنوعی مولد تصویری می‌گشاید.

ادغام چند تصویر در Nano Banana

یکی از قابلیت‌های نوآورانه مدل Gemini 2.5 Flash Image، توانایی آن در درک و ترکیب چندین تصویر ورودی به صورت همزمان است. با بهره‌گیری از این ویژگی، کاربران می‌توانند یک شی مشخص را در یک صحنه جدید قرار دهند، یک فضای داخلی را با استفاده از طرح‌های رنگی یا بافت‌های دلخواه تغییر دکوراسیون دهند، و همچنین تصاویر مختلف را با یک دستور متنی ساده به صورت یکپارچه با هم ادغام کنند. این قابلیت پیشرفته، ابزاری قدرتمند برای خلق محتوای بصری پیچیده و واقعی‌نما فراهم می‌آورد.

به منظور نمایش عملی قابلیت‌های مدل گوگل جمینای ۲.۵ فلش ایمیج در زمینه ادغام چند تصویر، یک الگوی برنامه در پلتفرم Google AI Studio طراحی و ارائه شده است. این الگو به کاربران اجازه می‌دهد که به سادگی محصولات را به یک صحنه جدید “بکشند و رها کنند” تا به سرعت یک تصویر جدید و واقع‌گرایانه خلق نمایند. این رویکرد تعاملی، استفاده از مدل نانو بنانا را برای کاربرانی که به دنبال تولید محتوای بصری خلاقانه و حرفه‌ای هستند، بسیار آسان و کارآمد می‌سازد.

شروع به ساخت و توسعه با نانو بنانا

برای شروع کار با Gemini 2.5 Flash Image، توسعه‌دهندگان می‌توانند به مستندات مربوطه مراجعه کنند. این مدل در حال حاضر به صورت پیش‌نمایش از طریق API Gemini و پلتفرم Google AI Studio قابل دسترسی است و انتظار می‌رود که در هفته‌های آینده به نسخه پایدار خود برسد. تمامی برنامه‌های نمایشی که در این مقاله به آن‌ها اشاره شد، در محیط Google AI Studio کدنویسی شده‌اند، بنابراین کاربران می‌توانند آن‌ها را به سادگی با یک دستور متنی، تغییر داده و سفارشی‌سازی نمایند.

در راستای گسترش دسترسی به این مدل، شرکت OpenRouter.ai همکاری خود را با شرکت گوگل Gemini آغاز کرده است. این همکاری به منظور ارائه Gemini 2.5 Flash Image به بیش از ۳ میلیون توسعه‌دهنده در سراسر جهان است. این مدل، اولین مدل از میان بیش از ۴۸۰ مدل فعال در این پلتفرم است که قابلیت تولید تصویر را به صورت کامل ارائه می‌دهد.

همچنین، شرکت Gemini از همکاری با fal.ai، که یک پلتفرم پیشرو برای توسعه‌دهندگان رسانه‌های مولد است، ابراز خرسندی می‌کند. این همکاری نیز با هدف قرار دادن مدل نانو بنانا در دسترس جامعه گسترده‌تری از توسعه‌دهندگان صورت گرفته است.

تمام تصاویر تولید یا ویرایش شده با مدل Gemini 2.5 Flash Image، مجهز به یک واترمارک دیجیتالی نامرئی با عنوان SynthID هستند. این واترمارک به منظور شناسایی آن‌ها به عنوان محتوای تولید یا ویرایش شده توسط هوش مصنوعی تعبیه شده است. این ویژگی، شفافیت و اصالت محتوا را تضمین می‌کند.

تلاش‌های مستمر برای بهبود عملکرد مدل نانو بنانا، به ویژه در زمینه‌هایی نظیر رندرینگ متون طولانی، افزایش ثبات شخصیت‌ها و نمایش دقیق‌تر جزئیات در تصاویر ادامه دارد. توسعه‌دهندگان و کاربران می‌توانند بازخوردهای خود را از طریق انجمن‌های توسعه‌دهندگان یا در پلتفرم X (توییتر سابق) به اشتراک بگذارند تا در بهبود هرچه بیشتر این مدل، نقش داشته باشند.

جمع بندی

در نهایت، مدل Gemini 2.5 Flash Image با نام مستعار Nano Banana، نمادی از پیشرفت‌های چشمگیر در هوش مصنوعی مولد تصویری است که مرزهای خلاقیت را جابه‌جا می‌کند. این نوآوری گوگل جمینای ۲.۵ فلش ایمیج، با قابلیت‌های برجسته‌ای همچون حفظ ثبات شخصیت‌ها، ویرایش دقیق مبتنی بر زبان طبیعی، ادغام هوشمند چندین تصویر و درک مفهومی عمیق از دنیای واقعی، نه تنها نیازهای توسعه‌دهندگان و هنرمندان را برآورده می‌سازد، بلکه افق‌های نوینی را برای کاربردهای تجاری و آموزشی می‌گشاید. نانو بنانا، با دسترسی آسان از طریق API و پلتفرم‌های پیشرفته مانند Google AI Studio، ابزاری مقرون‌به‌صرفه و قدرتمند ارائه می‌دهد که کیفیت تصاویر را به سطحی بی‌سابقه ارتقا می‌بخشد و کاربران را به خلق روایت‌های بصری ماندگار دعوت می‌نماید.

با ادامه تلاش‌ها برای بهبود عملکرد Nano Banana، این مدل نویدبخش تحولی پایدار در عرصه تولید و ویرایش تصویر است که شفافیت را با واترمارک‌های دیجیتالی تضمین کرده و جامعه جهانی توسعه‌دهندگان را به مشارکت فرا می‌خواند. گوگل جمینای ۲.۵ فلش ایمیج نه تنها یک ابزار فنی، بلکه پلی به سوی آینده‌ای خلاقانه‌تر است، جایی که ایده‌ها با یک دستور ساده به واقعیت تبدیل می‌شوند و پتانسیل‌های نامحدود هوش مصنوعی را برای همه قابل دسترس می‌سازد.

سوالات متداول

نانو بنانا چیست و چگونه با Gemini 2.5 Flash Image مرتبط است؟

نانو بنانا (Nano-Banana) نام مستعار مدل پیشرفته Gemini 2.5 Flash Image است که قابلیت‌های نوینی در تولید و ویرایش تصاویر ارائه می‌دهد، از جمله حفظ ثبات شخصیت‌ها و ادغام چندین تصویر با استفاده از زبان طبیعی.

چگونه می‌توان به گوگل جمینای ۲.۵ فلش ایمیج دسترسی داشت؟

مدل گوگل جمینای ۲.۵ فلش ایمیج (Gemini 2.5 Flash Image) از طریق API Gemini، پلتفرم Google AI Studio برای توسعه‌دهندگان و Vertex AI برای کاربردهای تجاری قابل دسترسی است، با تمرکز بر سهولت استفاده و برنامه‌های سفارشی.

قابلیت‌های اصلی Nano-Banana چیست؟

Nano-Banana یا نانو بنانا، قابلیت‌هایی مانند ویرایش هدفمند تصاویر، حفظ انسجام شخصیت‌ها در مجموعه تصاویر، ادغام هوشمند چند تصویر و درک مفهومی عمیق از دنیای واقعی را فراهم می‌کند، که آن را از مدل‌های پیشین متمایز می‌سازد.

قیمت‌گذاری گوگل جمینای ۲.۵ فلش ایمیج چقدر است؟

قیمت‌گذاری گوگل جمینای ۲.۵ فلش ایمیج (Gemini 2.5 Flash Image) به ازای هر ۱ میلیون توکن خروجی ۳۰ دلار است، و هر تصویر تولیدی معادل ۱۲۹۰ توکن (حدود ۰.۰۳۹ دلار) محاسبه می‌شود، با نرخ‌های مشابه برای ورودی و خروجی.

آیا مدل نانو بنانا تصاویر را با واترمارک علامت‌گذاری می‌کند؟

بله، تمام تصاویر تولید یا ویرایش‌شده با نانو بنانا (Nano-Banana) یا Gemini 2.5 Flash Image مجهز به واترمارک دیجیتالی نامرئی SynthID هستند تا شفافیت و شناسایی محتوای هوش مصنوعی را تضمین کنند.

چگونه می‌توان بازخورد در مورد گوگل جمینای ۲.۵ فلش ایمیج داد؟

کاربران می‌توانند بازخوردهای خود را در مورد گوگل جمینای ۲.۵ فلش ایمیج (Gemini 2.5 Flash Image) از طریق انجمن‌های توسعه‌دهندگان یا پلتفرم X به اشتراک بگذارند تا در بهبودهای آتی مدل نانو بنانا نقش داشته باشند.

مدل Nano-Banana با سایر مدل‌های هوش مصنوعی چگونه مقایسه می‌شود؟

Nano-Banana یا نانو بنانا، با تمرکز بر کیفیت بالاتر، کنترل خلاقانه و درک مفهومی، از مدل‌های پیشین مانند Gemini 2.0 Flash پیشی می‌گیرد و نیازهای کاربران را در تولید روایت‌های بصری غنی‌تر برآورده می‌سازد.

امتیاز دهید!
1 / 5

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا