'नैनो बनाना' का रहस्य अब सामने आया: Gemini 2.5 Flash ही है Nano Banana
राम राम मित्रों! पिछले कुछ दिनों से इंटरनेट और सोशल मीडिया पर "नैनो बनाना" नामक एक रहस्यमयी AI मॉडल की काफी चर्चा हो रही थी। मैने भी कुछ दिनों पहले इसपर एक ब्लॉग पोस्ट लिखा था, तब इसकी LMArena पर beta टेस्टिंग चल रही थी, पर अब सब स्पष्ट हो चुका है कि यह गूगल के डीपमाइंड का कोड नेम था, जो अब जैमिनी 2.5 फ्लैश इमेज (Gemini 2.5 Flash) के रूप में आम यूजर्स के लिए उपलब्ध है। यह एक स्टेट-ऑफ-द-आर्ट(SOTA) इमेज जेनरेशन और एडिटिंग मॉडल है, लेकिन इसका मुख्य फोकस इमेज एडिटिंग पर है।
मै पिछले पांच दिनों से लगातार इसे टेस्ट कर रहा हूँ, और सोशल मीडिया पर लोगों के अनुभवों को भी ट्रैक कर रहा हूं, इसी आधार पर मै अपनी फाइंडिंग्स इस ब्लॉग पोस्ट के माध्यम से आपके साथ शेयर कर रहा हूं
कैपेबिलिटीज: नैनो बनाना क्या-क्या कर सकता है?
नैनो बनाना (अब जैमिनी 2.5 फ्लैश इमेज) इमेज एडिटिंग के मामले में कई अद्भुत काम कर सकता है:
- स्टाइल ट्रांसफर (Style Transfer): किसी भी रियल इमेज को आसानी से The Simpsons, LEGO, Ghibli, कार्टून, स्केच, या एनीमेशन स्टाइल में बदल सकता है। यह बेहद प्रभावी ढंग से काम करता है।
- ऑब्जेक्ट रेफरेंस (Object References): इमेज में मौजूद ऑब्जेक्ट्स को पहचानकर उनमें बदलाव करना इसका मजबूत पक्ष है।
- मेजर और माइनर करेक्शन (Major & Minor Corrections): छोटे से लेकर बड़े बदलाव, दोनों ही हैरान कर देने वाले सटीकता के साथ करता है।
- रंगों में बदलाव (Selective Colour Editing): विशिष्ट रंगों को बदलना या एडजस्ट करना इसका विशेष गुण है।
- रिलाइटिंग (Relighting): किसी भी दृश्य की लाइटिंग को बदलना इसके लिए आसान है।
- फेशियल एक्सप्रेशन (Facial Expressions): चेहरे के भावों को बदलना बहुत ही नैचुरल और अच्छा है।
- टेक्स्ट रिमूवल (Text Removal): इमेज से टेक्स्ट को हटाने का काम भी अच्छी तरह से करता है।
- बैकग्राउंड रिमूवल (Background Removal): बैकग्राउंड को हटाने का काम शानदार है।
- बेसिक एनहांसमेंट (Basic Enhancements): कॉन्ट्रास्ट, ब्राइटनेस जैसे बेसिक फोटोशॉप जैसे एडिट्स आसानी से करता है।
- नेचुरल स्किन टोन (Natural Skin Tones): इंसानों की इमेजेज में स्किन टोन को बहुत ही नेचुरल रखता है, जिससे प्लास्टिक जैसा फील नहीं आता।
कैसे यूज कर सकते हैं जैमिनी 2.5 फ्लैश (नैनो बनाना)?
नैनो बनाना को एक्सेस करने के दो मुख्य तरीके हैं:
- जैमिनी ऐप (Gemini App): जैमिनी ऐप खोलें। आपको दो मॉडल्स दिखाई देंगे - 2.5 Flash और 2.5 Pro। नैनो बनाना के फीचर्स का इस्तेमाल करने के लिए आपको 2.5 Flash मॉडल को सेलेक्ट करना होगा, जो कि ऐप का डिफॉल्ट मॉडल है। यहां आपको 'नैनो बनाना' नाम से कोई अलग ऑप्शन नहीं दिखेगा, बल्कि इसकी क्षमताएं सीधे मॉडल में इंटीग्रेटेड हैं।
- गूगल AI स्टूडियो (Google AI Studio): यहां जाकर आपको सीधे तौर पर 'Nano Banana' मॉडल को चुनने का ऑप्शन मिल जाएगा।
नोट: टेस्टिंग के दौरान एक बात नोटिस की गई कि जैमिनी ऐप से डाउनलोड की गई एडिटेड इमेज की क्वालिटी, गूगल AI स्टूडियो की तुलना में ज्यादा बेहतर (हाई) मिलती है।
लिमिटेशन: नैनो बनाना की सीमाएं क्या हैं?
हर टेक्नोलॉजी की तरह, इस मॉडल की भी कुछ सीमाएं हैं:
- इमेज जेनरेशन (Image Generation): यह मॉडल मुख्य रूप से एडिटिंग के लिए बनाया गया है। इमेज जेनरेशन के मामले में यह बेलो एवरेज परफॉर्म करता है। ब्लॉग पोस्ट या YouTube के लिए थंबनेल बनाने जैसे कामों में ChatGPT (DALL-E 3) ज्यादा बेहतर है।
- लंबे और कॉम्प्लेक्स प्रॉम्प्ट्स (Long & Complex Prompts): अगर आपका प्रॉम्प्ट बहुत लंबा और जटिल है, तो यह कन्फ्यूज हो जाता है और अच्छे रिजल्ट्स नहीं देता। प्रो टिप: प्रॉम्प्ट को छोटा, सरल और सटीक (precise) रखने पर बेहतर नतीजे मिलते हैं।
- वॉटरमार्क (Watermark): गूगल की पॉलिसी के तहत, यह जेनरेट की गई हर इमेज पर एक वॉटरमार्क लगाता है। यह एक एथिकल प्रैक्टिस है ताकि लोगों को पता चल सके कि इमेज AI जनरेटेड है।
- फॉन्ट्स के साथ दिक्कत (Struggles with Fonts): इमेज में टेक्स्ट या फॉन्ट्स को एडिट या जेनरेट करने में यह अच्छा परफॉर्म नहीं करता।
- डिटेल एड करने में असमर्थ (Cannot Add Detail): यह इमेज में नई डिटेल्स ऐड नहीं कर सकता।
- ट्रांसपेरेंसी (Transparency): यह ट्रांसपेरेंट बैकग्राउंड वाली इमेजेज (जैसे PNG) को ठीक से हैंडल नहीं कर पाता और अक्सर गलत इमेज बना देता है।
- अन्य समस्याएं: कभी-कभी यूजर के इंस्ट्रक्शन्स को इग्नोर कर देता है, इमेज को बहुत ज्यादा स्मूथ कर देता है, और कुछ मामलों में रियलिस्टिक-लुकिंग साइ-फाई बैकग्राउंड बनाने में संघर्ष करता है।
तुलना: अन्य AI इमेज एडिटिंग टूल्स के मुकाबले कैसा है नैनो बनाना?
फीचर / टूल | जैमिनी 2.5 फ्लैश (नैनो बनाना) | FLUX 1 Context | Qwen Image Edit | Adobe Firefly | DALL-E 3 (ChatGPT) | Midjourney |
---|---|---|---|---|---|---|
इमेज एडिटिंग | बहुत बढ़िया (85%+ Win Rate) | बहुत बढ़िया (Context-aware) | उत्कृष्ट (Semantic & Appearance) | बहुत बढ़िया | अच्छा | सीमित |
इमेज जेनरेशन | औसत | अच्छा | अच्छा | बहुत बढ़िया | बहुत बढ़िया | उत्कृष्ट |
स्पीड | बहुत तेज़ | तेज़ (6-12 seconds) | तेज़ | तेज़ | तेज़ | धीमी |
स्टाइल ट्रांसफर | उत्कृष्ट | अच्छा | उत्कृष्ट | अच्छा | अच्छा | उत्कृष्ट |
टेक्स्ट एडिटिंग | औसत | अच्छा | उत्कृष्ट (Bilingual) | अच्छा | सीमित | बहुत सीमित |
नेचुरल स्किन टोन | बहुत अच्छा | अच्छा | अच्छा | बहुत अच्छा | अच्छा | परिवर्तनशील |
कंसिस्टेंसी | अच्छा | उत्कृष्ट (Multi-image) | अच्छा | अच्छा | सीमित | सीमित |
वॉटरमार्क | हां | हां | हां | हां | हां | हां |
यूजर-फ्रेंडली | हां | हां | हां | हां | हां | मध्यम |
मुख्य शक्ति | एडिटिंग स्पीड व क्वालिटी | कंटेक्स्टुअल कंसिस्टेंसी | टेक्स्ट एडिटिंग | रियलिस्टिक इमेजरी | क्रिएटिव जेनरेशन | आर्टिस्टिक स्टाइल |
मुख्य सीमा | जनरेशन क्वालिटी | कीमत | सीमित जनरेशन | कीमत | एडिटिंग क्षमता | एडिटिंग क्षमता |
कीमत | फिलहाल फ्री | क्रेडिट-आधारित | फ्री (10 credits) | पेड | पेड (ChatGPT Plus) | पेड |
यूज केसेस: इसका इस्तेमाल कहाँ किया जा सकता है?
- सोशल मीडिया कंटेंट क्रिएशन: पुरानी फोटोज़ को एडिट करके नया लुक देना, मीम्स बनाना।
- ई-कॉमर्स: प्रोडक्ट इमेजेज का बैकग्राउंड हटाना, उनमें छोटे-मोटे बदलाव करना।
- क्रिएटिव प्रोजेक्ट्स: अपनी फोटोज़ को अलग-अलग कार्टून या आर्ट स्टाइल्स में बदलना।
- फोटो रेस्टोरेशन: पुरानी और खराब हुई तस्वीरों में कलर करेक्शन, कॉन्ट्रास्ट ठीक करना आदि।
बेंचमार्क परफॉर्मेंस और रिजल्ट्स का विश्लेषण
एरिना विन रेट (Arena Win Rate):
- जैमिनी 2.5 फ्लैश इमेज ने 85% से अधिक मुकाबले जीते।
- इसने अपने सभी प्रमुख प्रतिस्पर्धियों को पीछे छोड़ दिया:
- FLUX 1 Context (Max, Pro, Dev) को 81-86% के रिकॉर्ड के साथ हराया।
- OpenAI के GPT Image 1 को 85% के स्कोर के साथ पछाड़ा।
- Alibaba Cloud के Qwen Image Edit को भी 85% के स्कोर से पराजित किया।
- यहां तक कि गूगल के अपने पिछले मॉडल जैमिनी 2.0 फ्लैश प्रिव्यू को भी 93% की जबरदस्त जीत दर्ज की।
ओवरऑल प्रिफरेंस (Overall Preference - विभिन्न श्रेणियों में):
- कैरेक्टर एडिटिंग (Character)
- क्रिएटिव टास्क्स (Creative)
- इन्फोग्राफिक्स (Infographics)
- ऑब्जेक्ट/एन्वायरनमेंट (Object/Environment)
- स्टाइलाइजेशन (Stylization)
0 टिप्पणियाँ