Ticker

6/recent/ticker-posts

Ad Code

Responsive Advertisement

Tencent का ओपन सोर्स SRPO AI इमेज जनरेटर - प्लास्टिकी नहीं, कैमरे जैसी सामान्य फोटोज!

 राम राम मित्रों! क्या आपने कभी गौर किया है कि ज्यादातर AI से बनी इमेज देखते ही पता चल जाता है कि वो AI की बनाई हुई है? चाहे वो थोड़ा 'पॉलिश' लुक हो, रंगों का अजीब होना, या फिर डिटेल्स का असामान्य दिखना - ये छोटी-छोटी चीजें AI इमेज की पहचान बन गई हैं। लेकिन Tencent Labs ने हाल ही में अपने नए SRPO (Semantic Relative Preference Optimization) मॉडल के साथ एक ऐसी टेक्नोलॉजी पेश की है जो इन सभी समस्याओं का समाधान लेकर आई है। हैरानी की बात यह है कि यह मॉडल मात्र 10 मिनट के ट्रेनिंग में Flux.1-dev मॉडल की रियलिस्म और एस्थेटिक क्वालिटी को 3 गुना तक बेहता कर देता है।

Tencent SRPO Open-Source AI Image Generation Model hindi


SRPO क्या है?

SRPO एक रिइनफोर्समेंट लर्निंग (RL) फ्रेमवर्क है जिसे खासतौर पर डिफ्यूजन मॉडल्स (जैसे कि AI इमेज जनरेटर) को ट्रेन करने के लिए डिजाइन किया गया है। इसे Tencent की Hunyan टीम ने डेवलप किया है । पारंपरिक तरीकों में, मॉडल्स को बेहतर बनाने के लिए बहुत सारे कंप्यूटेशनल रिसोर्सेज और समय की जरूरत पड़ती थी, लेकिन SRPO दो नई तकनीकों के जरिए इस प्रोसेस को तेज और बेहतर बनाता है:

  1. Direct-Align: यह एक नया सैंपलिंग स्ट्रैटेजी है जो हाई-नॉइज वाली इमेजेज को भी प्रभावी ढंग से रिस्टोर कर सकता है। इससे ट्रेनिंग प्रोसेस अधिक स्टेबल और कम कंप्यूटेशनल रिसोर्स मांगने वाली हो जाती है, खासकर शुरुआती चरणों में।
  2. सेमेंटिक रिलेटिव प्रेफरेंस: इसमें रिवॉर्ड्स को टेक्स्ट-कंडीशन्ड सिग्नल के रूप में ढाला जाता है। इसका मतलब है कि अलग-अलग स्टाइल (जैसे पेंटिंग, फोटोरियलिज्म) के लिए रिवॉर्ड सिस्टम को ऑनलाइन एडजस्ट किया जा सकता है, बार-बार ऑफलाइन फाइन-ट्यूनिंग की जरूरत नहीं पड़ती।


SRPO की खास बातें

1. बेहतरीन स्पीड: सिर्फ 10 मिनट का ट्रेनिंग समय

SRPO की सबसे चौंकाने वाली बात है इसकी स्पीड। पारंपरिक RL मेथड्स में हफ्तों लग सकते हैं, लेकिन SRPO, 32 H20 GPUs पर मात्र 10 मिनट में Flux.1.dev मॉडल की परफॉर्मेंस में जबरदस्त सुधार ला देता है । यह डांसGRPO जैसी अन्य मॉडर्न तकनीकों के मुकाबले 75 गुना अधिक एफिशिएंट है । इसकी वजह है यह सिंगल इमेज रोलआउट और डायरेक्ट अनालिटिकल ग्रेडिएंट्स पर ऑप्टिमाइजेशन करना है।

2. तीन गुना बेहतर रियलिस्म और एस्थेटिक्स

Tencent के दावे के मुताबिक, SRPO फाइन-ट्यूनिंग के बाद इंसानों द्वारा आंके गए रियलिस्म और एस्थेटिक क्वालिटी को 3 गुना से अधिक बेहतर बना देता है । इसका मतलब है कि जनरेट की गई तस्वीरें अब और भी ज्यादा असली कैमरे वाली फोटो जैसी दिखती हैं। इनमें वो 'AI लुक' या 'प्लास्टिक जैसा अजीब असर' नहीं दिखता, जो अक्सर अन्य मॉडल्स में देखने को मिलता है।

3. 'रिवॉर्ड हैकिंग' से छुटकारा

RL ट्रेनिंग में एक बड़ी समस्या 'रिवॉर्ड हैकिंग' की होती है, जहां मॉडल वास्तविक गुणवत्ता बढ़ाए बिना सिर्फ रिवॉर्ड स्कोर बढ़ाने के तरीके ढूंढ लेता है (जैसे रंगों को जरूरत से ज्यादा सैचुरेटेड करना)। SRPO अपनी ट्रेनिंग स्ट्रैटेजी में सुधार के चलते इस समस्या से मुक्त है। यह नेगेटिव रिवॉर्ड्स का इस्तेमाल करके मॉडल को सीधे रेगुलेट करता है, जिससे ओवरसैचुरेशन या अन्य अनचाहे आर्टिफैक्ट्स नहीं आते।

4. स्टाइल और लाइटिंग पर कंट्रोल

SRPO की एक और खूबी है डायनामिक कंट्रोल। इसकी 'सेमेंटिक रिलेटिव प्रेफरेंस' तकनीक की बदौलत, आप पॉजिटिव और नेगेटिव प्रॉम्प्ट्स (जैसे "विचित्र रोशनी", "अति सुंदर") के जरिए रिवॉर्ड मॉडल की प्राथमिकताओं को ऑनलाइन एडजस्ट कर सकते हैं । इसका मतलब है कि आप जनरेशन के दौरान ही लाइटिंग, आर्ट स्टाइल जैसे पहलुओं पर बेहतर नियंत्रण पा सकते हैं।

5. कोड और मॉडल है ओपन-सोर्स

Tencent ने SRPO को पूरी तरह से ओपन-सोर्स कर दिया है। मॉडल वेट्स Hugging Face पर उपलब्ध हैं और ट्रेनिंग व इनफेरेंस का पूरा कोड GitHub पर मौजूद है । इसके अलावा, ComfyUI जैसे पोपुलर GUI टूल के लिए वर्कफ्लो भी शेयर किया गया है, जिससे उपयोगकर्ताओं के लिए इसे आजमाना आसान हो गया है।

SRPO की मुख्य विशेषताएं
फीचर विवरण फायदा
Direct-Align High-noise timesteps को सीधे ऑप्टिमाइज़ करता है बेहतर स्टेबिलिटी, कम VRAM उपयोग
Promptable Rewards प्रॉम्प्ट के जरिए रिवार्ड को कंट्रोल करना बिना फाइन-ट्यूनिंग के रियलिस्टिक इमेज
ट्रेनिंग स्पीड 32 GPUs पर सिर्फ 10 मिनट पारंपरिक methods से 75x तेज
वर्सेटिलिटी रियलिस्टिक फोटोज़ से लेकर आर्ट तक कई तरह की इमेज जनरेशन
No Reward Hacking ऑफ-द-शेल्फ रिवार्ड मॉडल का Use प्राकृतिक और संतुलित इमेज क्वालिटी

SRPO बनाम दूसरे मॉडल: Comparison

अगर SRPO की तुलना Flux Krea जैसे दूसरे रियलिस्टिक मॉडल्स से करें, तो चार्ट्स दिखाते हैं कि SRPO ज्यादातर मामलों में बेहतर परफॉर्म करता है । यह न सिर्फ फोटोरियलिज्म में, बल्कि पेंटिंग्स, रेनेसां आर्ट, और डिजिटल लाइन आर्ट स्केच जैसी कलात्मक शैलियों में भी शानदार नतीजे देता है।
SRPO बनाम अन्य मॉडल्स (मानव मूल्यांकन के आधार पर)
मापदंड (Metric) SRPO Flux Krea बेस FLUX
रियलिज़म (Realism) ✅✅✅
(उत्कृष्ट)
✅✅
(अच्छा)

(सामान्य)
एस्थेटिक्स (Aesthetics) ✅✅✅
(उत्कृष्ट)
✅✅
(अच्छा)

(सामान्य)
ट्रेनिंग स्पीड ⏱️⚡
(बहुत तेज)
⏱️
(मध्यम)
⏱️
(मध्यम)
वर्सेटिलिटी 🎨🖼️🎮
(उच्च)
🎨🖼️
(मध्यम)
🎨
(मध्यम)
उपयोग में आसानी 🛠️
(मध्यम, GGUF उपलब्ध)
🛠️
(मध्यम)
🛠️
(मध्यम)
इस टेबल से साफ है कि रियलिज़म और एस्थेटिक्स जैसे मुख्य मापदंडों पर SRPO का प्रदर्शन बेहतर है।

Technical Insight: SRPO काम कैसे करता है?

SRPO का मुख्य नवाचार डिफ्यूजन प्रक्रिया के पूरे ट्रैजेक्टरी को सीधे ऑप्टिमाइज करना है। पुराने तरीके केवल आखिरी कुछ डिनोइजिंग स्टेप्स पर फोकस करते थे, जो कम कारगर और ज्यादा संसाधन खपत वाला था। SRPO अपने Direct-Align तकनीक से, एक नॉइज प्रायर का इस्तेमाल करके किसी भी टाइमस्टेप की इमेज को इंटरपोलेशन के जरिए वापस रिकवर कर लेता है । इससे ट्रेनिंग के दौरान देर से होने वाले ओवर-ऑप्टिमाइजेशन से बचा जा सकता है और शुरुआती टाइमस्टेप्स में भी सही रिवॉर्ड असाइनमेंट संभव हो पाता है।

SRPO को यूज़ कैसे करें?

चूंकि मॉडल ओपन-सोर्स है, इसलिए इसे आजमाना काफी आसान है। हालांकि ओर्जिनल मॉडल का साइज लगभग 50 GB है, लेकिन कम्युनिटी द्वारा बनाए गए GGUF (4GB जितने छोटे) क्वांटाइज्ड वर्जन भी उपलब्ध हैं, जिन्हें 6 GB VRAM वाले GPU पर भी चलाया जा सकता है।

SRPO चलाने के तरीके: प्रैक्टिकल गाइड

  1. ऑरिजिनल मॉडल (हाई-एंड): Tencent का ऑरिजिनल मॉडल लगभग 50 GB के आसपास है। इसे चलाने के लिए आपके पास कम से कम 50 GB VRAM वाला एक शक्तिशाली GPU (जैसे कई A100 या H100) होना चाहिए। यह आम यूजर्स के लिए व्यावहारिक नहीं है।
  2. GGUF Version (लो-एंड, Recommended): GGUF (GPT-Generated Unified Format) एक ऐसा फाइल फॉर्मेट है जो बड़े AI मॉडल्स को कंप्रेस करके उन्हें कम रिसोर्सेज वाले कंप्यूटर पर चलाने की अनुमति देता है। SRPO के लिए भी कम्युनिटी द्वारा GGUF वर्जन बनाए गए हैं। उदाहरण के लिए, srpo-Q2_K.gguf फाइल का साइज सिर्फ 4 GB है, जिसे आप 6-8 GB VRAM वाले GPU (जैसे RTX 3060, 4060) पर भी चला सकते हैं। GGUF फाइल्स आमतौर पर Hugging Face Hub पर उपलब्ध होती हैं। आप srpo gguf सर्च करके relevant मॉडल्स ढूंढ सकते हैं। GGUF मॉडल्स को Ollama या llama.cpp जैसे टूल्स की मदद से आसानी से रन किया जा सकता है।
  3. Comfy UI Workflow: SRPO के लिए एक Comfy UI वर्कफ्लो भी रिलीज़ किया गया है। Comfy UI एक ग्राफिकल इंटरफेस है जो स्टेबल डिफ्यूज़न मॉडल्स को रन करने और मैनेज करने में मदद करता है। GitHub रिपॉजिटरी में इसके इन्स्ट्रक्शन्स दिए गए हैं।


निष्कर्ष: क्या है SRPO का फ्यूचर?

Tencent का SRPO डिफ्यूजन मॉडल्स के फाइन-ट्यूनिंग की दुनिया में एक बड़ा छलांग साबित हो सकता है। यह गति, गुणवत्ता और नियंत्रण का एक अनूठा संयोग पेश करता है। गति और दक्षता में यह क्रांतिकारी सुधार AI इमेज जनरेशन को और भी ज्यादा एक्सेसिबल बना सकता है। हालांकि, अभी भी बड़े मॉडल्स को चलाने के लिए हाई-एंड हार्डवेयर की जरूरत एक चुनौती बनी हुई है, लेकिन कम्युनिटी द्वारा बनाए जा रहे क्वांटाइज्ड वर्जन इस समस्या को कम कर रहे हैं।

अगर आप AI इमेज जनरेशन के शौकीन हैं या फिर एक डेवलपर हैं, तो SRPO को जरूर आजमाएं। यह टेक्नोलॉजी न केवल बेहतर इमेजेज बनाने में मदद करेगी, बल्कि भविष्य में आने वाले AI टूल्स की दिशा भी तय करेगी।

क्या आपने SRPO आजमाया है? अपने अनुभव नीचे कमेंट में जरूर शेयर करें!


अक्सर पूछे जाने वाले सवाल (FAQ)

1. क्या SRPO को फ्री में यूज़ कर सकते हैं?

जीहाँ! SRPO एक ओपन-सोर्स प्रोजेक्ट है। कोई भी इसके कोड और मॉडल को मुफ्त में डाउनलोड, उपयोग और मॉडिफाई कर सकता है।

2. क्या मैं SRPO को अपने लैपटॉप(लोकली) पर चला सकता हूँ?

ऑरिजिनल 50 GB वालामॉडल नहीं। लेकिन हाँ, अगर आपके लैपटॉप में कम से कम 6-8 GB VRAM वाला dedicated GPU (जैसे NVIDIA की RTX 3060, 4060, या इससे बेहतर) है, तो आप GGUF कंप्रेस्ड वर्जन (जैसे 4 GB का Q2_K वर्जन) जरूर चला सकते हैं।

3. SRPO केवल रियलिस्टिक फोटोज़ के लिए ही है?

बिल्कुल नहीं।हालाँकि यह रियलिस्टिक फोटोज़ में सबसे आगे है, लेकिन यह पेंटिंग्स, आर्टवर्क, स्केचेज़ और अन्य स्टाइल्स में भी बेहतरीन रिजल्ट देता है।

4. क्या SRPO, Midjourney या DALL-E 3 से बेहतर है?

Midjourney और DALL-E 3 अपने-आप मेंशानदार मॉडल हैं, खासकर आर्टिस्टिक स्टाइल के लिए। SRPO की ताकत फोटो-रियलिज़म और ट्रेनिंग की तेज स्पीड में है। तुलनात्मक टेस्ट्स दिखाते हैं कि रियलिस्टिक इमेजेज़ के मामले में SRPO इनसे आगे निकल सकता है।

5. GGUF क्या होता है?

GGUF(GPT-Generated Unified Format) एक ऐसा फाइल फॉर्मेट है जो बड़े AI मॉडल्स को कंप्रेस करके उनका साइज कम करता है, ताकि उन्हें कम पावर वाले कंप्यूटरों पर भी चलाया जा सके। इससे मॉडल की परफॉर्मेंस में थोड़ा समझौता हो सकता है, लेकिन यह ज्यादातर यूजर्स के लिए एक बड़ी राहत है।

Important Links/ References:

एक टिप्पणी भेजें

0 टिप्पणियाँ