Ticker

6/recent/ticker-posts

Ad Code

Responsive Advertisement

Alibaba का Tongyi DeepResearch: OpenAI के ChatGPT को टक्कर देने वाला AI एजेंट

 राम राम मित्रों! आपने कभी सोचा है कि एक AI सिर्फ़ चैट करने के बजाय, आपके लिए किसी कठिन टॉपिक पर खुद से रिसर्च कैसे कर सकता है? वह भी इंटरनेट पर खोजकर, जानकारी जुटाकर, कोड चलाकर और सब कुछ जोड़कर एक कंप्लीट रिपोर्ट आपको कैसे दे सकता है? हालांकि AI के द्वारा डीप रिसर्च का कॉन्सेप्ट अब कोई नई बात नहीं है, ChatGPT और Gemini पहले से ही ये काम बेहतर ढंग से कर रहे हैं। लेकिन Alibaba के Tongyi Lab ने हाल ही में Tongyi DeepResearch नाम का एक 'एजेंटिक' AI मॉडल लॉन्च किया है, जो ऐसा ही कुछ करने में सक्षम है।


Alibaba's Tongyi DeepResearch Open Source AI Model hindi


मुख्य बात यह है कि यह एक ओपन-सोर्स मॉडल है, जो अपने क्लोज़ सोर्स(Proprietary) कॉम्पिटिटर्स जैसे OpenAI के 'Deep Research' और Google की Gemini के मॉडल्स को कड़ी टक्कर दे रहा है, बल्कि कई मामलों में पीछे छोड़ रहा है(बेंचमार्क्स की बात हम पोस्ट में आगे करेंगे)। इस ब्लॉग पोस्ट में, हम समझाएंगे कि Tongyi DeepResearch आखिर है क्या, यह इतना खास क्यों है, और यह AI दुनिया में किस तरह का बड़ा बदलाव लाने की क्षमता रखता है।

Tongyi DeepResearch क्या है? एक 'एजेंट' सिर्फ़ चैटबॉट नहीं

साधारण AI चैटबॉट आपके सवाल का जवाब देने के लिए प्रशिक्षित होते हैं। लेकिन एक 'एजेंट' AI उससे कहीं आगे की सोचता है। Tongyi DeepResearch एक एजेंटिक लार्ज लैंग्वेज मॉडल है, जिसे खासतौर पर लंबे और गहन शोध के कार्यों के लिए डिजाइन किया गया है। यह अपने आप कई स्टेप्स परफोर्म कर सकता है, जैसे:

  • वेब सर्च करना
  • वेबपेज पढ़ना और उनसे जानकारी निकालना
  • कोड चलाना और डेटा का एनालिसिस करना
  • मिली-जुली जानकारी को संश्लेषित (Synthesize) करके एक स्पष्ट और तथ्य-आधारित जवाब या रिपोर्ट तैयार करना।

इसकी तुलना एक विशेषज्ञों की टीम से की जा सकती है, जहां हर विशेषज्ञ अपना काम करता है और फिर सब मिलकर नतीजा निकालते हैं।

मिक्सचर ऑफ एक्सपर्ट्स, MoEs (Mixture of Experts) का जादू

इस मॉडल की सबसे दिलचस्प बात इसका इंटरनल स्ट्रक्चर है। इसे Mixture of Experts (MoE) आर्किटेक्चर पर बनाया गया है, ऐसे समझिए:

  • कुल मिलाकर इस मॉडल में 30.5 बिलियन पैरामीटर्स हैं (ये AI मॉडल की जानकारी रखने वाली इकाइयाँ(यूनिट्स) होती हैं)।
  • लेकिन, आपके द्वारा दिए गए हर एक शब्द (टोकन) को प्रोसेस करने के लिए इनमें से सिर्फ़ 3.3 बिलियन पैरामीटर्स ही सक्रिय होते हैं(एक्टिव पैरामीटर्स)।
  • इसका फायदा यह है कि यह मॉडल एक छोटे मॉडल जितना फास्ट  और एफिशिएंट तो रहता है, लेकिन नॉलेज और क्षमता बड़े मॉडल्स जैसा रखता है। यह ऐसे ही है जैसे एक छोटी कार का ईंधन खर्च और एक बड़ी लग्जरी कार का कम्फ़र्ट और परफॉर्मेंस, दोनों एक साथ मिल जाएं।😃


Tongyi DeepResearch के बेंचमार्क परफोर्मेंस का निचोड़:

सबसे बड़ा सवाल: इसकी क्षमता का आकलन कैसे हुआ? AI मॉडल्स की तुलना करने के लिए उन्हें कई मानक परीक्षणों (Benchmarks) से गुज़ारा जाता है। Tongyi DeepResearch ने इन परीक्षणों में शानदार प्रदर्शन किया है। नीचे दिए गए टेबल में आप इसकी तुलना दुनिया के टॉप-लेवल मॉडल्स से देख सकते हैं:

मॉडल का नाम Humanity's Last Exam (HLE) BrowseComp GAIA WebWalkerQA FRAMES SimpleQA
Tongyi DeepResearch 32.9 43.4 70.9 72.2 90.6 98.6
OpenAI o3 24.9 49.7 71.7 84.0
Claude-4-Sonnet 20.3 12.2 68.3 61.7 80.7
DeepSeek V3.1 29.8 30.0 63.1 61.2 83.7 88.3
Kimi Researcher 26.9 14.1 57.7 63.0 78.8 93.6

टेबल: डिफरेंट AI एजेंट बेंचमार्क पर Tongyi DeepResearch का प्रदर्शन (उच्च स्कोर बेहतर प्रदर्शन दर्शाता है)

इस टेबल से साफ़ जाहिर है कि FRAMES (तथ्यात्मक याद्दाश्त और जटिल तर्क का परीक्षण) और SimpleQA (साधारण प्रश्न-उत्तर) जैसे बेंचमार्क्स में Tongyi DeepResearch ने सभी को पीछे छोड़ दिया है. इसका मतलब है कि यह तथ्यों के आधार पर जटिल सवालों के जवाब देने में बहुत मज़बूत है।

बेंचमार्क्स का मतलब क्या है?

  1. Humanity's Last Exam (HLE): यह अकादमिक ज्ञान और जटिल, बहु-चरणीय समस्या-समाधान का परीक्षण करता है।
  2. BrowseComp & BrowseComp-ZH: ये मॉडल की वेब-ब्राउजिंग क्षमताओं (आम और चीनी-भाषा विशिष्ट) का मूल्यांकन करते हैं।
  3. GAIA: यह जाँचता है कि AI साधारण तथ्यात्मक प्रश्नों के उत्तर कितनी सटीकता से दे पाता है।
  4. WebWalkerQA: यह वेब नेविगेशन और प्रश्नोत्तरी पर केंद्रित है।
  5. FRAMES: यह मल्टी-हॉप रीजनिंग (कई स्रोतों से जानकारी जोड़कर निष्कर्ष निकालना) और तथ्यात्मक याद्दाश्त की परख करता है।


इतना शक्तिशाली मॉडल बनता कैसे है? तीन बड़े रहस्य

Tongyi DeepResearch की इस सफलता के पीछे इसके ट्रेनिंग पाइपलाइन की तीन मुख्य बातें हैं:

1. स्वचालित सिंथेटिक डेटा का निर्माण

AI मॉडल को प्रशिक्षित करने के लिए बहुत सारे उच्च-गुणवत्ता वाले डेटा की जरूरत होती है। Tongyi Lab ने एक ऐसी पाइपलाइन बनाई है जो पूरी तरह से स्वचालित तरीके से कृत्रिम डेटा (Synthetic Data) तैयार करती है। इस डेटा का इस्तेमाल मॉडल को प्री-ट्रेनिंग, फाइन-ट्यूनिंग और यहाँ तक कि रीइन्फोर्समेंट लर्निंग के लिए किया जाता है। इससे मानवीय हस्तक्षेप की जरूरत खत्म हो जाती है और डेटा बड़े पैमाने पर तैयार किया जा सकता है।

2. एजेंटिक डेटा पर निरंतर प्रशिक्षण

मॉडल को लगातार ताज़ा और विविधतापूर्ण एजेंटिक इंटरेक्शन डेटा (जैसे खोज करना, टूल्स का इस्तेमाल करना) पर प्रशिक्षित किया जाता है। इससे इसकी क्षमताएं लगातार बढ़ती रहती हैं और यह नई चुनौतियों के लिए तैयार रहता है।

3. एंड-टू-एंड रीइन्फोर्समेंट लर्निंग (RL)

अंतिम चरण में, मॉडल को एक कस्टमाइज्ड Group Relative Policy Optimization (GRPO) फ्रेमवर्क के जरिए रीइन्फोर्समेंट लर्निंग दी जाती है. इसे साधारण भाषा में समझें तो यह ऐसा है जैसे AI को उसके काम के लिए 'इनाम' दिया जाता है। अगर उसने सही और प्रभावी कदम उठाए, तो उसे पुरस्कृत किया जाता है, जिससे वह और बेहतर प्रदर्शन करना सीखता है। यह प्रक्रिया मॉडल के व्यवहार को उच्च-स्तरीय लक्ष्यों के साथ संरेखित करती है।

Tongyi DeepResearch के काम करने के तरीके: ReAct और 'हैवी' मोड

इंफेरेंस (वास्तविक उपयोग) के समय, Tongyi DeepResearch दो अलग-अलग तरीकों से काम कर सकता है:
  • ReAct मोड: यह एक हल्का और तेज़ तरीका है। इसमें मॉडल एक स्टेप-बाय-स्टेप प्रोसेस फॉलो करता है, कुछ इस तरह: सोच (Thought) -> कार्य (Action) -> अवलोकन (Observation)। यह मॉडल की मूल क्षमताओं को जांचने का एक शानदार तरीका है।
  • हैवी मोड (IterResearch): बहुत कॉम्प्लेक्स और लंबे रिसर्च के कार्यों के लिए यह मोड इस्तेमाल किया जाता है। इसमें कई AI एजेंट एक साथ काम करते हैं, जो किसी प्रश्न के अलग-अलग पहलुओं पर शोध करते हैं। फिर, एक अंतिम संश्लेषण (Synthesis) एजेंट सभी की खोजों को एक साथ जोड़कर एक व्यापक रिपोर्ट तैयार करता है। इससे मॉडल का 'दिमाग' जानकारी के बोझ तले दबता नहीं है और वह लंबे समय तक उच्च-स्तरीय सोच बनाए रख पाता है।

अपने कंप्यूटर पर लोकली कैसे चलाए?

अच्छी खबर यह है कि यह एक ओपन-सोर्स मॉडल है, जिसे आप Hugging Face से डाउनलोड करके अपने सिस्टम पर चला सकते हैं. हालाँकि, ध्यान रखें कि इसके लिए एक शक्तिशाली GPU की आवश्यकता होगी क्योंकि मॉडल का आकार लगभग 60 GB है. यहाँ संक्षिप्त स्टेप्स दिए गए हैं:
  1. मॉडल डाउनलोड करना: सबसे पहले Hugging Face के पेज Alibaba-NLP/Tongyi-DeepResearch-30B-A3B से मॉडल को डाउनलोड करें।
  2. कोड रिपोजिटरी क्लोन करना: GitHub रिपोजिटरी Alibaba-NLP/DeepResearch को क्लोन करें, जिसमें इंफेरेंस चलाने के सभी जरूरी कोड और निर्देश मौजूद हैं।
  3. पायथन एनवायरनमेंट सेटअप करना: Python 3.10 का इस्तेमाल करते हुए एक अलग वर्चुअल एनवायरनमेंट बनाएं और requirements.txt फाइल में दिए गए सभी जरूरी पैकेजेस इंस्टॉल करें।
  4. API Keys कॉन्फ़िगर करना: वेब सर्च और अन्य सुविधाओं का इस्तेमाल करने के लिए आपको Serper, Jina AI जैसी सेवाओं की API Keys को .env फाइल में एड करना होगा।
  5. इंफेरेंस रन करना: अब आप रिपोजिटरी में दिए गए इंफेरेंस स्क्रिप्ट्स को रन करके मॉडल का परीक्षण शुरू कर सकते हैं।


GPU रिक्वायरमेंट्स एनालिसिस 

आपके सिस्टम में कितनी GPU मेमोरी (VRAM) होनी चाहिए, इसका एक अनुमान नीचे दिया गया है:

Tongyi DeepResearch चलाने के लिए GPU आवश्यकताएँ
परिदृश्य न्यूनतम VRAM अनुशंसित VRAM उदाहरण GPUs
परीक्षण / एकल क्वेरी 40 GB 40–48 GB NVIDIA A100 40GB
मानक शोध कार्य 80 GB 80–96 GB NVIDIA A100 80GB, H100 80GB
उच्च-प्रदर्शन (Production) 120 GB+ 128 GB+ 2x H100 SXM (NVLink)


निष्कर्ष: AI डीप रिसर्च में होगा ओपन-सोर्स मॉडल्स का दबदबा!

Alibaba का Tongyi DeepResearch, AI की दुनिया में एक बड़ी छलांग है। इसने यह साबित कर दिया है कि ओपन-सोर्स मॉडल भी क्लोज़ सोर्स वाले विशालकाय मॉडल्स के बराबर या उनसे भी बेहतर प्रदर्शन कर सकते हैं। यह न सिर्फ़ रिसर्चर्स और डेवलपर्स के लिए नई संभावनाएं खोलता है, बल्कि AI तकनीक को और अधिक पारदर्शी और सुलभ बनाता है।

अगर आप AI और रिसर्च के क्षेत्र में हैं, तो Tongyi DeepResearch को जरूर टेस्ट करके देखें। यह आपके काम को एक नई गति और गहराई दे सकता है।

क्या आपने कभी किसी AI रिसर्च एजेंट का इस्तेमाल किया है? इस टेक्नोलॉजी के बारे में आपकी क्या राय है? नीचे कमेंट करके जरूर बताएं!

एक टिप्पणी भेजें

0 टिप्पणियाँ