राम राम मित्रों! आपने कभी सोचा है कि एक AI सिर्फ़ चैट करने के बजाय, आपके लिए किसी कठिन टॉपिक पर खुद से रिसर्च कैसे कर सकता है? वह भी इंटरनेट पर खोजकर, जानकारी जुटाकर, कोड चलाकर और सब कुछ जोड़कर एक कंप्लीट रिपोर्ट आपको कैसे दे सकता है? हालांकि AI के द्वारा डीप रिसर्च का कॉन्सेप्ट अब कोई नई बात नहीं है, ChatGPT और Gemini पहले से ही ये काम बेहतर ढंग से कर रहे हैं। लेकिन Alibaba के Tongyi Lab ने हाल ही में Tongyi DeepResearch नाम का एक 'एजेंटिक' AI मॉडल लॉन्च किया है, जो ऐसा ही कुछ करने में सक्षम है।
मुख्य बात यह है कि यह एक ओपन-सोर्स मॉडल है, जो अपने क्लोज़ सोर्स(Proprietary) कॉम्पिटिटर्स जैसे OpenAI के 'Deep Research' और Google की Gemini के मॉडल्स को कड़ी टक्कर दे रहा है, बल्कि कई मामलों में पीछे छोड़ रहा है(बेंचमार्क्स की बात हम पोस्ट में आगे करेंगे)। इस ब्लॉग पोस्ट में, हम समझाएंगे कि Tongyi DeepResearch आखिर है क्या, यह इतना खास क्यों है, और यह AI दुनिया में किस तरह का बड़ा बदलाव लाने की क्षमता रखता है।
Tongyi DeepResearch क्या है? एक 'एजेंट' सिर्फ़ चैटबॉट नहीं
साधारण AI चैटबॉट आपके सवाल का जवाब देने के लिए प्रशिक्षित होते हैं। लेकिन एक 'एजेंट' AI उससे कहीं आगे की सोचता है। Tongyi DeepResearch एक एजेंटिक लार्ज लैंग्वेज मॉडल है, जिसे खासतौर पर लंबे और गहन शोध के कार्यों के लिए डिजाइन किया गया है। यह अपने आप कई स्टेप्स परफोर्म कर सकता है, जैसे:
- वेब सर्च करना
- वेबपेज पढ़ना और उनसे जानकारी निकालना
- कोड चलाना और डेटा का एनालिसिस करना
- मिली-जुली जानकारी को संश्लेषित (Synthesize) करके एक स्पष्ट और तथ्य-आधारित जवाब या रिपोर्ट तैयार करना।
इसकी तुलना एक विशेषज्ञों की टीम से की जा सकती है, जहां हर विशेषज्ञ अपना काम करता है और फिर सब मिलकर नतीजा निकालते हैं।
मिक्सचर ऑफ एक्सपर्ट्स, MoEs (Mixture of Experts) का जादू
इस मॉडल की सबसे दिलचस्प बात इसका इंटरनल स्ट्रक्चर है। इसे Mixture of Experts (MoE) आर्किटेक्चर पर बनाया गया है, ऐसे समझिए:
- कुल मिलाकर इस मॉडल में 30.5 बिलियन पैरामीटर्स हैं (ये AI मॉडल की जानकारी रखने वाली इकाइयाँ(यूनिट्स) होती हैं)।
- लेकिन, आपके द्वारा दिए गए हर एक शब्द (टोकन) को प्रोसेस करने के लिए इनमें से सिर्फ़ 3.3 बिलियन पैरामीटर्स ही सक्रिय होते हैं(एक्टिव पैरामीटर्स)।
- इसका फायदा यह है कि यह मॉडल एक छोटे मॉडल जितना फास्ट और एफिशिएंट तो रहता है, लेकिन नॉलेज और क्षमता बड़े मॉडल्स जैसा रखता है। यह ऐसे ही है जैसे एक छोटी कार का ईंधन खर्च और एक बड़ी लग्जरी कार का कम्फ़र्ट और परफॉर्मेंस, दोनों एक साथ मिल जाएं।😃
Tongyi DeepResearch के बेंचमार्क परफोर्मेंस का निचोड़:
मॉडल का नाम | Humanity's Last Exam (HLE) | BrowseComp | GAIA | WebWalkerQA | FRAMES | SimpleQA |
---|---|---|---|---|---|---|
Tongyi DeepResearch | 32.9 | 43.4 | 70.9 | 72.2 | 90.6 | 98.6 |
OpenAI o3 | 24.9 | 49.7 | – | 71.7 | 84.0 | – |
Claude-4-Sonnet | 20.3 | 12.2 | 68.3 | 61.7 | 80.7 | – |
DeepSeek V3.1 | 29.8 | 30.0 | 63.1 | 61.2 | 83.7 | 88.3 |
Kimi Researcher | 26.9 | 14.1 | 57.7 | 63.0 | 78.8 | 93.6 |
बेंचमार्क्स का मतलब क्या है?
- Humanity's Last Exam (HLE): यह अकादमिक ज्ञान और जटिल, बहु-चरणीय समस्या-समाधान का परीक्षण करता है।
- BrowseComp & BrowseComp-ZH: ये मॉडल की वेब-ब्राउजिंग क्षमताओं (आम और चीनी-भाषा विशिष्ट) का मूल्यांकन करते हैं।
- GAIA: यह जाँचता है कि AI साधारण तथ्यात्मक प्रश्नों के उत्तर कितनी सटीकता से दे पाता है।
- WebWalkerQA: यह वेब नेविगेशन और प्रश्नोत्तरी पर केंद्रित है।
- FRAMES: यह मल्टी-हॉप रीजनिंग (कई स्रोतों से जानकारी जोड़कर निष्कर्ष निकालना) और तथ्यात्मक याद्दाश्त की परख करता है।
इतना शक्तिशाली मॉडल बनता कैसे है? तीन बड़े रहस्य
1. स्वचालित सिंथेटिक डेटा का निर्माण
2. एजेंटिक डेटा पर निरंतर प्रशिक्षण
3. एंड-टू-एंड रीइन्फोर्समेंट लर्निंग (RL)
Tongyi DeepResearch के काम करने के तरीके: ReAct और 'हैवी' मोड
- ReAct मोड: यह एक हल्का और तेज़ तरीका है। इसमें मॉडल एक स्टेप-बाय-स्टेप प्रोसेस फॉलो करता है, कुछ इस तरह: सोच (Thought) -> कार्य (Action) -> अवलोकन (Observation)। यह मॉडल की मूल क्षमताओं को जांचने का एक शानदार तरीका है।
- हैवी मोड (IterResearch): बहुत कॉम्प्लेक्स और लंबे रिसर्च के कार्यों के लिए यह मोड इस्तेमाल किया जाता है। इसमें कई AI एजेंट एक साथ काम करते हैं, जो किसी प्रश्न के अलग-अलग पहलुओं पर शोध करते हैं। फिर, एक अंतिम संश्लेषण (Synthesis) एजेंट सभी की खोजों को एक साथ जोड़कर एक व्यापक रिपोर्ट तैयार करता है। इससे मॉडल का 'दिमाग' जानकारी के बोझ तले दबता नहीं है और वह लंबे समय तक उच्च-स्तरीय सोच बनाए रख पाता है।
अपने कंप्यूटर पर लोकली कैसे चलाए?
- मॉडल डाउनलोड करना: सबसे पहले Hugging Face के पेज Alibaba-NLP/Tongyi-DeepResearch-30B-A3B से मॉडल को डाउनलोड करें।
- कोड रिपोजिटरी क्लोन करना: GitHub रिपोजिटरी Alibaba-NLP/DeepResearch को क्लोन करें, जिसमें इंफेरेंस चलाने के सभी जरूरी कोड और निर्देश मौजूद हैं।
- पायथन एनवायरनमेंट सेटअप करना: Python 3.10 का इस्तेमाल करते हुए एक अलग वर्चुअल एनवायरनमेंट बनाएं और requirements.txt फाइल में दिए गए सभी जरूरी पैकेजेस इंस्टॉल करें।
- API Keys कॉन्फ़िगर करना: वेब सर्च और अन्य सुविधाओं का इस्तेमाल करने के लिए आपको Serper, Jina AI जैसी सेवाओं की API Keys को .env फाइल में एड करना होगा।
- इंफेरेंस रन करना: अब आप रिपोजिटरी में दिए गए इंफेरेंस स्क्रिप्ट्स को रन करके मॉडल का परीक्षण शुरू कर सकते हैं।
GPU रिक्वायरमेंट्स एनालिसिस
परिदृश्य | न्यूनतम VRAM | अनुशंसित VRAM | उदाहरण GPUs |
---|---|---|---|
परीक्षण / एकल क्वेरी | 40 GB | 40–48 GB | NVIDIA A100 40GB |
मानक शोध कार्य | 80 GB | 80–96 GB | NVIDIA A100 80GB, H100 80GB |
उच्च-प्रदर्शन (Production) | 120 GB+ | 128 GB+ | 2x H100 SXM (NVLink) |
0 टिप्पणियाँ