छोटा मॉडल, बड़ी समझ: क्या है सैमसंग का 7M पैरामीटर वाला TRM?

राम राम मित्रों! आजकल AI की दुनिया में एक ही बात चल रही है - जितना बड़ा मॉडल, उतना बेहतर परफॉर्मेंस! हर कोई बस पैरामीटर्स की संख्या बढ़ाने की होड़ में लगा हुआ है। पर क्या आप जानते हैं कि सैमसंग के रिसर्चर्स ने एक ऐसा AI मॉडल बनाया है जिसमें सिर्फ 7 मिलियन पैरामीटर्स हैं, लेकिन यह Google के Gemini 2.5 Pro और DeepSeek-R1 जैसे बड़े मॉडल्स को पछाड़ रहा है?

मेरे विचार में, यह AI research में एक बड़ा बदलाव लाने वाला है। आज इस ब्लॉग पोस्ट में हम जानेंगे कि कैसे यह छोटा सा मॉडल इतना शक्तिशाली है, और क्यों यह AI की दुनिया में एक नई राह दिखा रहा है।

Work smart not Hard: ये कहावत तो AI पर भी लागू हो गई!

आपने भी सुना ही होगा, "कम समझदार व्यक्ति ज्यादा मेहनत करता है, जबकि समझदार व्यक्ति चतुराई से काम लेता है"। AI की दुनिया में भी यही हो रहा था - बड़ी कंपनियाँ बस parameters की संख्या बढ़ाती जा रही थीं, लेकिन सैमसंग के रिसर्चर्स ने एक नई राह दिखाई है। और वो है TRM!

क्या है TRM?

Tiny Recursive Model (TRM) सैमसंग SAIL Montreal की एक AI मॉडल है जिसमें सिर्फ दो लेयर्स और 7 मिलियन पैरामीटर्स हैं। यह आकार में तो बहुत छोटा है, लेकिन इसकी खासियत इसकी recursive reasoning क्षमता है और यही है इसकी सफलता का राज है।

TRM के मुख्य आँकड़े:

TRM मॉडल और अन्य बड़े मॉडल्स का प्रदर्शन तुलना
मेट्रिक	TRM का प्रदर्शन	अन्य बड़े मॉडल्स का प्रदर्शन
ARC-AGI-1	44.6-45%	Gemini 2.5 Pro: 37%
ARC-AGI-2	7.8-8%	DeepSeek-R1: 1.3%
सुडोकू-एक्स्ट्रीम	87.4%	HRM (27M पैरामीटर): 55%
मेज़-हार्ड	85.3%	HRM: 74.5%

वह बुनियादी समस्या जिससे आज के LLMs जूझ रहे हैं

आज के बड़े AI मॉडल मूल रूप से अगला टोकन predict करना सीखते हैं। जब आप कोई प्रश्न पूछते हैं, तो मॉडल संभावित शब्दों में से सबसे उचित शब्द चुनता चला जाता है। पर समस्या यह है कि एक गलत टोकन पूरे उत्तर को गलत साबित कर सकता है।

इस समस्या से निपटने के लिए दो मुख्य तकनीकों का उपयोग किया जाता है:

Chain-of-Thought (CoT): इसमें मॉडल अपना विचार प्रक्रिया step-by-step लिखता है, फिर उत्तर देता है।
Test-Time Compute (TTC): इसमें मॉडल एक प्रश्न के कई उत्तर generate करता है, और सबसे अच्छा उत्तर चुनता है।

पर वास्तव में ये दोनों ही तरीके महंगे हैं और मूल समस्या का समाधान नहीं करते - ये मॉडल वास्तव में "सोच" नहीं रहे, बस बेहतर अनुमान लगा रहे हैं।

कैसे काम करता है TRM?

मुझे लगता है कि technical concepts को आसान भाषा में समझाना जरूरी है। TRM का काम करने का तरीका बहुत ही रोचक है:

1. पहला कदम: एक Draft तैयार करना

TRM सबसे पहले प्रश्न का एक प्रारंभिक उत्तर तैयार करता है, ठीक वैसे ही जैसे हम किसी सवाल का जवाब लिखने से पहले एक Draft बनाते हैं।

2. दूसरा कदम: छिपी हुई "स्क्रैचपैड" बनाना

फिर यह एक छिपी हुई "स्क्रैचपैड" (latent scratchpad) तैयार करता है जहाँ यह अपनी सोच-विचार की प्रक्रिया(reasoning) को Record करता है। इसे ऐसे समझें जैसे हम गणित की समस्या हल करते समय रफ वर्क करते हैं।

3. तीसरा कदम: बार-बार सुधार करना

अब यह मॉडल अपने उत्तर को बार-बार check करता है और सुधारता है - 16 बार तक! हर बार यह अपनी सोच को update करता है और बेहतर उत्तर की ओर बढ़ता है।

मेरे विचार में यह प्रक्रिया मानव सोच के बेहद करीब है। हम भी किसी समस्या को हल करते समय बार-बार सोचते हैं, अपने तर्क को check करते हैं, और उत्तर को बेहतर बनाते हैं।

TRM vs बड़े AI मॉडल्स: आकार नहीं, तरीका है महत्वपूर्ण

Parameters का सच

आइए एक नजर डालते हैं parameters की तुलना पर:

TRM और अन्य AI मॉडल्स के Parameters की तुलना
मॉडल	Parameters की संख्या	TRM के सापेक्ष आकार
TRM	7 Million	1x
DeepSeek-R1	671 Billion	लगभग 10,000x बड़ा
Gemini 2.5 Pro	Billion में (exact संख्या नहीं)	हज़ारों गुना बड़ा
o3-mini-high	Billion में	हज़ारों गुना बड़ा

ये आँकड़े देखकर हैरानी होती है - जहाँ दूसरे मॉडल्स में हज़ारों-लाखों गुना ज्यादा parameters हैं, वहीं TRM उनसे बेहतर performance दे रहा है।

क्यों Fail करते हैं बड़े मॉडल?

इस रिसर्च पेपर के हिसाब से बड़े LLMs का मुख्य समस्या उनकी autoregressive decoding approach है। ये मॉडल सिर्फ अगला Token predict करते हैं - एक बार गलत Token बन गया तो पूरा उत्तर गलत हो जाता है। यह ऐसे ही है जैसे हम कुछ सोचे कर बस तुक्का मार देते हैं।

Recursive Reasoning: AI सोचने का नया तरीका

TRM की सफलता का राज है recursive reasoning। आइए इसे गहराई से समझते हैं:

HRM से बेहतर क्यों है TRM?

TRM से पहले Hierarchical Reasoning Model (HRM) नामक एप्रोच मौजूद था जिसमें 27 मिलियन पैरामीटर्स थे। HRM ने बायोलॉजिकल आर्गुमेंट्स दिए - कि मानव मस्तिष्क अलग-अलग frequencies पर काम करता है, इसलिए उन्होंने दो networks बनाए।

पर TRM के रिसर्चर Alexia Jolicoeur-Martineau का कहना है कि यह बायोलॉजिकल आर्गुमेंट्स unnecessary हैं और model को बेवजह कॉम्प्लेक्स बनाते हैं। उन्होंने एक simple recursive approach अपनाया जो बेहतर काम करता है।

Recursive Reasoning की शक्ति

TRM का core idea बहुत simple है:

Think: Latent scratchpad (z) को update करें
Act: Current solution (y) को update करें

यह process बार-बार दोहराई जाती है, और हर बार उत्तर थोड़ा जिससे यह और बेहतर होता जाता है।

मुझे लगता है कि यह approach इसलिए successful है क्योंकि यह computation को parameters बढ़ाने की बजाय thinking process में invest करता है।

Real-World परिणाम: सिर्फ Theory नहीं, Practice में भी कारगर

ARC-AGI Benchmark पर प्रदर्शन

ARC-AGI (Abstract Reasoning Corpus) AI की abstract reasoning क्षमता को मापने का एक मुश्किल test है। इसमें visual puzzles होते हैं जिन्हें solve करने के लिए deep reasoning की जरूरत होती है।

TRM ने ARC-AGI-1 पर 45% accuracy हासिल की, जबकि:

Gemini 2.5 Pro: 37%
o3-mini-high: 34.5%
DeepSeek-R1: 15.8%

ये आँकड़े बताते हैं कि TRM की reasoning क्षमता कितनी पावरफुल है।

अन्य Puzzles पर प्रदर्शन

सुडोकू-एक्स्ट्रीम: TRM ने 87.4% accuracy हासिल की, जबकि पिछला model (HRM) सिर्फ 55% accuracy ही दे पाया।
मेज़-हार्ड: TRM की accuracy 85.3% रही, जबकि HRM 74.5% पर था।

मेरे विचार में यह improvement बहुत significant है, खासकर जब consideration में लिया जाए कि TRM में parameters कम हैं।

पेपर में एक ग्राफ में दिखाया गया कि HRM में रिकर्सन्स बढ़ाने से थोड़ा इम्प्रूव, फिर प्लेटो। लेकिन TRM में लेस डेप्थ के साथ ज्यादा गेन। OOM (Out of Memory) इश्यू भी कम, क्योंकि छोटा नेटवर्क। और ARC-AGI पर कंपेयर: DeepSeek R1, Claude 3.7, Gemini 2.5 Pro सब TRM से कम स्कोर। सिर्फ Grok-4-thinking बेहतर, लेकिन वो एक मैसिव मॉडल है।

मुझे लगता है कि ये रिजल्ट्स दिखाते हैं कि रिकर्शन एक नई स्केलिंग लॉ हो सकती है। ट्रेडिशनल स्केलिंग में पैरामीटर्स बढ़ाओ, लेकिन यहां रिकर्सन्स बढ़ाओ। कंप्यूट अभी भी चाहिए, लेकिन मॉडल साइज नहीं। ये फ्यूचर में AGI के लिए गेम-चेंजर हो सकता है - छोटे, एफिशिएंट मॉडल्स जो हार्ड टास्क्स सॉल्व करें।

TRM के Implications: AI का भविष्य बदल सकता है

Efficiency का नया मानक

TRM की सफलता बताती है कि AI में हमेशा बड़े models बनाना जरूरी नहीं है। मेरा मानना है कि इससे startups, researchers और universities को बहुत फायदा होगा जिनके पास limited resources हैं।

एक 7 million parameter model आसानी से किसी भी smartphone या laptop पर run हो सकता है, जबकि billion-parameter models को expensive hardware की जरूरत होती है।

Environment पर Impact

बड़े AI models को train और run करने में बहुत ज्यादा electricity खपत होती है। TRM जैसे efficient models environment के लिए बेहतर हैं। मुझे लगता है कि आने वाले समय में AI industry को environment friendly solutions की ओर बढ़ना ही होगा।

New Research Directions

TRM recursive reasoning के importance को prove करता है। मेरे विचार में future के AI models इस approach को adopt करेंगे - शायद large language models के साथ-साथ recursive reasoning modules भी होंगे।

Technical Innovations: TRM की खास बातें

Simplified Architecture

TRM ने HRM के complex hierarchy को हटाकर एक simple recursive core का इस्तेमाल किया। मेरा मानना है कि यह simplification ही इसकी success का एक बड़ा कारण है।

Full Backpropagation

HRM fixed-point gradient approximation का इस्तेमाल करता था, जबकि TRM full backpropagation through all recursive steps का इस्तेमाल करता है। Researchers का कहना है कि यह generalization के लिए essential है।

Deep Supervision

TRM deep supervision का इस्तेमाल करता है - meaning कि हर recursive step पर feedback मिलता है। यह ऐसे ही है जैसे किसी student को हर step पर guidance मिले, सिर्फ final answer पर नहीं।

रिसर्चर्स ने फाउंड कि ज्यादा लेयर्स ऐड करने से ओवरफिटिंग होती है, इसलिए 2 लेयर्स ऑप्टिमल हैं। ये वर्चुअल डेप्थ क्रिएट करता है - मतलब, रिकर्शन से मॉडल डीपर थिंकिंग सिमुलेट करता है बिना एक्टुअल लेयर्स बढ़ाए।

विशेषज्ञों और Community की प्रतिक्रिया

AI research community ने TRM के work को सराहा है। Hugging Face के एक engineer ने officially request की है कि TRM के models और datasets को Hugging Face Hub पर upload किया जाए ताकि ज्यादा से ज्यादा लोग इसे access कर सकें।

निष्कर्ष: छोटे पैकेज में बड़ी समझदारी

मेरे विचार में TRM AI research में एक game-changer साबित हो सकता है। यह हमें यह सिखाता है कि कभी-कभी "less is more", बड़े-बड़े models बनाने की बजाय smart approaches develop करना ज्यादा फायदेमंद हो सकता है।

आने वाले समय में हमें और भी efficient models देखने को मिल सकते हैं जो recursive reasoning का इस्तेमाल करते हैं। हो सकता है कि future के AI systems में large language models के साथ-साथ TRM जैसे specialized reasoning modules भी हों।

मुझे लगता है कि यह approach न सिर्फ AI की capabilities बढ़ाएगी, बल्कि इसे अधिक लोगों के लिए accessible भी बनाएगी। जब powerful AI models common devices पर run हो सकेंगे, तो innovation की संभावनाएँ अनंत होंगी।

क्या आपको नहीं लगता कि AI की दुनिया में यह एक सुखद बदलाव की शुरुआत है?

कुछ जरूरी FAQs:

1. क्या TRM ChatGPT या Gemini को Replace कर सकता है?

नहीं, TRM का उद्देश्य ChatGPT या Gemini जैसे बड़े मॉडल्स को replace करना नहीं है। TRM विशेष प्रकार की reasoning problems के लिए बनाया गया है, जबकि बड़े मॉडल्स general purposes के लिए हैं। भविष्य में हो सकता है कि बड़े मॉडल्स TRM जैसे techniques का इस्तेमाल करें।

2. ARC-AGI टेस्ट क्या है और यह इतना महत्वपूर्ण क्यों है?

ARC-AGI (Abstract Reasoning Corpus for Artificial General Intelligence) एक प्रकार का intelligence test है जिसमें abstract visual puzzles होते हैं। यह टेस्ट इसलिए महत्वपूर्ण है क्योंकि यह AI की general reasoning capability को measure करता है, न कि सिर्फ memorized knowledge को।

3. क्या TRM का कोड publicly available है?

हाँ, सैमसंग ने TRM का पूरा कोड GitHub पर publicly available कर दिया है . कोई भी researcher या developer इसको access करके experiments कर सकता है।

4. Ordinary users के लिए TRM का क्या लाभ है?

आम users के लिए TRM का सबसे बड़ा लाभ यह है कि भविष्य में efficient AI applications develop हो सकेंगी जो कम power consumption के साथ high-performance reasoning capability provide कर सकेंगी। इससे AI features common devices जैसे कि smartphones पर बेहतर run हो सकेंगे।

5. क्या यह मॉडल वास्तव में सोच सकता है?

मेरी समझ से, TRM इंसानों की तरह तो सोच नहीं सकता, लेकिन यह पारंपरकि AI मॉडल्स से कहीं बेहतर तरीके से तार्किक प्रक्रियाएँ execute कर सकता है। यह एक महत्वपूर्ण कदम है artificial general intelligence की ओर।

6. क्या TRM AGI की दिशा में स्टेप है?

हां, TRM दिखाता है कि छोटे मॉडल्स हार्ड रीजनिंग कर सकते हैं, जो AGI के लिए इंपोर्टेंट है। लेकिन अभी स्पेसिफिक टास्क्स तक लिमिटेड है। फ्यूचर में हाइब्रिड अप्रोचेज में यूजफुल।

7. TRM क्या है और ये LLMs से कैसे अलग है?

TRM सैमसंग का Tiny Recursive Model है, जो 7M पैरामीटर्स वाला छोटा AI मॉडल है। ये रिकर्सिव रीजनिंग यूज करता है, जहां आंसर को बार-बार रिफाइन करता है। LLMs बड़े होते हैं और नेक्स्ट टोकन प्रेडिक्ट करते हैं, जबकि TRM छोटा लेकिन रीजनिंग में स्ट्रॉन्ग।

8. TRM कैसे काम करता है?

TRM एक सिंगल 2-लेयर नेटवर्क यूज करता है, जो रिकर्सिव लूप्स में आंसर ड्राफ्ट करता है, क्रिटिक करता है, और इम्प्रूव करता है। ये HRM से सिंपलिफाइड है और छोटे डेटा पर ट्रेन होता है।

नोट: दोस्तों ये एक जटिल रिसर्च पेपर है और मै भी AI का स्टूडेंट ही हूँ, ना की एक्सपर्ट, चीजों को सीखने का प्रयास करता हूं और यहां पर आपके साथ शेयर कर देता हूँ, आप मुझे अपने फीडबैक जरूर दें।

Ticker

Ad Code