AI अपने जवाब को बदलता क्यों रहता है

राम राम मित्रों! क्या आपने कभी ChatGPT या किसी AI Chatbot से एक ही सवाल बार-बार पूछा है? क्या आपको हर बार बिल्कुल एक जैसा जवाब मिला? शायद नहीं! थोड़ा हैरान करने वाला लगता है न? जैसे कि AI का अपना मूड हो। जवाब में कुछ न कुछ तो अंतर मिलता ही है और इसी को Nondeterminism कहा गया है। पर क्या ये सही है? और अगर नहीं, तो इसे ठीक किया जा सकता है या नहीं?

Defeating Nondeterminism in LLM Inference Hindi News

LLMs की इसी समस्या को सुलझाने की कोशिश की हैं मीरा मुराती (OpenAI की पूर्व CTO) ने। उनकी नई कंपनी 'Thinking Machines' ने अपने पहले रिसर्च ब्लॉग "Defeating Nondeterminism in LLM Inference" में exactly इसी समस्या पर से पर्दा उठाया है। आज हम आपको साधारण भाषा में समझाएंगे कि आखिर यह 'Non-Determinism' समस्या है क्या, इसका हल क्या है, और यह हम सभी के लिए क्यों मायने रखता है।

वोट करें: क्या AI का एक ही जवाब देना ज़रूरी है?

इससे पहले कि हम आगे बढ़ें, आप अपनी राय दें:

'Non-Determinism' या 'अनिश्चितता' आखिर है क्या?

सीधे शब्दों में कहें तो, "एक ही इनपुट, अलग-अलग आउटपुट"। जैसे आपने AI से पूछा "महात्मा गांधी पर 10 लाइन लिखो"। अगले 5 बार पूछने पर भी आपको बिल्कुल एक जैसी, शब्द-दर-शब्द, 10 लाइनें मिलनी चाहिए। लेकिन ऐसा होता नहीं। हर बार जवाब थोड़ा अलग होता है। यहां तक कि आपको कोई जवाब कम सेटिस्फेक्टरी लगेगा, तो कोई शानदार(डिटेल्स से भरपूर)! इससे डाउट जन्म लेता है, क्या ये AI का बेस्ट answer है, या मै कुछ miss तो नहीं कर रहा?

अब सोचिए, अगर कोई डॉक्टर AI की मदद से मरीज का diagnosis कर रहा है, तो हर बार अलग जवाब आना कितना खतरनाक हो सकता है? या फिर कानूनी सलाह के मामले में? इससे AI पर भरोसा कैसे किया जा सकता है?

Temperature 0(जीरो) पर भी क्यों नहीं रुकती ये Non-Determinism?

AI मॉडल में एक '' नाम का knob होता है। इसे घटाकर 0 कर देने पर, AI को हमेशा सबसे ज़्यादा Probability वाला अगला शब्द चुनने को कहा जाता है, या ऐसे समझो कि AI से बोल दिया गया है कि क्रिएटिविटी लगाने जरूरत नहीं है सीधे उत्तर दो। ऐसा माना जाता था कि Temperature 0 = पूरी तरह Deterministic (निश्चित) जवाब।

लेकिन हैरानी की बात ये है कि Temperature 0 पर भी जवाब में अंतर आता है! तो समस्या Temperature से आगे की है।

फिलहाल इसके लिए GPU और Maths को दोषी ठहराया जाता था!

पहले वैज्ञानिकों को लगता था कि ये समस्या इन दो चीज़ों की वजह से है:

फ्लोटिंग पॉइंट मैथ्स: कंप्यूटर decimals के साथ पूरी तरह सटीक Calculation नहीं कर पाते। थोड़ा-बहुत Round Off होता रहता है। जैसे (a + b) + c, a + (b + c) के बराबर नहीं होता।
GPU Concurrency: GPU हज़ारों Calculations एक साथ करता है। कोई Calculation पहले खत्म होता है, कोई बाद में। इस क्रम के अनिश्चित होने से जवाब भी अनिश्चित हो जाता है।

पर Thinking Machines की रिसर्च कहती है कि ये पूरी कहानी नहीं है।

Thinking Machines ने 'बैच साइज़' (Batch Size) को माना मुख्य अपराधी

इसे एक आसान उदाहरण से समझते हैं: ट्रैफिक लेन की एनालॉजी ()

अब आप एक हाईवे पर Toll Plaza का दृश्य सोचिए:

प्रॉम्प्ट = एक गाड़ी जो टोल प्लाजा से गुजरना चाहती है।
बैच साइज़ = टोल प्लाजा पर एक साथ आने वाली गाड़ियों की संख्या (ट्रैफिक का density)।
GPU Cores = टोल प्लाजा पर उपलब्ध लेन (Lanes) की संख्या।

क्या होता है?

कम ट्रैफिक (छोटा Batch Size): अगर सिर्फ 2-3 गाड़ियाँ हैं, तो टोल ऑपरेटर सारी लेन खोलने की जहमत नहीं उठाएगा। वो सभी गाड़ियों को एक ही लेन में लगा देगा। गाड़ियाँ एक के बाद एक क्रम से process होंगी।
भारी ट्रैफिक (बड़ा Batch Size): अगर 50 गाड़ियाँ एक साथ आ जाती हैं, तो टोल ऑपरेटर सारी लेन खोल देगा। अब गाड़ियाँ अलग-अलग लेन में distributed हो जाएँगी। हर लेन का अपना अलग operator है और अपनी speed है। कोई operator fast है, कोई slow। कोई गाड़ी पहले process हो जाएगी, कोई बाद में।

समस्या कहाँ है?

अब सोचिए,एक ही गाड़ी (प्रॉम्प्ट) अगर अलग-अलग समय पर (अलग-अलग ट्रैफिक/बैच साइज़ में) आएगी, तो उसे process करने का ऑर्डर और तरीका पूरी तरह बदल जाएगा। इस छोटे से changes (जैसे किस लेन में लगी, किस operator ने process किया) से पूरा रिजल्ट (जवाब) बदल सकता है।

ठीक यही AI के साथ होता है। आपका सवाल एक 'बैच' में process होता है। Server पर load कम है तो बैच छोटा होगा, load ज़्यादा है तो बैच बड़ा होगा। इस बैच के आकार के बदलने से AI के अंदर की गणनाओं (खासकर , , और ) के करने का तरीका और ऑर्डर बदल जाता है। इसी छोटे से बदलाव से अगला शब्द बदल जाता है और फिर पूरा जवाब बदल जाता है।

Thinking Machines का समाधान:

उन्होंने एक स्मार्ट टोल सिस्टम बना दिया है। इसमें चाहे 2 गाड़ी हो या 200, हर गाड़ी को एक प्री-डिफाइंड लेन में भेजा जाएगा। हर लेन का operator और उसका processing तरीका हमेशा एक जैसा रहेगा। इससे भले ही थोड़ा time ज्यादा लगे, लेकिन हमेशा एक ही गाड़ी के लिए रिजल्ट एक जैसा आएगा।

फिर समाधान क्या है? 'बैच-इनवेरिएंट Kernels'

Thinking Machines की टीम ने इसका समाधान ढूंढ निकाला है। उन्होंने बैच-इनवेरिएंट कर्नेल () बनाए हैं।

इसे समझने के लिए, एक परफेक्ट एनालॉजी है: एक सुपर-एफिशिएंट और स्ट्रिक्ट 'कार असेंबली लाइन' () का काम करने का तरीका।

एक कार फैक्ट्री में, अलग-अलग मॉडल की कारें (अलग-अलग प्रॉम्प्ट्स) एक ही लाइन पर बनती हैं। अगर एक दिन सिर्फ छोटी कारें (छोटा बैच) बन रही हैं और दूसरे दिन बड़े SUV (बड़ा बैच), तो रोबोट के हाथों (GPU Cores) के काम करने का तरीका और ऑर्डर बदल सकता है, जिससे हर कार में थोड़ा फर्क आ सकता है।

Thinking Machines का समाधान इस असेंबली लाइन को पूरी तरह से "बैच-इनवेरिएंट" बना देता है। इसके तीन सिद्धांत हैं:

फिक्स्ड वर्कस्टेशन्स (Fixed Workstations) - RMSNorm के लिए: चाहे लाइन पर एक कार हो या सौ, हर वर्कस्टेशन (जहाँ एक specific पार्ट लगता है) पर काम करने वाला रोबोट हमेशा एक ही तरीके से, एक ही क्रम में, और एक ही number of turns के साथ पेंच कसेगा। वो अपना तरीका कभी नहीं बदलेगा।
फिक्स्ड असेंबली ऑर्डर (Fixed Assembly Order) - Matrix Multiplication के लिए: कार बनाने का क्रम हमेशा एक जैसा रहेगा। पहले चेसिस, फिर इंजन, फिर बॉडी... इसी क्रम में। भले ही कार का model कुछ भी हो, बुनियादी ऑर्डर वही रहेगा। यह सुनिश्चित करता है कि गणनाओं (calculations) का क्रम कभी न बदले।
फिक्स्ड क्वालिटी चेकपॉइंट (Fixed Quality Checkpoints) - Attention के लिए: जब कार का एक हिस्सा बन कर तैयार होता है, उसे "टेस्ट" करने का पॉइंट और तरीका हमेशा एक जैसा रहेगा। हर सेक्शन की जाँच एक निश्चित जगह पर और एक निश्चित तरीके से होगी, भले ही पूरी लाइन की स्पीड कुछ भी हो। यह AI के 'Attention' मैकेनिज्म में होने वाले variations को खत्म करता है।

इन तीनों सिद्धांतों को AI की Calculations में Apply करने का मतलब है: चाहे Server पर Load कितना भी क्यों न हो (यानी बैच साइज़ कुछ भी हो), आपके सवाल का जवाब देने का तरीका, ऑर्डर और जाँच का process हमेशा एक जैसा रहेगा। इससे जवाब भी हमेशा एक जैसा आएगा।

यह समाधान पूरी तरह से इंजीनियरिंग पर आधारित है, जादू नहीं। इसने साबित कर दिया है कि AI की इस "टूटी हुई व्यवहार" को ठीक किया जा सकता है।

क्या ये तरीका काम करता है? रिजल्ट्स ने किया हैरान!

टीम ने मॉडल पर टेस्ट किया।

बिना समाधान के: एक ही प्रॉम्प्ट ("Tell me about Richard Feynman") को 1000 बार चलाया। Temperature 0 होने के बावजूद, 80 अलग-अलग जवाब मिले! सबसे Common जवाब सिर्फ 78 बार आया।
समाधान (बैच-इनवेरिएंट कर्नेल) लगाने के बाद: वही प्रॉम्प्ट 1000 बार चलाया। और हर बार... बिल्कुल एक जैसा, शब्द-दर-शब्द, जवाब मिला! 1000/1000 बार।

यानी समस्या का समाधान मौजूद है!

सिक्के का दूसरा पहलू: Speed बनाम Certainty

हर समाधान की एक कीमत होती है। यहाँ कीमत है Speed (गति) की।

इस तरह Strict Calculation करने से AI की Processing Speed लगभग 60% तक slow हो सकती है।

सवाल ये है कि क्या यह कीमत चुकानी worth it है?

मेडिकल, लीगल, फाइनेंशियल AI Apps के लिए? बिल्कुल! यहाँ सही और Consistent जवाब ज़रूरी है, Speed नहीं।
क्रिएटिव राइटिंग, स्टोरीटेलिंग के लिए? बिल्कुल नहीं! यहाँ Variety और Creativity ज़्यादा ज़रूरी है।

भविष्य में शायद हमें चुनना होगा कि हमें किस चीज़ की ज़रूरत है - Fast AI या Predictable AI.

निष्कर्ष: तो क्या ये रिसर्च AI की दुनिया का Game-Changer है?

Thinking Machines की यह रिसर्च बेहद Important है। इससे पता चलता है कि:

AI की अनिश्चितता एक "Technical Glitch" है, कोई Magic Feature नहीं।
इसे ठीक किया जा सकता है।
इससे Debugging, Auditing, और Benchmarking आसान हो जाएगी। AI पर भरोसा बढ़ेगा।
हालाँकि, इसकी एक Cost है, इसलिए यह हर जगह इस्तेमाल नहीं होगा।

यह एक बड़ी सफलता है जो AI को और ज़िम्मेदार, भरोसेमंद और विज्ञान-सम्मत बनाने की दिशा में एक महत्वपूर्ण कदम साबित हो सकती है।

क्या आपको लगता है कि AI की इस अनिश्चितता को ठीक किया जाना चाहिए? नीचे कमेंट में अपनी राय ज़रूर बताएं और इस पोस्ट को शेयर करें ताकि और लोग इस जरूरी चर्चा का हिस्सा बन सकें!

अगर आप इस रिसर्च को और भी डिटेल में पढ़ना चाहते हैं तो चेक करें Nondeterminism in LLM

इस रिसर्च के बाद अब थिंकिंग मशीन्स ने अपना पहला प्रोडक्ट Tinker API लॉन्च कर दिया है!

Ticker

AI अपने जवाब को बदलता क्यों रहता है - Nondeterminism in LLM

वोट करें: क्या AI का एक ही जवाब देना ज़रूरी है?

पोल रिजल्ट्स:

'Non-Determinism' या 'अनिश्चितता' आखिर है क्या?

Temperature 0(जीरो) पर भी क्यों नहीं रुकती ये Non-Determinism?

फिलहाल इसके लिए GPU और Maths को दोषी ठहराया जाता था!