क्लाउडफ्लेयर का आरोप है कि पर्प्लेक्सिटी चोरी-छुपे वेबसाइटों से डेटा कलेक्ट कर रहा है, जबकि पर्प्लेक्सिटी का कहना है कि वह यूजर्स के सवालों के जवाब देने के लिए real-time इंफॉर्मेशन फ़ेच कर रहा है। इस बहस के केंद्र में है रोबोट्स.टेक्स्ट (robots.txt) - वह छोटी सी फाइल जो वेबसाइटों के क्रॉलिंग नियमों को तय करती है।
क्लाउडफ्लेयर के आरोप (The Allegations)
क्लाउडफ्लेयर ने पर्प्लेक्सिटी पर गंभीर आरोप लगाए हैं:
- स्टील्थ क्रॉलिंग (Stealth Crawling): पर्प्लेक्सिटी अपने क्रॉलिंग एक्टिविटी को छुपाने के लिए यूजर एजेंट बदलता है और IP एड्रेस रोटेट करता है।
- robots.txt उल्लंघन: वेबसाइट्स द्वारा क्रॉलिंग से मना करने पर भी पर्प्लेक्सिटी नियमों को अनदेखा करता है।
- ब्लॉक Evasion: जब किसी खास IP एड्रेस से एक्सेस ब्लॉक किया जाता है, तो पर्प्लेक्सिटी अलग-अलग IP एड्रेस और ASN (Autonomous System Numbers) का इस्तेमाल करके कॉन्टेंट एक्सेस करने की कोशिश करता है।
- पैमाना: क्लाउडफ्लेयर के मुताबिक, यह एक्टिविटी 10,000+ डोमेन्स और रोजाना लाखों रिक्वेस्ट्स में देखी गई।
क्लाउडफ्लेयर ने इन आरोपों को साबित करने के लिए एक टेस्ट एक्सपेरिमेंट भी किया। उन्होंने कुछ नए डोमेन (जैसे testexample.com और secretexample.com) खरीदे जो किसी भी सर्च इंजन में इंडेक्स्ड नहीं थे। इन डोमेन पर robots.txt में सभी बॉट्स को ब्लॉक कर दिया गया। लेकिन जब पर्प्लेक्सिटी AI से इन डोमेन के बारे में सवाल पूछा गया, तो भी उसने इन रिस्ट्रिक्टेड डोमेन के कॉन्टेंट के बारे में डिटेल्ड जानकारी दी।
पर्प्लेक्सिटी का जवाब (The Defense)
पर्प्लेक्सिटी ने क्लाउडफ्लेयर के सारे आरोपों को खारिज कर दिया और जवाब में क्लाउडफ्लेयर पर तकनीकी अक्षमता और PR स्टंट का आरोप लगाया :
- यूजर-ड्रिवन एक्टिविटी: उनका कहना है कि वे यूजर्स के सवालों के जवाब देने के लिए वेबसाइट्स से इंफॉर्मेशन फ़ेच करते हैं, न कि अपना खुद का इंडेक्स बनाने के लिए। यह रियल-टाइम फ़ेचिंग है, प्री-एम्प्टिव क्रॉलिंग नहीं।
- तकनीकी भ्रम: पर्प्लेक्सिटी का दावा है कि क्लाउडफ्लेयर ने BrowserBase (एक थर्ड-पार्टी क्लाउड ब्राउज़र सर्विस) की ट्रैफिक को गलती से पर्प्लेक्सिटी की ट्रैफिक समझ लिया। उनके मुताबिक, वे BrowserBase का इस्तेमाल सिर्फ खास टास्क्स के लिए करते हैं (रोजाना 45,000 रिक्वेस्ट्स से भी कम)।
- तुलना: पर्प्लेक्सिटी खुद को ईमेल क्लाइंट या वेब ब्राउज़र की तरह बताती है, जो यूजर के कहने पर ही एक्शन लेते हैं, न कि पारंपरिक सर्च इंजन क्रॉलर की तरह।
- दो-स्तरीय इंटरनेट की चेतावनी: पर्प्लेक्सिटी का कहना है कि क्लाउडफ्लेयर का यह रवैया एक दो-स्तरीय इंटरनेट को जन्म देगा, जहां आपकी जरूरतों से ज्यादा इस बात से फर्क पड़ेगा कि इन्फ्रास्ट्रक्चर कंट्रोलर्स ने आपके टूल्स को मंजूरी दी है या नहीं।
पहलू | क्लाउडफ्लेयर का दृष्टिकोण | पर्प्लेक्सिटी का दृष्टिकोण |
---|---|---|
क्रॉलिंग का उद्देश्य | डेटा संग्रहण और इंडेक्स निर्माण | यूजर क्वेरी के जवाब में रियल-टाइम एक्सेस |
रोबोट्स.टेक्स्ट सम्मान | उल्लंघन करता है, ब्लॉक को evade करता है | यूजर-ड्रिवन होने के कारण लागू नहीं होना चाहिए |
पहचान | छुपी हुई, यूजर एजेंट और IP बदलता रहता है | पारदर्शी, यूजर के लिए कार्य करता है |
तकनीकी त्रुटि | कोई त्रुटि नहीं, सबूतों के साथ आरोप | BrowserBase की ट्रैफिक को गलत समझना |
समाधान | Web Bot Auth जैसे मानकों का पालन | क्लाउडफ्लेयर को सिस्टम सुधारने चाहिए |
स्रोत: क्लाउडफ्लेयर आधिकारिक ब्लॉग और पर्प्लेक्सिटी हब ब्लॉग के आधार पर तैयार तुलनात्मक विश्लेषण |
आइए समझते हैं इस मुद्दे से जुड़े कुछ टेक्निकल टर्म्स को:
Robots.txt क्या है और क्यों है जरूरी?
Robots.txt एक स्टैंडर्ड फाइल है जो वेबसाइट के रूट डायरेक्टरी में रखी जाती है। यह सर्च इंजन और वेब क्रॉलर्स को बताती है कि वेबसाइट के किन हिस्सों को क्रॉल किया जा सकता है और किन्हें नहीं। यह वेबसाइट मालिकों की preferences को व्यक्त करने का एक मानक तरीका है, जिसे 1994 में प्रस्तावित किया गया था और 2022 में इंटरनेट इंजीनियरिंग टास्क फोर्स (IETF) द्वारा एक औपचारिक मानक बनाया गया।
क्लाउडफ्लेयर के मुताबिक, जुलाई से अब तक 25 लाख से अधिक वेबसाइटों ने AI ट्रेनिंग के लिए क्रॉलिंग ब्लॉक कर रखी है, लेकिन पर्प्लेक्सिटी इन preferences का सम्मान नहीं कर रहा।
IP रोटेशन और यूजर एजेंट स्पूफिंग
जब किसी वेबसाइट द्वारा किसी खास IP एड्रेस या यूजर एजेंट को ब्लॉक कर दिया जाता है, तो पर्प्लेक्सिटी पर आरोप है कि वह अलग-अलग IP एड्रेस और यूजर एजेंट का इस्तेमाल करके क्रॉलिंग जारी रखता है। क्लाउडफ्लेयर इसे स्टील्थ क्रॉलिंग मानता है।
यूजर एजेंट टाइप | उदाहरण | अनुमानित दैनिक रिक्वेस्ट्स |
---|---|---|
डिक्लेयर्ड (Declared) | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) | 20-25 million |
स्टील्थ (Stealth) | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 | 3-6 million |
स्रोत: क्लाउडफ्लेयर आधिकारिक ब्लॉग के आधार पर |
क्लाउडफ्लेयर के अनुसार, पर्प्लेक्सिटी दो तरह के यूजर एजेंट का उपयोग करता है:
- डिक्लेयर्ड यूजर एजेंट: जो सीधे तौर पर पर्प्लेक्सिटी की पहचान करता है
- स्टील्थ यूजर एजेंट: जो Google Chrome ब्राउज़र की नकल करता है और पहचान छुपाता है
क्लाउडफ्लेयर का दावा है कि स्टील्थ यूजर एजेंट का इस्तेमाल तब किया जाता है जब उनके डिक्लेयर्ड क्रॉलर को ब्लॉक कर दिया जाता है।
Web Bot Auth: एक संभावित समाधान?
क्लाउडफ्लेयर ने Web Bot Auth नामक एक नया मानक प्रस्तावित किया है, जो क्रिप्टोग्राफिक सिग्नेचर के जरिए बॉट्स की पहचान को वेरिफाई करता है। इस मानक के तहत :
- बॉट्स को अपनी पहचान साबित करने के लिए cryptographic signatures का उपयोग करना होगा।
- वेबसाइट्स legitimate bots को आसानी से पहचान सकेंगी।
- OpenAI का ChatGPT एजेंट पहले से ही इस मानक का पालन कर रहा है और robots.txt का सम्मान करता है।
इंडस्ट्री और पब्लिक के रिएक्शंस
इस विवाद ने टेक कम्युनिटी को दो हिस्सों में बांट दिया है :
🤨 क्लाउडफ्लेयर के समर्थन में:
- वेबसाइट मालिक और कंटेंट क्रिएटर्स: छोटे ब्लॉगर्स और कंटेंट क्रिएटर्स का कहना है कि AI कंपनियां उनके कंटेंट को बिना क्रेडिट या कम्पन्सेशन के इस्तेमाल कर रही हैं।
- सुरक्षा विशेषज्ञ: मानते हैं कि बॉट्स की पारदर्शिता इंटरनेट सुरक्षा के लिए जरूरी है।
- डेटा संरक्षण अधिवक्ता: वेबसाइट मालिकों के अपने डेटा पर नियंत्रण का अधिकार होना चाहिए।
🤖 पर्प्लेक्सिटी के समर्थन में:
- AI उत्साही और इनोवेशन अधिवक्ता: मानते हैं कि AI असिस्टेंट्स यूजर एक्सपीरियंस को बेहतर बना रहे हैं और चिंता जताते हैं कि अत्यधिक ब्लॉकिंग इंटरनेट की खुली प्रकृति को नुकसान पहुंचाएगी।
- यूजर्स: जो लोग मेडिकल रिसर्च, प्रोडक्ट कंपेयरिंग या न्यूज एक्सेस के लिए AI टूल्स का उपयोग करते हैं, वे ब्लॉकिंग से प्रभावित हो रहे हैं।
Reddit के CEO स्टीव हफमैन ने पहले ही कहा था कि पर्प्लेक्सिटी और अन्य AI इंजनों को रोकना "a real pain in the a##" है और उनका मानना है कि ये कंपनियां ऐसा व्यवहार करती हैं मानो इंटरनेट की सारी कंटेंट उनकी अपनी संपत्ति हो . Forbes और Wired जैसे प्रमुख प्रकाशकों ने भी पर्प्लेक्सिटी पर उनकी कंटेंट की साहित्यिक चोरी (plagiarize) करने का आरोप लगाया है।
फ्यूचर इंप्लीकेशंस: इंटरनेट की दिशा क्या होगी?
इस विवाद के परिणाम सिर्फ दो कंपनियों तक सीमित नहीं हैं, बल्कि इससे पूरे इंटरनेट का भविष्य तय होगा .
कंटेंट क्रिएटर्स के लिए:
- नई आय स्रोत: क्लाउडफ्लेयर का "पे पर क्रॉल" (Pay per Crawl) मॉडल वेबसाइट मालिकों को AI कंपनियों से पैसा चार्ज करने की अनुमति देता है।
- बेहतर नियंत्रण: वेबसाइट मालिक अपने कंटेंट के उपयोग पर बेहतर तरीके से नियंत्रण रख सकेंगे।
AI कंपनियों के लिए:
- बढ़ती लागत: अगर "पे पर क्रॉल" मॉडल इंडस्ट्री स्टैंडर्ड बन जाता है, तो AI कंपनियों की ऑपरेशनल लागत बढ़ सकती है।
- मानकीकरण का दबाव: AI कंपनियों को Web Bot Auth जैसे मानकों को अपनाने के लिए मजबूर होना पड़ सकता है।
- पारदर्शिता: अपने क्रॉलिंग प्रैक्टिसेज के बारे में अधिक पारदर्शी होना पड़ सकता है।
आम यूजर्स के लिए:
- द्विस्तरीय इंटरनेट का खतरा: आशंका है कि इंटरनेट दो हिस्सों में बंट सकता है - एक वे जिनके पास "approved" टूल्स हैं, और दूसरे वे जिनके पास नहीं हैं।
- सूचना की पहुंच: AI टूल्स के ब्लॉक होने से सूचना की पहुंच प्रभावित हो सकती है, खासकर रियल-टाइम इंफॉर्मेशन के मामले में।
- यूजर चॉइस: यूजर्स के टूल चुनने की आजादी सीमित हो सकती है अगर कुछ सर्विसेज को "अनअप्रूव्ड" मान लिया जाता है।
निष्कर्ष: सही कौन, गलत कौन? एक Balanced नजरिया
इस पूरे विवाद में सही और गलत का फैसला करना इतना आसान नहीं है। दोनों पक्षों के अपने-अपने तर्क हैं। देखा जाए तो लॉजिकली दोनों अपनी-अपनी जगह सही हैं।
अगर मै अपनी व्यक्तिगत राय की बात करूं तो मुझे क्लाउडफ्लेयर का पक्ष मजबूत लगता है जब वे पारदर्शिता, सम्मान और नियमों की बात करते हैं। इंटरनेट decades से इन्हीं सिद्धांतों पर चलता आया है। उनके पास ठोस सबूत (जैसे टेस्ट डोमेन एक्सपेरिमेंट) हैं जो पर्प्लेक्सिटी की स्टील्थ एक्टिविटीज की ओर इशारा करते हैं . वेबसाइट मालिकों का यह अधिकार बनता है कि वे तय करें कि उनकी कंटेंट का इस्तेमाल कौन और कैसे करे।
वहीं दूसरी ओर, पर्प्लेक्सिटी का पक्ष भी कमजोर नहीं है। AI की दुनिया तेजी से बदल रही है और पुराने नियम नए टेक्नॉलजी मॉडल्स पर ठीक से फिट नहीं होते। उनकी यूजर-ड्रिवन फ़ेचिंग की बात समझ में आती है। अगर हर AI असिस्टेंट को traditional क्रॉलर की तरह ट्रीट किया जाने लगा, तो यूजर एक्सपीरियंस प्रभावित होगा।
शायद सच इस विवाद के बीच में कहीं है। जरूरत इस बात की है कि नए मानक बनाए जाएं जो AI के यूज-केस के अनुकूल हों, लेकिन साथ ही वेबसाइट मालिकों के अधिकारों और preferences का भी सम्मान होना चाहिए। Cloudflare द्वारा प्रस्तावित Web Bot Auth जैसे सॉल्यूशन एक अच्छी शुरुआत हो सकते हैं।
लास्टली, इंटरनेट का भविष्य सहयोग और समझौते पर निर्भर करेगा, जहां AI कंपनियां वेबसाइट मालिकों के अधिकारों का सम्मान करें, और वेब इन्फ्रास्ट्रक्चर कंपनियां यूजर्स के लिए innovation को बढ़ावा देने वाले solutions डेवलप करें।
क्या आपका कोई सवाल है? नीचे कमेंट करके बताएं! 🤔
0 टिप्पणियाँ