आर्टिफिशियल इंटेलिजेंस (AI) को अक्सर तेज, स्मार्ट और भरोसेमंद रिसर्च असिस्टेंट के रूप में देखा जाता है। लेकिन हाल ही में सामने आई एक नई स्टडी ने इस भरोसे को गहरी चोट पहुंचाई है। Salesforce AI Research और Microsoft की टीम द्वारा किए गए इस रिसर्च ने यह साबित किया कि लोकप्रिय AI टूल्स कई बार सतही तौर पर स्मार्ट तो दिखते हैं, लेकिन उनके जवाब अंदर से अधूरे और पक्षपाती होते हैं।
DeepTRACE से हुई जांच
इस स्टडी के लिए रिसर्चर्स ने DeepTRACE नामक एक नया फ्रेमवर्क विकसित किया। यह किसी भी AI टूल के जवाब को केवल भाषा की फ्लुएंसी पर नहीं, बल्कि असली सबूतों और रेफरेंसेस से जोड़कर जांचता है। DeepTRACE हर उत्तर को छोटे-छोटे हिस्सों में तोड़कर यह परखता है कि कौन सा स्टेटमेंट सही सोर्स से सपोर्ट हो रहा है।
फ्रेमवर्क ने आठ मानकों पर टेस्ट किया, जैसे —
जवाब कितना बैलेंस्ड है
किस हद तक आत्मविश्वास दिखाया गया
कितने स्टेटमेंट्स बिना सबूत के हैं
क्या रेफरेंस सही जगह पर इस्तेमाल हुए
क्या सोर्स वाकई जरूरी थे
यानी यह जांच सतही स्मार्टनेस नहीं, बल्कि गहराई से तथ्यों को परखती है।
सर्च-फोकस्ड टूल्स में खामियां
रिसर्च टीम ने 9 पॉपुलर AI टूल्स को 300+ सवालों पर टेस्ट किया। इनमें Bing Copilot, Perplexity, You.com और GPT-4.5 जैसे सर्च-फोकस्ड सिस्टम शामिल थे।
नतीजा चौंकाने वाला था। जब सवाल आसान और सीधे थे तो टूल्स ने अच्छे छोटे जवाब दिए। लेकिन जैसे ही सवाल विवादित मुद्दों से जुड़े, इनकी पोल खुल गई। कई बार ये टूल्स एकतरफा जवाब देते पाए गए और वो भी बेहद आत्मविश्वास के साथ।
रेफरेंस का खेल भी गड़बड़ था। कुछ सिस्टम्स ने ऐसे सोर्स दिए जो टेक्स्ट से जुड़े ही नहीं थे। कुछ ने केवल दिखावे के लिए रेफरेंस लिस्ट कर दिए ताकि जवाब भरोसेमंद लगे।
इसे भी पढ़ें : भारत में 6G टेक्नोलॉजी की बड़ी छलांग
डीप रिसर्च मोड भी अधूरा
डीप रिसर्च मोड वाले सिस्टम्स, जैसे GPT-5 रिसर्च मोड, Gemini और Perplexity रिसर्च मोड ने बड़े-बड़े जवाब और कई सोर्स जरूर दिए। उदाहरण के लिए, GPT-5 रिसर्च मोड ने औसतन 140 स्टेटमेंट्स और करीब 20 सोर्सेज दिए।
हालांकि, यहां भी खामियां सामने आईं। आधे से ज्यादा डिबेट वाले सवालों के जवाब किसी एक पक्ष की ओर झुके हुए थे। Perplexity का डीप रिसर्च मोड तो सबसे कमजोर साबित हुआ, जहां लगभग सभी क्लेम्स बिना सबूत के मिले। Gemini के भी एक-तिहाई से कम रेफरेंस वाकई में जरूरी थे।
आम यूजर्स के लिए खतरा
इस स्टडी का सबसे अहम पहलू यह है कि आम यूजर्स के लिए यह खतरनाक हो सकता है। अगर AI टूल्स के जवाब एकतरफा हों तो यूजर को दूसरे विचारों की जानकारी ही नहीं मिलेगी। गलत या बेकार रेफरेंस भरोसे को कमजोर करते हैं।
