
أجرت جامعة ستانفورد، دراسة علمية، تضمنت تحليل أداء 24 نموذجا لغويا، من بينها ChatGPT وClaude وGemini وDeepSeek، وذلك من خلال طرح 13 الف سؤال من اجل اختبار قدرتها على التمييز بين الاعتقاد والراي الشخصي من جهة والحقيقة من جهة ثانية .
البحث نشرته مجلة Nature Machine Intelligence في تشرين الاول 2025 بعنوان: نماذج اللغة لا تستطيع التمييز بين الاعتقاد والمعرفة والحقيقة.
وفيما يلي أبرز ما خلصت إليه الدراسة:
- تعتمد النماذج اللغوية على مطابقة وتحليل الأنماط اللغوية من خلال النصوص المُدخلة للروبوت، دون القدرة على تقييم القيمة المعرفية للمعلومة أو تمييز مصدرها او واقعيتها.
- حتى النماذج الحديثة مثل GPT-4o حققت دقة تجاوزت 91 % في تمييز الحقائق، لكنها ما زالت تفتقر للفهم المعرفي العميق، وتُنتج إجابات خاطئة بثقة ويقين عالي.
- الباحثون أكدوا أن هذا القصور قد يؤدي إلى نتائج خطيرة في المجالات الحساسة مثل الطب والقضاء، والتي من المفترض تُبنى القرارات فيها على أساس الدقة والموثوقية والمصداقية.
- أشارت الدراسة ايضا إلى أن الخلط بين الاعتقاد والحقيقة يمكن أن يؤدي إلى:
تشخيصات طبية خاطئة قد تؤدي لنتائج كارثية.
أحكام قضائية مبنية على معلومات كاذبة.
انتشار الشائعات عبر معلومات مضللة تفتقد للمصداقية.
- الدراسة نصحت بضرورة تحسين النماذج معرفياً، من خلال تصنيف مصادر المعلومات ومرجعيتها وتدريب النماذج على التمييز بين الرأي والحقيقة.
ومن وجهة نظري، برغم التطور الكبير لروبوتات الدردشة، الا انها غير قادرة حتى الآن على التمييز بوضوح بين المعلومة والحقيقة المؤكدة وبين الرأي الشخصي أو المعتقد، وهذا الخلل الواضح يجعلها غير مؤهلة، حاليا، للاستخدام المباشر في المجالات التي تعتمد على الحقائق الدقيقة، مثل الطب، القانون، اذ بدون تدخل بشري أو إشراف معرفي صارم، يصبح الاعتماد عليها محفوف بالمخاطر، لذا يجب ان تطور هذه النماذج من قدراتها المعرفية لفهم الحقيقة وكيفية تميزها عن الاعتقادات والاراء.