هلوسة الذكاء الاصطناعي هي حالات تستجيب فيها أداة الذكاء الاصطناعي المنتجة لاستعلام بعبارات غير صحيحة في الواقع، أو غير ذات صلة، أو حتى ملفقة بالكامل.
على سبيل المثال، ادعى بارد من Google كذبًا أن تلسكوب جيمس ويب الفضائي قد التقط الصور الأولى لكوكب خارج نظامنا الشمسي. أثبتت هلوسة الذكاء الاصطناعي أنها مكلفة لاثنين من المحامين في نيويورك الذين عوقب عليهم أحد القضاة بسبب نقلا عن ست حالات وهمية في طلباتهم المعدة بمساعدة ChatGPT.
يقول دنكان كيرتس، نائب الرئيس الأول لقسم GenAI ومنتجات الذكاء الاصطناعي في مؤسسة سما: “حتى عارضات الأزياء المتميزات ما زلن يهلوسن بنسبة 2.5% تقريبًا من الوقت”. “إنها مشكلة تتمثل في أن نقطة البيع الرئيسية لشركة Anthropic لتحديث Claude الأخير هي أن نماذجها أصبحت الآن أكثر عرضة للإجابة على الأسئلة بشكل صحيح بمقدار الضعف.”
يوضح كيرتس أن نسبة 2.5% تبدو مخاطرة صغيرة نسبيًا، لكن الأرقام تتزايد سريعًا بالنسبة لأدوات الذكاء الاصطناعي الشائعة مثل ChatGPT، والتي تتلقى حسب بعض الحسابات ما يصل إلى 10 ملايين استفسار يوميًا. إذا كان ChatGPT يهلوس بمعدل 2.5%، فسيكون ذلك 250.000 هلوسة يوميًا أو 1.75 مليون هلوسة في الأسبوع.
وهذا ليس بالضرورة معدلًا ثابتًا، كما يحذر كيرتس: “إذا تم تعزيز هلوسة النماذج على أنها “صحيحة”، فسوف تديم تلك الأخطاء وتصبح أقل دقة بمرور الوقت”.
لماذا يهلوس الذكاء الاصطناعي؟
بعبارات بسيطة للغاية، يعمل الذكاء الاصطناعي التوليدي من خلال التنبؤ بالكلمة أو العبارة التالية الأكثر احتمالية مما رآه. ولكن إذا لم يفهم البيانات التي يتم تغذيتها بها، فسوف ينتج شيئًا قد يبدو معقولاً ولكنه ليس صحيحًا في الواقع.
تعمل سيمونا فاسيتي، الرئيس التنفيذي لشركة Perfection42، مع نماذج الذكاء الاصطناعي المرئي، وتقول إنه لتوليد صور مرئية، ينظر الذكاء الاصطناعي إلى المناطق المحيطة و”يخمن” البكسل الصحيح الذي يجب وضعه في مكانه. في بعض الأحيان يخمنون بشكل خاطئ، مما يؤدي إلى الهلوسة.
يقول كيرتس إن حاملي شهادة الماجستير في القانون ليسوا جيدين في تعميم المعلومات غير المرئية أو الإشراف الذاتي. ويشرح أن السبب الرئيسي للهلوسة هو الافتقار إلى بيانات التدريب الكافية وعدم كفاية عملية تقييم النماذج. يوضح كيرتس أن “العيوب الموجودة في البيانات، مثل البيانات ذات التصنيف الخاطئ أو الممثلة تمثيلاً ناقصًا، هي السبب الرئيسي الذي يجعل النماذج تضع افتراضات خاطئة”.
على سبيل المثال، إذا لم يكن لدى النموذج معلومات كافية، مثل المؤهلات التي يجب أن يستوفيها شخص ما للحصول على رهن عقاري، فيمكن أن يقوم بافتراض خاطئ ويوافق على الشخص الخطأ، أو لا يوافق على شخص مؤهل.
يؤكد كيرتس: “بدون عملية تقييم نموذجية قوية لاكتشاف هذه الأخطاء بشكل استباقي وضبط النموذج ببيانات تدريب إضافية، ستحدث الهلوسة بشكل متكرر أكثر في الإنتاج”.
لماذا من المهم القضاء على الهلوسة؟
وكما اكتشف المحاميان في نيويورك، فإن هلوسة الذكاء الاصطناعي ليست مجرد مصدر إزعاج. عندما ينشر الذكاء الاصطناعي معلومات خاطئة، خاصة في مجالات المعلومات المهمة مثل القانون والتمويل، فقد يؤدي ذلك إلى أخطاء مكلفة. ولهذا السبب يعتقد الخبراء أنه من الضروري القضاء على الهلوسة من أجل الحفاظ على الثقة في أنظمة الذكاء الاصطناعي والتأكد من أنها تقدم نتائج موثوقة.
“طالما أن هلوسة الذكاء الاصطناعي موجودة، فلا يمكننا أن نثق بشكل كامل في المعلومات التي تنتجها LLM. يقول فاسيتي: “في الوقت الحالي، من المهم الحد من هلوسة الذكاء الاصطناعي إلى الحد الأدنى، لأن الكثير من الأشخاص لا يتحققون من صحة المحتوى الذي يعثرون عليه”.
تقول أولغا بيريجوفايا، نائبة رئيس قسم الذكاء الاصطناعي والترجمة الآلية في شركة Smartling، إن الهلوسة لن تؤدي إلا إلى خلق العديد من مشكلات المسؤولية مثل المحتوى الذي ينشئه النموذج أو يترجمه.
وفي شرحها لمفهوم “الذكاء الاصطناعي المسؤول”، تقول إنه عند اختيار نوع المحتوى الذي يُستخدم فيه تطبيق الذكاء الاصطناعي التوليدي، تحتاج المنظمة أو الفرد إلى فهم الآثار القانونية المترتبة على عدم الدقة في الحقائق أو النص الذي تم إنشاؤه غير ذي صلة بالغرض.
يقول بيريجوفايا: “القاعدة العامة هي استخدام الذكاء الاصطناعي في أي “محتوى معلوماتي” حيث لن تؤدي الطلاقة الزائفة والمعلومات غير الدقيقة إلى جعل الإنسان يتخذ قرارًا ضارًا محتملاً”. وتقترح أن تمر العقود القانونية أو استنتاجات قضايا التقاضي أو الاستشارة الطبية بخطوة التحقق البشري.
طيران كندا هي إحدى الشركات التي كانت موجودة بالفعل عضتها الهلوسة. أعطى برنامج الدردشة الآلي الخاص به لشخص ما سياسة استرداد خاطئة، وصدق العميل برنامج الدردشة الآلي، ثم رفضت شركة طيران كندا احترامه حتى حكمت المحاكم لصالح العميل.
يعتقد كيرتس أن الدعوى القضائية التي رفعتها شركة طيران كندا تشكل سابقة خطيرة: إذا كان يتعين على الشركات الآن احترام السياسات الهلوسة، فإن ذلك يشكل خطرًا ماليًا وتنظيميًا كبيرًا. يقول كيرتس: “لن تكون مفاجأة كبيرة إذا ظهرت صناعة جديدة لتأمين نماذج الذكاء الاصطناعي وحماية الشركات من هذه العواقب”.
خالية من الهلوسة منظمة العفو الدولية
يقول الخبراء إنه على الرغم من أن القضاء على هلوسة الذكاء الاصطناعي أمر صعب، إلا أن الحد منه أمر ممكن التنفيذ بالتأكيد. ويبدأ كل شيء بمجموعات البيانات التي يتم تدريب النماذج عليها.
يؤكد Vasytė أن مجموعات البيانات الواقعية عالية الجودة ستؤدي إلى عدد أقل من الهلوسة. وتقول إن الشركات التي ترغب في الاستثمار في نماذج الذكاء الاصطناعي الخاصة بها ستؤدي إلى حلول بأقل قدر من الهلوسة المتعلقة بالذكاء الاصطناعي. “وبالتالي، اقتراحنا هو تدريب LLMs حصريًا على بياناتك، مما يؤدي إلى نماذج عالية الدقة وآمنة وجديرة بالثقة،” يقترح Vasytė.
يقول كيرتس إنه على الرغم من أن العديد من الأسباب الجذرية للهلوسة تبدو وكأنها يمكن حلها بمجرد وجود مجموعة بيانات كبيرة بما فيه الكفاية، إلا أنه من غير العملي أن يكون لديك مجموعة بيانات بهذا الحجم. وبدلاً من ذلك، يقترح على الشركات استخدام مجموعة بيانات تمثيلية تم شرحها وتصنيفها بعناية.
يقول كيرتس: “عند دمجها مع التعزيزات، وحواجز الحماية، والتقييمات المستمرة لأداء النموذج، يمكن أن تساعد البيانات التمثيلية في التخفيف من مخاطر الهلوسة”.
يشير الخبراء أيضًا إلى تقنية الاسترجاع المعزز (RAG) لمعالجة مشكلة الهلوسة.
بدلاً من استخدام كل ما تم تدريبه عليه، يمنح RAG أدوات الذكاء الاصطناعي التوليدية آلية للتصفية وصولاً إلى البيانات ذات الصلة فقط لتوليد الاستجابة. يُعتقد أن مخرجات أدوات الذكاء الاصطناعي التوليدية المستندة إلى RAG أكثر دقة وجديرة بالثقة. هنا مرة أخرى، على الرغم من أنه يجب على الشركات التأكد من الحصول على البيانات الأساسية وفحصها بشكل صحيح.
يقول بيريجوفايا إن أسلوب التحقق من الحقائق على يد الإنسان هو الطريقة الأكثر أمانًا لضمان اكتشاف الهلوسة وتصحيحها. ومع ذلك، كما تقول، يحدث هذا بعد أن يستجيب النموذج بالفعل.
وهي ترمي الكرة إلى الجانب الآخر من السياج، وتقول: “إن أفضل طريقة لمنع الهلوسة أو تقليلها، وإن لم تكن مقاومة للرصاص تمامًا، هي أن تكون محددًا قدر الإمكان في مطالبتك، وتوجيه النموذج نحو تقديم استجابة محددة للغاية وتقييد ممر التفسيرات المحتملة.
- لقد قمنا بتقريب أفضل نماذج اللغات الكبيرة (LLMs).