- أحدث نماذج الذكاء الاصطناعي من Openai ، GPT O3 و O4-MINI ، هلوسة في كثير من الأحيان أكثر من سابقيها
- قد يؤدي التعقيد المتزايد للنماذج إلى عدم دقة أكثر ثقة
- تثير معدلات الأخطاء المرتفعة مخاوف بشأن موثوقية الذكاء الاصطناعي في التطبيقات الواقعية
الأشخاص الرائعون ولكن غير الجدير بالثقة هم العنصر الرئيسي في الخيال (والتاريخ). قد ينطبق نفس العلاقة على الذكاء الاصطناعى أيضًا ، بناءً على تحقيق أجرته Openai و مشترك بواسطة صحيفة نيويورك تايمز. كانت الهلوسة ، والحقائق الخيالية ، والأكاذيب المباشرة جزءًا من AI chatbots منذ أن تم إنشاؤها. يجب أن تقلل التحسينات على النماذج من الناحية النظرية من التردد الذي تظهر به.
تهدف أحدث النماذج الرائدة في Openai ، GPT O3 و O4-MINI ، إلى تقليد المنطق البشري. على عكس أسلافهم ، الذين ركزوا بشكل أساسي على توليد النص بطلاقة ، قام Openai ببناء GPT O3 و O4-Mini للتفكير في الأمور من خلال خطوة بخطوة. تفاخر Openai بأن O1 يمكن أن يتوافق مع أو يتجاوز أداء طلاب الدكتوراه في الكيمياء والبيولوجيا والرياضيات. لكن تقرير Openai يسلط الضوء على بعض النتائج المروعة لأي شخص يأخذ استجابات ChatGPT بالقيمة الاسمية.
وجد Openai أن نموذج GPT O3 دمج الهلوسة في ثلث اختبار القياس الذي يتضمن شخصيات عامة. هذا هو ضعف معدل الخطأ لنموذج O1 السابق من العام الماضي. كان أداء نموذج O4-MINI الأكثر إحكاما أسوأ ، وهو هلوس على 48 ٪ من المهام المماثلة.
عند اختبار أسئلة المعرفة العامة لمعايير SimpleQA ، ارتفعت الهلوسة إلى 51 ٪ من ردود O3 و 79 ٪ لـ O4-MINI. هذا ليس مجرد ضوضاء صغيرة في النظام ؛ هذه أزمة هوية كاملة. كنت تعتقد أن شيئًا ما يتم تسويقه كنظام تفكير من شأنه على الأقل التحقق من منطقه قبل تصنيع إجابة ، ولكن هذا ببساطة ليس هو الحال.
إحدى النظريات التي تجعل الجولات في مجتمع أبحاث الذكاء الاصطناعى هي أنه كلما حاول التفكير أكثر ، كلما زادت فرصها في الانطلاق. على عكس النماذج البسيطة التي تلتزم بتنبؤات الثقة العالية ، تنطلق نماذج التفكير في الإقليم حيث يجب عليها تقييم مسارات متعددة ممكنة ، وتوصيل الحقائق المتباينة ، والارتجال بشكل أساسي. ويعرف الارتجال حول الحقائق أيضًا باسم صنع الأشياء.
الأداء الخيالي
العلاقة ليست سببية ، وأفصل Openai مرات أن الزيادة في الهلوسة قد لا تكون لأن نماذج التفكير أسوأ بطبيعتها. بدلاً من ذلك ، يمكن أن يكونوا ببساطة أكثر مطوّلة ومغامرة في إجاباتهم. نظرًا لأن النماذج الجديدة لا تكرر الحقائق التي يمكن التنبؤ بها فحسب ، بل تتكهن بالاحتمالات ، فإن الخط الفاصل بين النظرية والحقيقة ملفقة يمكن أن يصبح ضبابية ل AI. لسوء الحظ ، فإن بعض هذه الاحتمالات غير محفورة تمامًا عن الواقع.
ومع ذلك ، فإن المزيد من الهلوسة هي عكس ما يريده Openai أو منافسيه مثل Google والأنثروبور من نماذجهم الأكثر تقدماً. إن استدعاء مساعدي AI chatbots و copilots يعني أنهم سيكونون مفيدين وليست خطرة. لقد واجه المحامون بالفعل مشكلة في استخدام chatgpt وعدم ملاحظة الاستشهادات الخيالية للمحكمة ؛ من يدري كم عدد هذه الأخطاء التي تسببت في مشاكل في ظروف أقل من المخاطر العالية؟
تتوسع فرص الهلوسة للتسبب في مشكلة للمستخدم بسرعة حيث تبدأ أنظمة الذكاء الاصطناعى في الفصول الدراسية والمكاتب والمستشفيات والوكالات الحكومية. قد تساعد الذكاء الاصطناعى المتطور في صياغة تطبيقات الوظائف ، أو حل مشكلات الفواتير ، أو تحليل جداول البيانات ، ولكن المفارقة هي أنه كلما أصبحت الذكاء الاصطناعي أكثر فائدة ، كلما كانت الغرفة أقل للخطأ.
لا يمكنك المطالبة بتوفير الوقت والجهد إذا كان عليهم أن يقضوا وقتًا طويلاً في فحص كل ما تقوله. ليس أن هذه النماذج ليست مثيرة للإعجاب. أظهر GPT O3 بعض المآثر المذهلة للترميز والمنطق. يمكن أن يتفوق على العديد من البشر في بعض النواحي. المشكلة هي أن اللحظة التي تقرر فيها أن أبراهام لينكولن استضاف بودكاست أو أن الماء يغلي عند 80 درجة فهرنهايت ، وهو وهم تحطيم الموثوقية.
حتى يتم حل هذه المشكلات ، يجب أن تأخذ أي استجابة من نموذج الذكاء الاصطناعى مع ملعقة من الملح. في بعض الأحيان ، يشبه Chatgpt هذا الرجل المزعج في العديد من الاجتماعات التي حضرناها جميعًا ؛ ممتلئة بثقة في الهراء التام.