لقد قارنت ChatGPT 4.1 إلى O3 و 4O للعثور على نموذج الذكاء الاصطناعي الأكثر منطقية - تبدو النتيجة غير عقلانية تقريبًا

جاء إصدار Openai لـ GPT-4.1 لـ ChatGPT بهدوء ولكنه يمثل ترقية مثيرة للإعجاب ، وإن كان يركز بشكل خاص على التفكير والترميز المنطقي. يمكن أن تفتح نافذة السياق الهائلة وفهم التفكير المنظم أبوابًا لكثير من البرمجة الجديدة وحل الألغاز. لكن Openai غالبًا ما يتفاخر بقدرات الترميز في نماذجها بطرق يجدها العقل غير الفني في أحسن الأحوال.

قررت أنه قد يكون من المثير للاهتمام أكثر إثارة لتطبيق التمديد الطبيعي للترميز المنطقي على المزيد من المصالح الإنسانية – على وجه التحديد ، الألغاز والألغاز المنطقية. بدلاً من مجرد رؤية كيفية أداء GPT-4.1 من تلقاء نفسها ، قررت تشغيله ضد اثنين من طرز ChatGPT الأخرى. لقد اخترت GPT-4O ، وهو الخيار الافتراضي المتاح لكل مستخدم ChatGPT ، وكذلك O3 ، ونموذج التفكير العالي الأوكتان من Openai مصمم للمضغ من خلال الرياضيات والرمز والألغاز باستخدام سبب مثل Scalpel. هذه الألعاب الأولمبية المنطقية ليست علمية بشكل خاص ، ولكنها ستظهر على الأقل نكهة لكيفية تكدس النماذج.

قطة في صندوق

قررت أن أبدأ باختبار التفكير الاستنتاجي والسعي المطرس. أخبرت النماذج الثلاثة لحل ذلك: هناك خمسة صناديق متتالية مرقمة من 1 إلى 5 ، حيث تختبئ القطة. كل ليلة ، يقفز إلى صندوق مجاور ، وكل صباح ، لديك فرصة واحدة لفتح صندوق للعثور عليه. كيف تجد القط؟

هذا اللغز لا يتعلق فقط بالتخمين – إنه يتعلق بإخفاء استراتيجية تضمن أنك ستحصل على القطط الزلقة في عدد محدود من الأيام ، بغض النظر عن المكان الذي يبدأ فيه.

GPT-4.1 حمامة في مثلها قد قرأت ألف لغز مثل هذا واحد. اقترح نمط بحث حتمي ذكي حيث تقوم بفتح المربعات في تسلسل يلغي ببطء جميع الاحتمالات. حتى أنه قام بمحاكاة حركات القط ، خطوة بخطوة ، موضحة كيف ينهار الاحتمال في النهاية إلى اليقين.

استغرق الأمر O3 طراز 22 ثانية للتفكير من خلال الإجابة. بعد ذلك ، كان لديه تفسير أكثر مطولًا إلى حد ما ، ولكن نفس الاستراتيجية ، ووقت أقصى خمسة أيام للعثور على القط. كان GPT-4O مختصرة بشكل مدهش وإلى حد خصمه. لم يذهب كثيرًا إلى تفاصيل سبب عمله ، على الرغم من أنه أوضح كيف استخدم ما يعرف باسم “استراتيجية مطاردة”.

مساحة النبيذ

بعد أن أثبتت أنها جيدة في الأرقام ، قمت بعد ذلك بتعيين النماذج التي تم تصميمها حول الفضاء والفيزياء. هذا هو واحد من تلك الألغاز في المدرسة القديمة التي تكافئ التفكير في العالم الحقيقي. لا الرياضيات ، لا رمز ، فقط الفيزياء والخيال. ذهب اللغز: هناك برميل بدون غطاء وبعض النبيذ فيه. تقول المرأة: “إن برميل النبيذ هذا أكثر من نصف ممتلئة”. يقول الرجل: “لا ، هذا ليس كذلك”. “إنها أقل من نصف ممتلئة.” دون قياس أي شيء أو إزالة النبيذ ، كيف يمكنهم تحديد من هو الصحيح؟

GPT-4.1 تعاملت معها برشاقة. مشى لي من خلال الحل: إمالة البرميل حتى يلمس النبيذ الشفة. إذا تمكنت من رؤية الجزء السفلي من البرميل ، فهذا أقل من نصف ممتلئ ؛ إذا لم يكن كذلك ، فهو أكثر من نصف ممتلئة. زوجان بسيطان من الفقرات لتغطية كيفية العثور على الإجابة ولماذا تعمل الإجابة.

ذهب طراز O3 أكثر من Spartan مع إجابته ، باستخدام بضع نقاط رصاصة لنقل نفس المعلومات. إذا كان هناك أي شيء ، فقد بدا منظمة العفو الدولية صبرًا غريبًا على شرح الإجابة ، مع “لا حكام ، لا سيفون – مجرد إمالة بطيئة يخبرك من هو على حق”. تقسيم استجابة 4O الفرق بين الاثنين الآخرين. لقد استخدمت بضع نقاط من الرصاص للإجابة ، ولكن بعد ذلك كتبت شرحًا طويلًا للفيزياء وراءها.

رسالة محيرة

ذهب اللغز النهائي في اتجاه مختلف تماما للمنطق. بدلاً من التركيز على الخصم ، يتعلق الأمر باللف ويلاحظ أنماط اللغة. سألت النماذج الثلاثة: ما الذي يحدث مرة واحدة في الدقيقة ، مرتين في لحظة ، وليس في ألف عام؟

قام GPT-4.1 بتسميره في ثلاث نقاط رصاصة ، موضحًا كيف أن الحرف M هو الإجابة. وأشار إلى أين تحدث الرسالة في “Minate” و “Moment” ولماذا “ألف سنة” لا تشملها.

أجاب O3 أيضًا في ثلاث نقاط رصاصة ، لكنها ذهبت لبضع كلمات فقط في كل نقطة ، معلنة عدد المرات التي ظهر فيها الحرف M وليس رسالة إضافية إلى ما بعد. كان لدى GPT-4O أيضًا بعض نقاط الرصاص القصيرة ، ولكن على الأقل غامر بتفسير يتجاوز مجرد الحقائق. لقد تم تشجيعه تقريبًا عندما أوضح ، “الخدعة في التفسير – التفكير حرفيًا (رسائل) ، وليس مجازيًا (الوقت).”

بطل المنطق

بعد قضاء الكثير من الوقت في التحدث إلى نماذج الذكاء الاصطناعى حول القطط والنبيذ والأبجدية ، يمكنني أن أختتم بعض الأشياء بشكل منطقي. جميع النماذج لديها مقبض جيد جدا على المنطق. قد يختلفون في مدى تفصيل ردودهم ، لكنهم بالتأكيد يفهمون الميكانيكا الموجودة أسفل الألغاز.

من الواضح أن GPT-4.1 أسباب ، تشرح نفسها جيدًا ، والآن بعد أن تعيش في ChatGPT ، من المحتمل أن يكون اختيارًا جيدًا لأي نوع من المشكلات القائمة على المنطق. يتضمن ذلك الترميز ، كما ذكر أعلاه ، إنه ليس بالأمر الفذ الذي أعتقد أنه يسيطر بشكل خاص لمشاهدة التطوير ، قد تكون النتيجة النهائية فقط مثيرة للاهتمام.

ومع ذلك ، إذا كنت تريد المساعدة في حل الألغاز ، فسيخدمك أي من النماذج بشكل جيد. وإذا كان أي منهم بخير ، فقد لا تلاحظ اختلافًا ، والذي يبدو ، بصراحة ، غير عقلاني تمامًا.

لقد حرضت chatgpt عميق الأبحاث ضد Gemini Deep Research – إليك كيف تقارن أداة Google المجانية بعرض Openai المدفوع

يمكنني الحصول على إجابات من chatgpt ، لكن الأبحاث العميقة تعطيني أطروحة كاملة لن أحتاجها أبدًا

لقد جربت بحثًا عميقًا على ChatGpt ، وهو مثل أمين مكتبة ذكي للغاية ولكنه غائب قليلاً من كتاب الأطفال

كاتب

موقع رادار تك

لقد قارنت ChatGPT 4.1 إلى O3 و 4O للعثور على نموذج الذكاء الاصطناعي الأكثر منطقية – تبدو النتيجة غير عقلانية تقريبًا