مواجهة البحث في نهاية المطاف – لقد حرضت أداة البحث الجديدة من كلود ضد بحث ChatGPT ، والحيرة ، والجرميني ، قد تفاجئك النتائج

بعد اختبار ومقارنة chatbots من الذكاء الاصطناعي وميزاتها لسنوات ، قمت بتطوير شيء من المعنى السادس عندما يعرف هؤلاء الصحابة الرقمية ما الذي يتحدثون عنه ومتى يخافون.

يمكن لمعظمهم البحث عن الإجابات عبر الإنترنت ، مما يساعد بالتأكيد ، ولكن مزيج من البحث و AI يمكن أن يؤدي إلى بعض الاستجابات الثاقبة بشكل مدهش (وبعض الظلال الأقل ثاقبة).

تخيل لو كان لديك صديق على دراية لا يصدق ذهب إلى غيبوبة في أكتوبر 2024 واستيقظت اليوم. قد يكونون رائعين في أي شيء حدث قبل غيبوبةهم ولكنهم جاهلون بكل شيء منذ ذلك الحين. هذا في الأساس ما يشبه الذكاء الاصطناعي بدون بحث.

قد يعجبك

  • اكتشفت فرقًا مفاجئًا بين إمكانيات بحث Deepseek و ChatGpt

  • لقد حرضت chatgpt عميق الأبحاث ضد Gemini Deep Research – إليك كيف تقارن أداة Google المجانية بعرض Openai المدفوع

لقد ركزت عادة على chatbot AI واحد أو مطابقة اثنين في وقت واحد ، ولكن البحث يشعر أنه مهم بما يكفي لتكثيف هذا الجهد. قررت أن أحرض أربعة من أدوات الدردشة الرائدة وقدرات البحث الخاصة بهم ضد بعضها البعض: Openai’s ChatGpt و Google’s Gemini و Claude’s Anthropic’s و Perplexity AI.

الاختبارات الأكثر كشفًا هي تلك التي تحاكي سيناريوهات استخدام العالم الحقيقي. لذلك ، توصلت إلى بعض الموضوعات ، عشوائيًا بعض التفاصيل للاختبارات أدناه ، ثم قررت تصنيفها في قدرات البحث الخاصة بهم.

تقويم

اختبار البحث من الذكاء الاصطناعي

(الصورة الائتمان: لقطة الشاشة الحيرة)

لقد بدأت باختبار حول الأخبار والأحداث المستمرة. بالتفكير في العودة الأخيرة لرواد فضاء ، طلبت من أربع من الذكاء الاصطناعي البحث و: “لخص النقاط الرئيسية من أحدث بيان صحفي ناسا حول مهمتهم القادمة.”

لقد اخترت هذا لأن Space News تحتل تلك البقعة الحلوة المتمثلة في التحديث بانتظام ومحدد بما يكفي أن تصبح الاستجابات الغامضة واضحة على الفور. بدأ كل من chatbots اختباراتهم بأسلوب حافظوا عليه في الغالب.

كانت Chatgpt قصيرة بشكل لا يصدق في إجابتها ، ثلاث جمل فقط ، تذكر كل منها مهام قادمة دون الكثير من التفاصيل. ذهب Gemini للحصول على قائمة نقاط الرصاص من المهام المختلفة ، مضيفًا بعضها تم اختتامها مؤخرًا وتفاصيل عن الخطط المستقبلية. ذهب كلود لمزيد من مقال عن المهام الحالية والقادمة ، لا سيما عدم تكرار الكثير من أبحاثه ولكن القيام بالكثير من إعادة الصياغة.

لسؤال مثل هذا ، حيث قد أرغب فقط في بعض الحقائق الرئيسية والتخطيط لمتابعة أي شيء لفت انتباهي ، كان نهج الحيرة هو المفضل لدي. يحتوي على تفاصيل أكثر من ChatGPT ولكن يتم تشكيله في قائمة مرقمة لطيفة ، ولكل منها رابط اقتباس خاص به.

لا أستطيع حقًا أن أخطئ في أي من الآخرين ، لكن الأسلوب يناسب السؤال.

الناس والأرقام

اختبار البحث من الذكاء الاصطناعي

(الصورة الائتمان: لقطة شاشة كلود)

هذا النمط القائمة ليس دائمًا ما تريده عندما تطرح سؤالًا حول الحقائق الأساسية والمقارنة الأكثر دقة. لقد طلبت حقائقتين مرتبطتين بأنه يمكن أن يبحث عن بوتس منظمة العفو الدولية بسرعة ، ولكن سيحتاج ذلك بعد ذلك إلى مقارنتها ، باستخدام الموجه: “ما هو السكان الحاليين في أوكلاند ، نيوزيلندا ، وكيف نما منذ عام 1950؟ “

بغرابة ، كانت هناك فجوة بين الحيرة و chatgpt ، الذين أعطوا عدد السكان الحاليين 1711،130 ، وكلود وجيميني ، الذين أبلغوا عن 130 شخصًا في أوكلاند. كانوا جميعا في اتفاق حول 1950 السكان ، ولكن.

ومع ذلك ، فيما يتعلق بكيفية تقديم كل منها للمعلومات ، أحببت إجابة كلود السردية ، بما في ذلك العديد من التفاصيل حول التغير السكاني الذي تفتقر إليه ChatGpt وأن الجوزاء والحيرة الموجهة إلى القوائم.

ماذا يحدث؟

اختبار البحث من الذكاء الاصطناعي

(الصورة الائتمان: شاشة شاشة ChatGPT)

بالنسبة للاختبار الثالث ، أردت شيئًا من شأنه أن يتحدى قدرة هذه الأنظمة على التعامل مع المعلومات الخاصة بالمواقع ، التي تتمتع بحساسية للوقت ، ونوع الاستعلام الذي قد تقوم به عند التخطيط لرحلة عطلة نهاية الأسبوع أو الزوار الترفيهية.

هذا هو المكان الذي تصبح فيه الأمور صعبة لمساعدي الذكاء الاصطناعي. إنه شيء واحد أن تعرف الحقائق التاريخية أو المعلومات العامة ، ولكنه آخر تمامًا لمعرفة ما يحدث في مكان معين في وقت معين.

إنه الفرق بين معرفة الكتاب و “المعرفة المحلية” ، وتاريخياً ، كانت أنظمة الذكاء الاصطناعى أفضل بكثير في السابق من الأخير.

بدون سبب معين ، ذهبت مع مدينة استمتعت بها دائمًا وسألتها: “ما هي الأحداث الثقافية التي تحدث في فانكوفر ، كولومبيا البريطانية ، في نهاية الأسبوع المقبل؟”

كان هناك بعض الاختلاف الحقيقي على هذا واحد. حافظت الحيرة و Claude على دقتها وأسلوبها في قائمة مرقمة ومناقشة أكثر محادثة. ومع ذلك ، ذهب كلود بشكل ملحوظ إلى اتساع العمق وبدا أشبه بالحيرة.

انطلق الجوزاء حقًا عن منافسيه ورفضوا الإجابة بشكل أساسي. بدلاً من مشاركة قائمة مماثلة من الأحداث والأنشطة ، قدمت Gemini استراتيجيات لإيجاد الأشياء للذهاب إليها. المواقع السياحية الرسمية وصفحات EventBrite ليست فكرة سيئة للتحقق منها ، لكنها بعيدة كل البعد عن قائمة الاقتراحات المباشرة. كان الأمر أشبه بإجراء بحث عادي في Google بهذه الطريقة.

في هذه الأثناء ، عاد Chatgpt مع ما كنت أتوقعه من الجوزاء. على الرغم من أن أوصاف الأحداث ظلت قصيرة ، إلا أن الذكاء الاصطناعى كان لديه قائمة قوية من الأنشطة المحددة بأوقات ومواقع ، وروابط لمعرفة المزيد ، وحتى الصور المصغرة لما تجده في الروابط.

فحص الطقس

اختبار البحث من الذكاء الاصطناعي

(الصورة الائتمان: شاشة Google Gemini)

بالنسبة للاختبار الرابع ، اخترت أن السؤال الأكثر شيوعًا الذي يتم طرحه من أي منظمة العفو الدولية ، ولكن يستحوذ على بيانات في الوقت الفعلي أن تكون مفيدة: الطقس.

تعد توقعات الطقس مثالية لاختبار استرجاع البيانات في الوقت الفعلي لأنها يتم تحديثها باستمرار ومتاحة على نطاق واسع وسهل التحقق منها. لديهم أيضا موعد انتهاء صلاحية طبيعي. التوقعات من الأمس قد عفا عليها الزمن بالفعل ، مما يجعل من الواضح عندما لا تكون المعلومات الحالية.

سألت مفاتيح chatbots منظمة العفو الدولية: “ما هي توقعات الطقس في طوكيو للأيام الثلاثة القادمة؟” وكانت الردود تقريبا عكس استعلام فانكوفر.

كان لدى كلود ملخص نص مفيد للطقس في نقاط مختلفة خلال الأيام الثلاثة المقبلة ، ولكن هذا كان. كان لدى Chatgpt أيقونة شمس أو سحابة صغيرة بجانب ملخصها للطقس لكل يوم ، لكني أحببت تمامًا الرسم البياني لخط المحير في درجة الحرارة المتطابقة مع ما ستبدو عليه السماء.

مع عدم إضافة أي شيء ، فازت Google Gemini برسم المعلومات الملونة. عندما أفكر في اكتشاف الطقس الحالي والقادم ، هذا كل ما أحتاجه أو أريده.

إذا أردت أن أطلب المزيد من التفاصيل ، فسأفعل ذلك ، لكن السؤال عن الطقس يعني أنني أريد الحد الأدنى اللازم لمعرفة كيفية ارتداء الملابس حقًا.

ناقد الفيلم

اختبار البحث من الذكاء الاصطناعي

(الصورة الائتمان: لقطة شاشة كلود)

لاختباري النهائي ، أردت أن أرى كيف تم أداء محركات البحث منظمة العفو الدولية في العثور على وجهات نظر متعددة حول موضوع ما ووضعها في نظرة عامة متماسكة. تتطلب هذه المهمة ميزة بحث مرنة والقدرة على فهم وجهات النظر المتنوعة. قررت أن أرى كيف حدث مع: “لخص الاستعراضات النقاد المحترفين لأحدث بادينغتون فيلم.”

طالب الطلب بالاسترجاع الواقعية والقدرة على تحديد الأنماط والموضوعات عبر مصادر متعددة دون فقدان الفروق الدقيقة المهمة. إنه الفرق بين التجميع البسيط للآراء وتوليف مدروس يلتقط الإجماع الحرج.

ذهب الجوزاء والحيرة لقوائمهم المعتادة ، التي تنظمها الإيجابيات والسلبيات من مختلف النقاد ، والتي كانت مفيدة إن لم تكن مفيدة بالضرورة كملخص. كتب Chatgpt بشكل غريب أطول إجابته على هذا ، مع مقال قصير يغطي معلومات مماثلة واستنتاج حول كيفية تصنيفه ، ولكن بأسلوب يذكرنا بمدرسة متوسطة يتعلم عن بنية الفقرة الأساسية: جملة الموضوع ، الجمل الداعمة ، والاستنتاج.

من المؤكد أن كلود كان لديه أقوى استجابة ، مع ملخص في الأعلى متبوعًا بتفسيرات ومراجع إلى ما قاله النقاد. بدا الأمر كأنه مراجعة قصيرة غير متخيل من قبل ناقد ، تم سحبها من قبل البت الذي تم سحبه من النقاد الذين استشهدوا به. لقد ابتعدت عن ذلك أنني شعرت بفهم أفضل لكيفية تخفيف توقعاتي بادينغتون في بيرو مما فعلت مع الآخرين.

تصنيف البحث

بعد تشغيل AI chatbots من خلال مسار عقبة البحث عن مخصصة ، هناك شعور واضح بملفاتهم ونقاط الضعف.

لم يكن أي منهم سيئًا بالفعل ، لكن إذا سألني أحدهم عن طريقهم للعب أولاً أو الماضي عندما يتعلق الأمر بالبحث عن المعلومات عبر الإنترنت ووضعها معًا ، فأنا أعرف كيف سأجيب.

الجوزاء في الأسفل بالنسبة لي ، وهو أمر مثير للصدمة إلى حد ما بالنظر إلى أن Google معروفة بشكل خاص بمحرك البحث. ومع ذلك ، فإن فشله في جدول الحدث قد أدى لي حقًا إلى وضعه على الرغم من أدائه الرائع.

مفاجأة أخرى بالنسبة لي هي أن Chatgpt يأتي في المركز الثالث. إنه chatbot منظمة العفو الدولية التي أستخدمها أكثر من غيرها وأعرف الأفضل ، لكن إيجازها ، وعادة ما أحب ذلك في ذلك ، شعرت بحد كبير في سياق البحث. أنا متأكد من أن تغيير النموذج أو أن أكون أكثر تحديداً في عدد الكلمات سيصلح هذه المشكلة ، ولكن إذا كنت قادمًا جديدًا إلى الذكاء الاصطناعي ولا أعرف أنه حتى الآن ، سيكون من المفترض أن تطرح العديد من أسئلة المتابعة.

هذه ليست مشكلة مع الحيرة. كانت القوائم المرقمة واضحة للغاية ، وكانت الاستشهادات واسعة النطاق تقريبًا. العيب الرئيسي بالنسبة لي هو أنه يدور حول كونه محرك بحث مرة أخرى دون تصفيات إضافية في المطالبة. يعجبني أنه يحتوي على دليل على المكان الذي حصل فيه على المعلومات التي تشاركها ، لكنها تتوق تقريبًا إلى النقر على الرابط والنظر إلى المعلومات بدلاً من الحصول على المعلومات من الذكاء الاصطناعي.

لم أكن أتوقع أن يكون كلود في الجزء العلوي من هذه القائمة. على الرغم من أنني وجدت أن كلود هو chatbot من الذكاء الاصطناعى بشكل عام ، إلا أنه كان دائمًا ما يكون وكأنه ران لبعض منافسيه ، وربما جيدًا مثلهم ، ولكن خارج بطريقة ما. اختفى هذا المعنى خلال هذا الاختبار.

كانت هناك عيوب ، مثل عندما بدت الإجابات مطوّلة قليلاً أو تتطلب الاهتمام بمقال أكبر عندما تقوم جملة أو اثنتين. لكنني أحببت تمامًا كيف كانت في كثير من الأحيان رواية متماسكة تشرح جميع الأحداث في فانكوفر أو مقال عن انتقاد بادينغتون في بيرو هذا لم يكرر نفسه.

مساعدي الذكاء الاصطناعى هم أدوات ، وليس المتسابقين في عرض واقعي حيث يمكن للمرء فقط الفوز. تدعو المهام المختلفة إلى قدرات مختلفة. في نهاية المطاف ، قد يكون أي من أدوات chatbots الأربعة وميزة البحث مفيدة ، ولكن إذا كنت على استعداد لدفع 20 دولارًا شهريًا لكلود برو والوصول إلى قدرات البحث ، فستكون هذه هي التي أقول أنك كنت تبحث عنها.

كاتب

أضف تعليق

arالعربية