لقد وضعت Google Gemini الجديد ضد ChatGPT لتوليد صور الذكاء الاصطناعي - وصدمتني النتائج

لا يمر اليوم دون ظهور اتجاه آخر لتصوير chatgpt في خلاصاتك الاجتماعية – قبل يومين ، كان يحول صورك إلى فن عصر النهضة ، على سبيل المثال ، ولكن لماذا لا تحصل على نفس الأشياء التي تحدث مع الجوزاء ، لأنه يمكن أيضًا إنشاء صور AI؟

ذلك لأن اتجاه توليد صور الذكاء الاصطناعي بدأ يحدث بعد أن حصل Chatgpt على ترقية خطيرة للصور في مارس ، بينما كان الجوزاء في ذلك الوقت لا يزال يعتمد على Imagen 3 ، الذي كان له بعض القيود.

حسنًا ، حصل جميع مستخدمي Gemini على Google I/O على ترقية مجانية إلى Imagen 4 ، والتي توفر جودة صورة أفضل بكثير والطباعة وكذلك القدرة على إنتاج صور تصل إلى 2K دقة واستخدام أحجام الصور خارج نسبة 1: 1.

أفضل ما في الأمر هو أن Imagen 4 يعيش الآن ، ويمكنك استخدامه بمجرد الذهاب إليه gemini.google.com أو باستخدام تطبيق الجوال.

السؤال الكبير هو ، هل يمكنك الآن استخدام Imagen 4 الجديد في Gemini لاستبدال chatgpt لتوليد الصور؟ دعونا نكتشف.

مقارنة الجوزاء و chatgpt

أولاً ، دعونا نلقي نظرة على الحدود. Google مقدمًا تمامًا حول عدد الصور التي يمكنك إنشاؤها في اليوم. في Gemini ، يمكن للمستخدمين الأحرار إنشاء 10-20 صورًا يوميًا ، في حين يمكن للمشتركين المتقدمين Gemini إنشاء 100-150 ، اعتمادًا على الطلب على الخادم.

مع chatgpt ، تكون حدود الاستخدام أكثر غموضًا وتختلف أكثر اعتمادًا على عدد الأشخاص الذين يستخدمونه. على سبيل المثال ، يخبرني ChatGPT حاليًا أن توليد الصور غير متاح حتى للمستخدمين المجانيين ، في حين يمكن للمشتركين ChatGPT Plus إنشاء “بضع عشرات من الصور يوميًا”. ومع ذلك ، فقد سمح لي بإنشاء صورة في الإصدار المجاني ، وعادة ما وجدت أنه يمكنني الحصول على حوالي ثلاث أو أربع صور في اليوم قبل أن أصل إلى الحد الخاص بي على المستوى المجاني.

لاختبار Gemini مقابل ChatGpt ، قررت استخدام حساب ChatGpt Plus وحساب Gemini المتقدم حتى لا داعي للقلق بشأن ضرب حدود الاستخدام. لقد استخدمت أيضًا المطالبات التي قدمتها Openai و Google لمقارنة توليد الصور. نظرًا لأن هذه المطالبات تم توفيرها من قبل الشركات ، فربما أبرزت القدرات الخاصة لكل مولد صور ، لذلك قمت بتقسيم الاختبارات بالتساوي بين مطالبات Google و Openai.

الاختبار الأول – صورة سينمائية

كان أول ما يصل إلى موجه قدمه Google:

اِسْتَدْعَى: تم تصويره سينمائيًا من مقعد السائق ، مما يوفر عرضًا واضحًا للركاب الشاب على المقعد الأمامي بشعر أحمر مذهل. تم تثبيت نظرتها إلى الأمام ، وتركز على التنقل في الطريق السريع المتربة والوحدة المرئية من خلال نافذتها الجانبية ، مما يدل على امتداد غير واضح من الأرض الجافة وربما الجبال البعيدة الضبابية. تقع ذراعها على الحافة النافذة أو عجلة القيادة. تشمل اللقطة جزءًا من الشاحنة المسنين إلى جانبها – لوحة الأبواب ، وربما لمحة عن نسيج المقعد البالي. يمكن أن تكون الإضاءة في وقت متأخر من شمس ما بعد الظهيرة ، وتلقي الظلال الطويلة وأبرز الأحداث الدافئة عبر وجهها وداخل الشاحنة. تؤكد هذه الزاوية على وجودها الفردي وحالتها التأملية داخل المشهد الفارغ الشاسع.

مما لا يثير الدهشة ، أنتجت Gemini صورة رائعة من هذه المطالبة التي عرضت بالفعل قوة Imagen 4:

صورة الذكاء الاصطناعي التي تنشئها الجوزاء. (الصورة الائتمان: جوجل)

على النقيض من ذلك ، قدمت chatgpt هذا:

صورة تم إنشاؤها من الذكاء الاصطناعى المصنوعة من chatgpt. — الصورة التي يتم إنشاؤها بواسطة ChatGPT. (الصورة الائتمان: Openai)

إنه ليس سيئًا ، ويستريح ذراع النموذج على عجلة القيادة كما هو مطلوب ، لكن العجلة غير مرئية ، مما يجعل الشاحنة ، التي تبدو أشبه بالسيارة ، تبدو أقل واقعية. صورة Chatgpt أيضًا أغمق كثيرًا ، وهي طريقة رائعة لإخفاء التفاصيل ، ولكنها تؤدي إلى صورة أقل إثارة لافتة للنظر من ما أنتجته الجوزاء.

الحكم: تَوأَم هو الفائز هنا. لقد ولدت صورة أقرب إلى حد ما طلبنا ويبدو واقعية بشكل لا يصدق. أنا معجب!

الاختبار الثاني – صورة للأصدقاء

يتم توفير المطالبة الثانية بواسطة Openai:

اِسْتَدْعَى: توليد صورة صريحة على غرار بولارويد لأربعة أصدقاء متنوعة في أوائل العشرينات من العمر في شريط الغوص الشجاع. تتميز الإضاءة بمضة قاسية ومباشرة للغاية ، مما يخلق ظلالًا حادة وإعطاء الصورة إحساسًا مفرطًا للغاية في الكاميرا. يجب أن تكون الألوان صامتة قليلاً ، مما يثير الحنين إلى الحنين ، أوائل 2000s المشاعر الحزبية. الجمالية هي عرضا. لا حدود أو شعارات أو علامات. هناك جدار مثير للاهتمام وراءهم مع بعض الكتابة على الجدران الخفيفة. يجب أن تكون جودة الصورة حادة ومفصلة للغاية (القليل جدًا من الحبوب). يجب أن تكون الطاقة سخيفة وفوضوية. إما أنها تتأخر بشكل هزلي أو يبتسمون أو يتظاهرون بأنهم يبدوون قاسيين. يجب أن يكون لدى أحدهم صديقهم في Headlock السخيفة والمرحة. أفواههم مغلقة.

Gemini ، التي لديها مشكلة بوضوح في العد إلى أربعة ، أنتجت هذه الصورة:

صورة الجوزاء التي ينشئها الأصدقاء. — الصورة التي تم إنشاؤها بواسطة الجوزاء لأصدقاء “أربعة”. (الصورة الائتمان: جوجل)

أنشأ ChatGpt هذه الصورة:

الصورة التي يتم إنشاؤها بواسطة ChatGPT — صورة لأربعة أصدقاء تم إنشاؤها بواسطة ChatGpt. (الصورة الائتمان: Openai)

الحكم: الآن ، لا أعتقد أن أيًا منهما قام بعمل جيد بشكل خاص في تمثيل مجموعة “متنوعة” ، ولكن على الأقل ChatGPT لديه العدد الصحيح من الأشخاص. الفائز هو chatgpt.

الاختبار الثالث – كائن مع نص على

تشدد Google حقًا على مدى تحسين Imagen 4 في الطباعة ، لذلك اخترت اختبارًا يطلب تقديم النص في الصور.

يتم توفير المطالبة التي استخدمتها بواسطة Google:

اِسْتَدْعَى: التقاط عن قرب حميمة يستحم في أشعة الشمس الدافئة ، الناعمة ، في وقت متأخر بعد الظهر ، في مطبخ في الستينيات من القرن الماضي. النقطة البؤرية هي حزمة عتيقة مصممة بشكل ساحر من الدقيق متعدد الأغراض ، تستريح بشكل جذاب على كونترتوب فورميكا المرقط. تثير العبوة نفسها حنينًا نقيًا: ربما ورقة سميكة ، محكم قليلاً في لهجة كريمة دافئة ، مزينة بالطباعة البسيطة والجريئة (سيرف أو نص ودي) باللون الأحمر والأزرق الكلاسيكي ، “الدقيق متعدد الأغراض” ، والذي يتميز برصيدًا رائعًا مثل صعد من القمح أو شخصية بيكر. في طباعة جريئة أصغر في أسفل الحزمة: “NET WT 5 LBS (80 OZ) 2.27 كجم”. ركز بشكل حاد على تفاصيل الحزمة-الحواف الناعمة قليلاً من الحقيبة الورقية ، وملمس الطباعة القديمة ، ونص “الدقيق متعدد الأغراض” الجذاب. تلميحات خفية من إطار المطبخ في الستينيات من القرن الماضي – حافة الكروم من العداد اللامعة بهدوء ، أو لمحة غير واضحة عن باكسبلاش باستيل البلاط الصفراء ، أو زاوية علبة معدنية عتيقة خارج عن التركيز. يحافظ عمق المجال الضحل على الانتباه على الحزمة المصممة بشكل جميل ، مما يخلق غنيًا جماليًا بالدفء والأصالة والجاذبية الحنين.

أنتجت الجوزاء هذه الصورة:

صورة تم إنشاؤها في الجوزاء. — حقيبة من الدقيق التي تم إنشاؤها بواسطة الجوزاء. (الصورة الائتمان: جوجل)

قدمت ChatGpt هذه الصورة:

صورة تم إنشاؤها من ChatGPT لكيس الدقيق. — (الصورة الائتمان: Openai)

الحكم: أعتقد أن كلا النموذجين قاما بعمل رائع في إنتاج نص قابل للقراءة ، لكن ChatGPT قدم بعض عدم الدقة – “LS” بدلاً من “LBS” و “2،27” بدلاً من “2.27” ، وبالتالي فإن الفائز هو الجوزاء.

الاختبار الرابع – الكثير من الكلمات في صورة

أضاف الاختبار الأخير بضع كلمات فقط إلى صورة ، ولكن ماذا يحدث عندما تحتاج إلى المزيد من النصوص المشاركة في صورة ما؟ جربت هذه المطالبة التي قدمتها Openai:

اِسْتَدْعَى: قم بإنشاء صورة واقعية لشخصين ساحرة في العشرينات من العمر (واحدة من الرماد ، واحدة ذات شعر أوبورن متموج طويل) تقرأ علامة الشارع. السياق: شارع المدينة في شارع عشوائي في ويليامزبرغ ، نيويورك مع عمود مغطى بالكامل بعلامات العديد من العلامات التفصيلية (على سبيل المثال ، ساعات الشوارع ، وتصاريح وقوف السيارات المطلوبة ، وتصنيفات المركبات ، وقواعد القطر) ، بما في ذلك عدد قليل من علامات السخرية في المناطق (و “إعادة تحميلها”. الحد) “و” مواقف الرنة عن طريق التصريح فقط (24-25 ديسمبر) ، سيتم وضع المخالفين في قائمة المشاغب. ” العلامة على يمين الشارع. لا تكرر العلامات. يجب أن تكون العلامات واقعية. الشخصيات: واحدة من الساحرة تحمل مكنسة والآخر لديه سجادة سحرية مدفوعة. هم في المقدمة ، وظهروا قليلاً نحو الكاميرا ويميلون قليلاً أثناء التدقيق في العلامات. تكوين من الخلفية إلى المقدمة: الشوارع + السيارات المتوقفة + المباني -> علامة الشارع -> الساحرة. يجب أن تكون الشخصيات الأقرب إلى الكاميرا التي تأخذ اللقطة

أنتجت الجوزاء هذه الصورة:

صورة الجوزاء التي أنشأها السحرة في علامة. — (الصورة الائتمان: جوجل)

أنتجت ChatGpt هذه الصورة:

صورة تم إنشاؤها من السحرة في علامة. — (الصورة الائتمان: Openai)

الحكم: صورة الجوزاء أكثر إشراقًا ، لكن الفائز الواضح هنا chatgpt. من الأفضل بكثير إنتاج علامات الطرق ، على الأقل. مثال الجوزاء ملتزم بأخطاء نصية ، لكن chatgpt واحد أكثر نظافة ولا يزال غير كامل – “المركبات” و “المحرمة” كلاهما أخطأ.

من يفوز؟

بشكل عام ، أعتقد أن Imagen 4 في الجوزاء مثير للإعجاب. أحب مستوى التفاصيل في صوره ، ويشعرون أكثر إشراقًا من تلك التي تم إنشاؤها بواسطة ChatGpt ، والتي يبدو أن لديها شعور موحل بالمقارنة. ربما يكون الشيء الأكثر إثارة للإعجاب هو السرعة التي تنتج بها الجوزاء صورها. قام بإنشاء جميع صور الاختبار الخاصة بنا في ثوانٍ ، بدلاً من الدقائق المطلوبة.

لا تزال هناك مناطق يكون فيها ChatGPT متفوقة – صور بها الكثير من النصوص ، على سبيل المثال. ومع ذلك ، من أجل السرعة الرائعة والراحة ، سيكون من الصعب ألا تكون افتراضية لجميني الآن عندما أحتاج إلى صورة AI سريعة تم إنشاؤها.

ولكن إليك الفرك: إذا قمت بتحميل صورة لنفسك إلى Gemini واطلبها تحويلها إلى صورة على نمط استوديو Ghibli ، وهو ما بدأ اتجاه صور ChatGpt بالكامل في البداية ، لا يمكنه فعل ذلك.

لا يستحق الأمر القيام بذلك كاختبار لأن الجوزاء يفشل بشكل مذهل. حاولت تحميل صورة لي بالمطالبة “قم بتحويل هذه الصورة بأسلوب استوديو Ghibli. تمامًا مثلما هو أكبر المعجبين والمعجبين ، يتدربون لسنوات لإتقان التقنية بالقرب من الكمال” وقد ولدت للتو صورة عشوائية من طراز Ghibli لمجموعة من الأشخاص ، لم يشبهني أي منهم على الإطلاق. وبغض النظر عن القضايا الأخلاقية ، لم يكن لدى Chatgpt مشكلة في إنتاج صورة على طراز Ghibli.

يعد تحويل الصور مجالًا رئيسيًا حيث يتمتع ChatGpt بميزة واضحة على Gemini في توليد صور AI ؛ ومع ذلك ، إذا كنت ترغب ببساطة في إنتاج صورة منظمة العفو الدولية من الصفر ، فلا يمكن تجاهل الجوزاء.

قد تعجبك أيضًا

Gemini Live الآن مجاني للجميع على Android و iOS ، ويمكنك أخيرًا مشاركة الشاشة والكاميرا على iPhone – إليك كيفية تجربتها
تريد أن تكون Spielberg القادمة؟ يمكن أن يؤدي التدفق الذي يعمل به الذكاء الاصطناعى من Google
الرئيس التنفيذي لشركة Google: AI ليست “لحظة صفر” للبحث

كاتب

موقع رادار تك

لقد وضعت Google Gemini الجديد ضد ChatGPT لتوليد صور الذكاء الاصطناعي – وصدمتني النتائج