حصلت الجوزاء للتو على جسدي ويجب أن تستعد لثورة روبوت

Robotics Gemini هو نموذج جديد
إنه يركز على العالم المادي وسيتم استخدامه من قبل الروبوتات
إنها بصرية وتفاعلية وعامة

تعتبر Google Gemini جيدة في العديد من الأشياء التي تحدث داخل الشاشة ، بما في ذلك النص والصور. ومع ذلك ، فإن النموذج الأخير ، Google Robotics ، هو نموذج عمل لغة الرؤية الذي ينقل الذكاء الاصطناعى التوليدي إلى العالم المادي ويمكن أن يسرع إلى حد كبير سباق Robot Revolute Humanoid.

الجوزاء الروبوتات ، التي كشفت DeepMind من Google يوم الأربعاء، يحسن قدرات الجوزاء في ثلاثة مجالات رئيسية:

يؤثر كل من هذه الجوانب الثلاثة بشكل كبير على نجاح الروبوتات في مكان العمل والبيئات غير المعروفة.

قد يعجبك

نموذج Google Gemini الجديد هو شريك العصف الذهني الذي كنت تبحث عنه
تتسابق Google Gemini للفوز بتاج الذكاء الاصطناعي في عام 2025

يتيح التعميم للروبوت أن يأخذ معارف الجوزاء الواسعة حول العالم والأشياء ، وتطبيقه على مواقف جديدة ، وإنجاز المهام التي لم يتم تدريبها عليها. في مقطع فيديو واحد ، يعرض الباحثون زوجًا من الأسلحة الروبوت التي تسيطر عليها Gemini Robotics ، وهي لعبة كرة سلة على طاولة ، واطلبوا من “Slam Dunk the Basketball”.

على الرغم من أن الروبوت لم ير اللعبة من قبل ، إلا أنه التقط الكرة البرتقالية الصغيرة وحشوها عبر الشبكة البلاستيكية.

كما تجعل Google Gemini Robotics الروبوتات أكثر تفاعلية وقادرة على الاستجابة ليس فقط للتغييرات اللفظية ولكن أيضًا إلى الظروف غير المتوقعة.

في مقطع فيديو آخر ، طلب الباحثون من الروبوت وضع العنب في وعاء مع الموز ، ولكن بعد ذلك نقلوا الوعاء أثناء تعديل ذراع الروبوت ولا يزال قادرًا على وضع العنب في وعاء.

الجوزاء الروبوتات: إحضار الذكاء الاصطناعي إلى العالم المادي – يوتيوب

شاهد

أظهرت Google أيضًا إمكانيات الروبوت القشرية ، والتي سمحت لها بمعالجة أشياء مثل لعب Tic-Tac-Toe على لوحة خشبية ، ومحو لوح أبيض ، وطيور قابلة للطي في اوريغامي.

بدلاً من ساعات التدريب على كل مهمة ، تستجيب الروبوتات إلى تعليمات اللغة الطبيعية شبه المستقرة وتؤدي المهام دون توجيه. من المثير للإعجاب مشاهدته.

بطبيعة الحال ، إضافة الذكاء الاصطناعي إلى الروبوتات ليست جديدة.

في العام الماضي ، عقدت Openai شراكة مع Figure AI لتطوير روبوت بشري يمكن أن يعمل على العمل على أساس التعليمات اللفظية. كما هو الحال مع Robotics Gemini ، يعمل نموذج اللغة المرئية في الشكل 01 مع نموذج الكلام Openai للانخراط في محادثات ذهابًا وإيابًا حول المهام وتغيير الأولويات.

في العرض التوضيحي ، يقف الروبوت البشري قبل الأطباق وتصريف. إنه يُسأل عما يراه ، والذي يسرده ، ولكن بعد ذلك يغير المحاور المهام ويطلب من شيء لتناول الطعام. دون أن يفقد أي إيقاع ، يلتقط الروبوت تفاحة ويسلمه له.

Google Gemini Robotics — (الصورة الائتمان: جوجل)

في حين أن معظم ما أظهرته Google في مقاطع الفيديو كان أذرع الروبوت والأيدي المنفصلة التي تعمل من خلال مجموعة واسعة من المهام المادية ، فهناك خطط أكبر. Google شراكة مع apptroniks لإضافة النموذج الجديد إلى روبوت Apollo Humanoid.

ستقوم Google بتوصيل النقاط بالبرمجة الإضافية ، وهو نموذج جديد للغة المرئية المتقدمة يسمى Gemini Robotics-ER (المنطق المجسد).

ستعمل Gemini Robotics-ER على تعزيز التفكير المكاني الروبوتات ويجب أن يساعد مطوري الروبوت في ربط النماذج بوحدات التحكم الحالية.

مرة أخرى ، يجب أن يحسن هذا المنطق أثناء التنقل ويجعل من الممكن للروبوتات معرفة كيفية فهم واستخدام كائنات غير مألوفة بسرعة. تستدعي Google Gemini Rotbotics حلاً شاملاً وتزعم أنه “يمكن أن يؤدي جميع الخطوات اللازمة للتحكم في روبوت مباشرة من المربع ، بما في ذلك الإدراك وتقدير الحالة والتفاهم المكاني والتخطيط وتوليد الكود.”

توفر Google نموذجًا لـ Gemini Robotics إلى العديد من شركات الروبوتات التي تركز على الأعمال والبحوث ، بما في ذلك Boston Dynamics (صانعو Atlas) ، والروبوتات الرشيقة ، وروبوتات Agility.

الكل في الكل ، إنها نعمة محتملة لمطوري الروبوتات البشرية. ومع ذلك ، نظرًا لأن معظم هذه الروبوتات مصممة للمصانع أو ما زالت في المختبر ، فقد يكون ذلك بعض الوقت قبل أن يكون لديك روبوت محسّن من الجوزاء في منزلك.

قد تبني Apple روبوتًا بشريًا ، وآمل حقًا …
تكشف Nvidia عن مدير أسطول لروبوتات Warehouse
لا يزال إساءة استخدام الروبوت هي الطريق إلى المستقبل – حتى لو كنت أكره ذلك

كاتب

موقع رادار تك

كاتب

أضف تعليق إلغاء الرد