نظرة على وحدة معالجة الرسومات NVIDIA التي لا تصدق التي تعمل على تشغيل طموح Deepseek من الذكاء الاصطناعي العالمي


  • تم إطلاق H800 من NVIDIA في مارس 2023 وهي نسخة مقطوعة من H100
  • كما أنه أبطأ بكثير من مجموعة NVIDIA H200 ومجموعة AMD الغريزية
  • أجبرت هذه القيود الاصطناعية هندسة ديبسيك على الابتكار

كان من المفترض على نطاق واسع أن الولايات المتحدة ستبقى دون منازع كقوة عظمى من الذكاء الاصطناعى العالمي ، خاصة بعد إعلان الرئيس دونالد ترامب مؤخراً عن مشروع ستارغيت – مبادرة بقيمة 500 مليار دولار لتعزيز البنية التحتية لمنظمة العفو الدولية في جميع أنحاء الولايات المتحدة. ومع ذلك ، شهد هذا الأسبوع تحولًا زلزاليًا مع وصول ديبسيك في الصين. تم تطوير Deepseek على جزء صغير من تكلفة منافسيها الأمريكيين ، على ما يبدو من العدم ، وأحدث تأثيرًا لدرجة أنه قضى على تريليون دولار من القيمة السوقية لسهم التكنولوجيا الأمريكية ، مع Nvidia الضحايا الرئيسي.

من الواضح أن أي شيء تم تطويره في الصين سيكون سراً للغاية ، ولكن ورقة تقنية تم النشر قبل أيام قليلة من طراز الدردشة التي تفوجت مراقبي الذكاء الاصطناعى بمنحنا نظرة ثاقبة على التكنولوجيا التي تدفع المكافئ الصيني للدردشة.

في عام 2022 ، منعت الولايات المتحدة استيراد وحدات معالجة الرسومات Nvidia المتقدمة إلى الصين لتشديد السيطرة على تكنولوجيا الذكاء الاصطناعى الحرجة ، ومنذ ذلك الحين فرضت المزيد من القيود ، ولكن من الواضح أن ذلك لم يوقف Deepseek. وفقًا للورقة ، قامت الشركة بتدريب نموذج V3 الخاص بها على مجموعة من 2048 NVIDIA H800 GPU – إصدارات CRIPPLED من H100.

التدريب على الرخيصة

تم إطلاق H800 في مارس 2023 ، للامتثال لقيود التصدير الأمريكية إلى الصين ، ويتميز بنسبة 80 جيجابايت من ذاكرة HBM3 مع عرض النطاق الترددي 2 تيرابايت.

يتخلف عن أحدث H200 ، والذي يوفر 141 جيجابايت من ذاكرة HBM3E وعرض نطاق 4.8 تيرابايت/ثانية ، و Mi325x الغريزي AMD الذي يفوق كلاهما مع 256 جيجابايت من ذاكرة HBM3E وعرض 6TB/S.

كل عقدة في المجموعة Deepseek تدربت على المنازل 8 وحدات معالجة الرسومات المتصلة بواسطة NVLink و NVSwitch للاتصال داخل العقدة ، في حين تعالج Infiniband اتصالات التواصل بين العقد. يحتوي H800 على نطاق النطاق الترددي NVLink أقل مقارنة بـ H100 ، وهذا ، بشكل طبيعي ، يؤثر على أداء الاتصالات متعددة GPU.

تطلب Deekseek-V3 ما مجموعه 2.79 مليون ساعة من GPU ساعة لتدريب ما قبل الرموز الرموز الرموز المميزة 14.8 تريليون ، باستخدام مزيج من خط الأنابيب والموازية للبيانات ، وتحسين الذاكرة ، وتقنيات القياس المبتكرة.

المنصة التاليةيقول: “بتكلفة 2 دولار لكل ساعة GPU – ليس لدينا أي فكرة عما إذا كان هذا هو السعر السائد في الصين – بتكلفة 2 دولار لكل ساعة GPU –

كاتب

Leave a Comment

en_USEnglish