نظرة على وحدة معالجة الرسومات NVIDIA التي لا تصدق التي تعمل على تشغيل طموح Deepseek من الذكاء الاصطناعي العالمي

تم إطلاق H800 من NVIDIA في مارس 2023 وهي نسخة مقطوعة من H100
كما أنه أبطأ بكثير من مجموعة NVIDIA H200 ومجموعة AMD الغريزية
أجبرت هذه القيود الاصطناعية هندسة ديبسيك على الابتكار

كان من المفترض على نطاق واسع أن الولايات المتحدة ستبقى دون منازع كقوة عظمى من الذكاء الاصطناعى العالمي ، خاصة بعد إعلان الرئيس دونالد ترامب مؤخراً عن مشروع ستارغيت – مبادرة بقيمة 500 مليار دولار لتعزيز البنية التحتية لمنظمة العفو الدولية في جميع أنحاء الولايات المتحدة. ومع ذلك ، شهد هذا الأسبوع تحولًا زلزاليًا مع وصول ديبسيك في الصين. تم تطوير Deepseek على جزء صغير من تكلفة منافسيها الأمريكيين ، على ما يبدو من العدم ، وأحدث تأثيرًا لدرجة أنه قضى على تريليون دولار من القيمة السوقية لسهم التكنولوجيا الأمريكية ، مع Nvidia الضحايا الرئيسي.

من الواضح أن أي شيء تم تطويره في الصين سيكون سراً للغاية ، ولكن ورقة تقنية تم النشر قبل أيام قليلة من طراز الدردشة التي تفوجت مراقبي الذكاء الاصطناعى بمنحنا نظرة ثاقبة على التكنولوجيا التي تدفع المكافئ الصيني للدردشة.

في عام 2022 ، منعت الولايات المتحدة استيراد وحدات معالجة الرسومات Nvidia المتقدمة إلى الصين لتشديد السيطرة على تكنولوجيا الذكاء الاصطناعى الحرجة ، ومنذ ذلك الحين فرضت المزيد من القيود ، ولكن من الواضح أن ذلك لم يوقف Deepseek. وفقًا للورقة ، قامت الشركة بتدريب نموذج V3 الخاص بها على مجموعة من 2048 NVIDIA H800 GPU – إصدارات CRIPPLED من H100.

التدريب على الرخيصة

تم إطلاق H800 في مارس 2023 ، للامتثال لقيود التصدير الأمريكية إلى الصين ، ويتميز بنسبة 80 جيجابايت من ذاكرة HBM3 مع عرض النطاق الترددي 2 تيرابايت.

يتخلف عن أحدث H200 ، والذي يوفر 141 جيجابايت من ذاكرة HBM3E وعرض نطاق 4.8 تيرابايت/ثانية ، و Mi325x الغريزي AMD الذي يفوق كلاهما مع 256 جيجابايت من ذاكرة HBM3E وعرض 6TB/S.

كل عقدة في المجموعة Deepseek تدربت على المنازل 8 وحدات معالجة الرسومات المتصلة بواسطة NVLink و NVSwitch للاتصال داخل العقدة ، في حين تعالج Infiniband اتصالات التواصل بين العقد. يحتوي H800 على نطاق النطاق الترددي NVLink أقل مقارنة بـ H100 ، وهذا ، بشكل طبيعي ، يؤثر على أداء الاتصالات متعددة GPU.

تطلب Deekseek-V3 ما مجموعه 2.79 مليون ساعة من GPU ساعة لتدريب ما قبل الرموز الرموز الرموز المميزة 14.8 تريليون ، باستخدام مزيج من خط الأنابيب والموازية للبيانات ، وتحسين الذاكرة ، وتقنيات القياس المبتكرة.

المنصة التاليةيقول: “بتكلفة 2 دولار لكل ساعة GPU – ليس لدينا أي فكرة عما إذا كان هذا هو السعر السائد في الصين – بتكلفة 2 دولار لكل ساعة GPU –

كاتب

Radar Tech website

التدريب على الرخيصة

كاتب

Leave a Comment Cancel reply