"DPU الظاهري داخل وحدة معالجة الرسومات": هل يمكن أن يكون اختراق الأجهزة الذكية وراء كفاءة الذكاء الاصطناعي الرائد في ديبسيك؟

يبدو أن نهجًا جديدًا يسمى Dualpipe هو مفتاح نجاح Deekseek
يصفها أحد الخبراء بأنه DPU الظاهري على GPU يزيد من كفاءة عرض النطاق الترددي إلى أقصى حد
بينما استخدم Deepseek NVIDIA GPUS فقط ، يتساءل المرء كيف ستتحقق غريزة AMD

أذهل Deepseek AI Chatbot الصيني صناعة التكنولوجيا ، مما يمثل بديلاً موثوقًا به لـ Openai’s ChatGPT في جزء صغير من التكلفة.

A ورقة حديثة تم تدريب Deepseek V3 على مجموعة من 2048 NVIDIA H800 وحدات معالجة الرسومات – الإصدارات المشلولة من H100 (لا يمكننا إلا أن نتخيل مدى قوة الأمر الذي سيتم تشغيله على مسرعات غريزة AMD!). وبحسب ما ورد تطلب 2.79 مليون ساعة من GPU ساعة لتصنيعها ، وضبطها على 14.8 تريليون رموز ، والتكلفة-وفقا للحسابات التي أجراها بواسطة المنصة التالية – مجرد 5.58 مليون دولار.

ولكن بالضبط كيف تمكن مطورو Deepseek من المحتمل أن يكون هذا العمل الفذ على الأرجح إلى اختراق ذكي.

DPU افتراضية على وحدة معالجة الرسومات نفسها

أولا ، بعض الخلفية. Deepseek هو نموذج لغة المزيج من الخبراء (MOE) المتقدم المصمم لتحسين الأداء عن طريق تنشيط الأجزاء الأكثر صلة فقط في بنية كل مهمة. يتميز الإصدار الثالث من النموذج ، Deepseek-V3 ، بما مجموعه 671 مليار معلمة ، مع تنشيط 37 مليار فقط لأي تنبؤ رمز معين. هذا التنشيط الانتقائي يقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على الأداء والدقة العالية – والتي سترى ما إذا كنت تجربها.

من السهل أن تكون متشككًا في Deepseek والمطالبات المقدمة فيما يتعلق بتدريبها ، لكن الورقة تكشف عن بعض السحر الذي توصل إليه المطورون لتحقيق أقصى استفادة من الأجهزة المعطلة التي كان عليهم العمل معها. ويشمل ذلك إنشاء خوارزمية DualPipe للتوازي الفعال لخط الأنابيب.

وفقًا للمعلومات التي نشرتها Deepseek ، يتداخل DualPipe إلى الأمام والخلف ، ويقلل من الكمون ، ويحسن حركة البيانات عبر وحدات معالجة الرسومات. من خلال إدارة الاتصالات بكفاءة ، فإنه يقلل من وقت الخمول (فقاعات خطوط الأنابيب) ويوازن بين نوى حساب GPU ديناميكيًا (المعالجات المتعددة) بين الحساب والاتصال ، ومنع اختناقات نقل البيانات كمقاييس النموذج.

معلق على المنصة التالية يصف DualPipe بأنه “إنشاء DPU الظاهري بشكل أساسي على وحدة معالجة الرسومات نفسها للتعامل مع الاتصال الشامل” ، والذي يسلط الضوء على دوره في تحسين كفاءة نقل البيانات.

تدخل الورقة إلى مزيد من التفاصيل ، “من أجل ضمان أداء حسابي كافٍ لـ DualPipe ، نقوم بتخصيص حبات الاتصالات المتقاطعة الجميعية (بما في ذلك الإرسال والدمج) للحفاظ تم تصميم هذه النواة مع خوارزمية Gating Moe وتجميع الشبكة لمجموعتنا.

مثال جدولة DualPipe — مثال على جدولة DualPipe لـ 8 PP صفوف و 20 دفعة صغيرة في اتجاهين. تتماثل الدفاعات الصغيرة في الاتجاه المعاكس لتلك الموجودة في الاتجاه الأمامي ، لذلك نحن نحذف معرف الدُفعات الخاصة بهم للحصول على بساطة التوضيح. تداخل خلايا محاطة بحدود سوداء مشتركة عن حساب واتصالات متداخلة. (الصورة الائتمان: ديكيك)

كاتب

Radar Tech website

“DPU الظاهري داخل وحدة معالجة الرسومات”: هل يمكن أن يكون اختراق الأجهزة الذكية وراء كفاءة الذكاء الاصطناعي الرائد في ديبسيك؟

DPU افتراضية على وحدة معالجة الرسومات نفسها

كاتب

Leave a Comment Cancel reply