وصلت قوة حسابات سحابة هواوي إلى اختراق كبير آخر!
خلال مؤتمر هواوي كونكت 2025 الذي انتهى مؤخرًا، تم الإعلان عن تطورات جديدة
هذا بعد نصف سنة فقط من الإطلاق الرسمي لوحدة السحابة العظمى CloudMatrix384 في أبريل 2025، خلالها استمرت قدراتها في التطور:
في أبريل 2025، تم إطلاق وحدة السحابة العظمى CloudMatrix384 وبيعها، مع توسع في مركز بيانات ووهو؛ وفي يونيو 2025، تم إطلاق خدمة الحوسبة الذكية Ascend للجيل الجديد بناءً على وحدة السحابة العظمى CloudMatrix384 بشكل كامل؛ وفي سبتمبر 2025، تم دمج خدمة Tokens بشكل كامل مع وحدة السحابة العظمى CloudMatrix384، مما يحمي بشكل فعال التعقيد في التنفيذ التقني الأساسي ويقدم للمستخدمين النتائج النهائية لحسابات الذكاء الاصطناعي مباشرة.
حتى الآن، ما زال قطاع الذكاء الاصطناعي مغطى بالقلق بشأن قوة الحساب. شركات مثل سيلكون فالي كانت نشطة مؤخرًا في مجالات قوة الحساب والشرائح:
تقوم OpenAI بتطوير شريحة ذكاء اصطناعي خاصة لها بينما تطرح صفقة بقيمة 300 مليار دولار مع Oracle لقوة الحساب؛ وقد أنشأ ماسك مجموعة حواسيب عظمى ببطاقات 10,000 في مائة يوم وخطط لتوسيعها إلى مليون بطاقة، كما أنه يخطط أيضًا بشكل سري لتطوير الشريحة؛ وتسعى شركات مثل Meta و AWS وغيرها إلى الحصول على موارد أكثر لقوة الحساب... ومع ذلك، لا يمكن تحقيق تطوير قوة الحساب في يوم واحد. يتطلب هذا كسرًا رئيسيًا في التكنولوجيا الفردية ويتضمن تطورًا تعاونيًا للشرائح، والعتاد، والبنية المعمارية، والبرامج، والشبكات، والطاقة، وجميع صناعات النظام البيئي.
Looking globally, suppliers that can output powerful computing power all rely on decades of sedimentation and accumulation.
تعتبر سحابة هواوي واحدة من الأعضاء، ولديها مسار استكشاف عميق بسبب مرحلة الصناعة: فهي لا تحتاج فقط إلى إعادة تعريف قواعد تشغيل قوة الحساب في
الجزء الرئيسي من الحساب هو أعمال سحابة كونغبينغ، والتي تعتمد على معالج كونغبينغ الخاص بهواوي (معارضة ARM)، وتقدم سلسلة من منتجات خدمات السحابة لسيناريوهات الحساب العامة، وتعزز الابتكار الصناعي الذكي. حققت سحابة كونغبينغ ابتكارًا شاملًا في التعاون بين البرمجيات والأجهزة، من تصميم المعالج متعدد النوى والتنافس العالي، إلى البنية المعمارية "تشينغتيان" المتكاملة، بالإضافة إلى التحسين العميق لمنصة التخطيط الذكي لسحابة هواوي وأنظمة التشغيل، وتطلق خدمات سحابة كونغبينغ قوة الحساب القوية "من الصندوق". في الوقت الحالي، زاد عدد أنوية كونغبينغ على السحابة من أكثر من 9 ملايين إلى 15 مليونًا، بزيادة 67%. في نفس الوقت، فهي متوافقة تمامًا مع برامج التطبيق الرئيسية، حيث تم تكييف أكثر من 25000 تطبيق، مما يوفر دعمًا قويًا لازدهار نظام ARM. هذه هي البنية العامة لـ "أرض الحساب" الخاصة بسحابة هواوي. ضمن هذا النظام، يمكن لسحابة هواوي تحديث أكثر وضوحًا وتحديدًا وفقًا لاحتياجات تطبيق النماذج الكبيرة في عصر النماذج الكبيرة، وتوفير قوة حسابية أكثر كفاءة وسهولة واستقرارًا للصناعة. في عصر الذكاء الاصطناعي، تحدد طلب الذكاء الاصطناعي باستخدام Tokens، مما دفع سحابة هواوي لإطلاق خدمة Tokens بناءً على وحدة السحابة العظمى CloudMatrix384 هذا العام. هذه نموذج خدمة سحابة موجه لسيناريوهات الاستنتاج للنماذج الكبيرة للذكاء الاصطناعي وتحسب بناءً على استهلاك Token الفعلي. مختلف عن طريقة الدفع التقليدية للحوسبة السحابية، يمكن أن تقلل بشكل كبير من تكلفة استنتاج الذكاء الاصطناعي. إن هذه التكيفات في النموذج تستند إلى رؤى دقيقة حول تطبيق النماذج الكبيرة. Tokens هي تحويل النص إلى متجهات رقمية، ويتم حساب حجم تدفق المحتوى للنماذج الكبيرة بالTokens، وهو وحدة القياس الطبيعية في عصر النماذج الكبيرة. مع تقدم عملية تطبيق الذكاء الاصطناعي، زاد استهلاك Tokens بشكل أسي. تظهر البيانات أن استهلاك Token اليومي المتوسط في الصين في أوائل عام 2024 كان 100 مليار، وبحلول نهاية يونيو هذا العام، تجاوز استهلاك Token اليومي المتوسط 3 تريليونات، زيادة أكثر من 300 مرة في أقل من عام ونصف. من الواضح أن Tokens لم تعد مجرد وحدة حساب في المجال التقني، بل أصبحت أيضًا استهلاكًا حقيقيًا للنماذج الكبيرة، وهي مرجع أساسي لقياس تطبيق النماذج الكبيرة، ويمكن أيضًا أن تعكس بشكل مباشر استخدام قوة حساب GPU والذاكرة والوقت الحسابي وراءها. استخدام Tokens كوحدة دفع يصبح تدريجيًا اتفاقًا صناعيًا: من ناحية، يمكنه حساب الموارد المستخدمة من قبل الشركات بشكل أكثر دقة، مما يسمح للمستخدمين بدفع فقط مقابل الاستهلاك الفعلي، وتحسين التكاليف بشكل أكبر من خلال فهم تركيبة التكاليف من خلال الاستهلاك الفعلي؛ من ناحية أخرى، يمكنه حل مشكلة التسعير غير العادل الناتجة عن الفرق الكبير في استهلاك Tokens في سيناريوهات مختلفة، وتقديم مرجع لشركات توريد السحابة لتعديل الموارد الحسابية بشكل ديناميكي. على سبيل المثال، في السيناريوهات مثل عبر الإنترنت، والقرب من الخط، والخارج: مهام إنشاء النص الطويل مناسبة لسيناريوهات المكتب اليومي، مع استخدام عالي خلال النهار وصامت تقريبًا في الليل، مما يجعل دفع حسب الاستخدام أكثر معقولية من دفع حسب الوقت أو البطاقة؛ في السيناريوهات مثل خدمة العملاء الذكية ومساعدي الذكاء الاصطناعي، فإن عدد جولات المحادثة وعمق الظروف الفرعية المختلفة غير مؤكد، ويمكن لنموذج خدمة Tokens حساب تكلفة كل تفاعل بدقة. من ناحية أخرى، يمكن لخدمات Tokens حماية تنفيذ التكنولوجيا المعقدة في الخلفية. لا يحتاج المستخدمون إلى الاهتمام بعملية تكنولوجيا الشريحة، أو إنشاء الخوادم، وغيرها من الطبقات التقنية المعقدة للأجهزة، ولا يحتاجون إلى الاهتمام بالطبقات التقنية المعقدة للبرمجيات مثل إطار العمل للاستنتاج ونشر النموذج. يمكنهم الحصول بفعالية على "النتيجة النهائية لذكاء الآلة" مباشرة. في مؤتمر HC2025، أعلنت سحابة هواوي عن إطلاق خدمة استنتاج Tokens للذكاء الاصطناعي بناءً على وحدة السحابة العظمى CloudMatrix384. وهذا يعني أن قوة حسابات الذكاء الاصطناعي دخلت مرحلة جديدة تتميز بـ "الأداء والكفاءة المتطرفة"، حيث تفوق أداءها أداء NVIDIA H20 بثلاثة إلى أربعة أضعاف. تعتمد التكنولوجيا الأساسية بشكل رئيسي على وحدة السحابة العظمى CloudMatrix384 ونموذج التوزيع xDeepServe للاستنتاج. أولاً، تستخدم وحدة السحابة العظمى CloudMatrix384 بنية توصيل متساوي الطرف (P2P) بالكامل والتكنولوجيا الاتصال السريع، والتي لديها مزايا كبيرة في الحساب والاتصال، ويمكنها إطلاق قوة حسابية أكثر تطرفاً. تستخدم وحدة السحابة العظمى CloudMatrix384 شبكة الاتصال عالية السرعة MatrixLink الخاصة بسحابة هواوي لتوصيل 384 NPU Ascend و 192 CPU Kungpeng بشكل وثيق، مما يشكل خادمًا عظيمًا "ذكاء اصطناعي" منطقيًا. من خلال طريقة Scale Out، يمكن أيضًا تكوينه إلى مجموعة حواسيب عظمى تتكون من أكثر من 16000 بطاقة، مما يدعم تدريب نموذج كبير بـ 1300 مليار معلمة أو استنتاج آلاف النماذج. في المستقبل، بناءً على خطة سحابة هواوي الأخيرة للخوادم الذكية، سيتم ترقية مواصفات وحدة السحابة العظمى CloudMatrix إلى 8192، مما يشكل مجموعة حواسيب عظمى ببطاقة مليون. ثانيًا، بناءً على مفهوم "كل شيء يمكن تجميعه"، تستخدم سحابة هواوي خدمة التخزين المرنة EMS لفصل ذاكرة NPU الرسومية وذاكرة CPU والموارد التخزينية، مما يشكل حوضًا موحدًا للموارد. يمكن لـ NPU الوصول عن بعد إلى الذاكرة المجمعة، مما يحقق توسعًا مستقلًا لذاكرة الرسومات، ويقلل بشكل كبير تأخير Tokens في المحادثات متعددة الجولات. في نفس الوقت، يمكن دمج الموارد الحسابية والتخزينية والشبكة بشكل ديناميكي وفقًا لمتطلبات الحمل، مما يحسن استخدام الموارد. لهذه التكنولوجيا تأثير كبير على سيناريوهات الأسئلة والأجوبة متعددة الجولات. عندما تقوم النماذج الكبيرة بأسئلة وأجوبة متعددة الجولات، تصبح الإجابة أبطأ مع زيادة عدد الجولات. السبب هو أن النموذج الكبير يحتاج إلى "تذكر" البيانات التي تم إنشاؤها في كل جولة لضمان استمرارية الإجابة. عندما تزداد عدد جولات الأسئلة والأجوبة، تضاعف كمية الحساب، مما يؤدي إلى تأخير الإجابة. يمكن لخدمة EMS حل هذه المشكلة بشكل فعال. ثالثًا، فصل PDC وديناميكية PD: فصل PDC (Prefill-Decode-Caching) هو تثبيت Prefill وDecode في مجموعات مخصصة، والاستفادة من ميزة العنوان العالمي لشبكة الاتصال عالية السرعة MatrixLink لبناء مجموعة مخصصة لتخزين KV. بهذه الطريقة، سواء كانت مجموعة Prefill أو مجموعة Decode لـ NPU، يمكنها الوصول مباشرة إلى ذاكرة التخزين المشتركة لمجموعة تخزين KV المخصصة، مما يتجاوز قيود الموقع الجغرافي للبيانات، ويزيد بشكل كبير توازن الحمل، واستخدام NPU وذاكرة التخزين، مع توفير مرونة أكبر. يمكن للنظام أيضًا تحليل أو توقع حمل الأعمال الاستنتاجية بدقة ووقت حقيقي. رابعًا، تم تصميم وحدة السحابة العظمى CloudMatrix384 خصيصًا لمعيار MoE الشائع، وتدعم نموذج الاستنتاج الموزع "بطاقة واحدة، خبير واحد"، وتوزع وحدات الخبراء لنموذج MoE على بطاقات NPU مختلفة لمعالجة متوازٍ. على سبيل المثال، 256 خبيرًا تقابل 256 بطاقة، مما يقلل من تأخير الاتصال والهدر الناتج عن تأخير الاتصال، ويقلل من تأخير تحميل المواصفات على كل بطاقة، ويقلل من استهلاك ذاكرة المواصفات، مما يحسن بشكل كبير عدد المسارات المتوازية لكل بطاقة. عندما تكون خدمة Tokens متصلة تمامًا بوحدة السحابة العظمى CloudMatrix384، يمكن للمستخدمين المؤسسيين الحصول على "نتيجة الحساب الذكاء الاصطناعي النهائية" المطلوبة لصناعات مختلفة بأداء مثالي وخدمة جيدة وجودة عالية، مما يسمح لهم بالتركيز أكثر على التطبيق والابتكار في الأعمال.