La puissance de calcul d'Huawei Cloud atteint un autre grand progrès !
La conférence Huawei Connect 2025, qui vient de se terminer, a vu l'annonce de plusieurs avancées nouvelles
Cela fait à peine six mois depuis la sortie officielle du super-nœud CloudMatrix384 en avril 2025, pendant lesquels ses capacités ont continué à évoluer :
En avril 2025, le super-nœud CloudMatrix384 a été lancé et commercialisé, avec une mise à l'échelle au centre de données de Wuhu ; en juin 2025, les nouveaux services d'IA cloud basés sur le super-nœud CloudMatrix384 ont été pleinement lancés ; en septembre 2025, le service Tokens a été pleinement intégré au super-nœud CloudMatrix384, efficacement masquant la complexe implémentation technique sous-jacente et fournissant directement aux utilisateurs les résultats finaux de calcul d'IA.
Aujourd'hui, l'industrie de l'IA est encore enveloppée par l'anxiété liée à la puissance de calcul. Les géants de la Silicon Valley ont récemment été actifs dans les domaines de la puissance de calcul et des puces :
OpenAI développe sa propre puce d'IA tout en proposant un accord de 300 milliards de dollars avec Oracle pour la puissance de calcul ; Musk a construit un cluster de supercalculs de 10 000 cartes en cent jours et prévoit d'élargir à un million de cartes, tout en développant discrètement des plans de puces ; Meta, AWS et d'autres entreprises cherchent également activement plus de ressources de puissance de calcul… Cependant, le développement de la puissance de calcul ne s'obtient pas du jour au lendemain. Il exige une percée ultime dans la technologie individuelle et implique l'évolution collaborative des puces, du matériel, de l'architecture, du logiciel, du réseau, de l'énergie et de l'écosystème industriel entier.
À l'échelle mondiale, les fournisseurs capables de fournir une puissance de calcul puissante reposent tous sur des décennies de sédimentation et d'accumulation.
Huawei Cloud, en tant que membre, a un chemin d'exploration particulièrement profond en raison de la phase de l'industrie : il doit non seulement redéfinir les règles d'exploitation de la puissance de calcul dans le
La principale partie du calcul est l'activité Kungpeng Cloud, basée sur le processeur Kungpeng développé par Huawei (architecture ARM), offrant une série de produits de services cloud pour les scénarios de calcul général, et promouvant l'innovation industrielle intelligente. Kungpeng Cloud a réalisé une innovation globale en collaboration logicielle et matérielle, allant de la conception de puce multi-cœur à haute concurrence, à l'architecture intégrée « Qingtian », jusqu'à l'optimisation approfondie de la plateforme d'ordonnancement intelligent de Huawei Cloud et du système d'exploitation, permettant ainsi à Kungpeng Cloud de libérer la puissance de calcul « hors boîte ». Actuellement, le nombre de cœurs Kungpeng sur le cloud est passé de plus de 9 millions à 15 millions, soit une augmentation de 67 %. En même temps, il est pleinement compatible avec les logiciels d'applications courants, ayant adapté plus de 25 000 applications, fournissant un soutien solide pour la prospérité de l'écosystème ARM. C'est l'architecture générale du « sol de calcul » d'Huawei Cloud. Dans ce système, Huawei Cloud peut mettre à niveau plus clairement et spécifiquement selon les besoins d'implémentation d'IA dans l'ère des grands modèles, offrant à l'industrie une puissance de calcul plus efficace, facile à utiliser et fiable. Dans l'ère de l'IA, définir la calcul avec des Tokens La demande d'IA a conduit Huawei Cloud à lancer officiellement le service Tokens basé sur le super-nœud CloudMatrix384 cette année. C'est un modèle de service cloud orienté vers les scénarios d'inférence de grands modèles d'IA et facturé en fonction de la consommation réelle de Tokens. Contrairement à la méthode traditionnelle de facturation du cloud computing, cela peut réduire significativement le coût de l'inférence IA. Cette ajustement du modèle repose sur des analyses détaillées de l'implémentation des grands modèles. Les Tokens sont la conversion du texte en vecteurs numériques, et l'échelle du volume de contenu des grands modèles est calculée en Tokens, qui est l'unité naturelle de mesure dans l'ère des grands modèles. À mesure que le processus d'implémentation de l'IA progresse, la consommation de Tokens augmente exponentiellement. Les données montrent qu'en début d'année 2024, la consommation quotidienne moyenne de Tokens en Chine était de 100 milliards, et à la fin de juin de cette année, la consommation quotidienne moyenne de Tokens a dépassé 3 milliards, augmentant plus de 300 fois en un an et demi. Il est clair que les Tokens ne sont plus seulement une unité de calcul dans le domaine technique, mais aussi la consommation réelle des grands modèles, un indicateur clé pour mesurer l'implémentation des grands modèles, et peuvent également refléter directement l'utilisation de la puissance GPU, de la mémoire et du temps de calcul derrière eux. Utiliser les Tokens comme unité de facturation devient progressivement une consensus de l'industrie : d'une part, cela permet de calculer plus précisément les ressources utilisées par les entreprises, permettant aux utilisateurs de payer uniquement pour leur consommation réelle, et d'optimiser davantage les coûts en comprenant la composition des coûts grâce à la consommation réelle ; d'autre part, cela résout le problème de facturation injuste causé par l'écart important dans la consommation de Tokens dans différents scénarios, fournissant une référence pour les fournisseurs de cloud pour ajuster dynamiquement les ressources de calcul. Par exemple, dans les scénarios tels que en ligne, quasi en ligne et hors ligne : les tâches de génération de longs textes conviennent aux scénarios de bureau quotidien, avec une forte utilisation pendant la journée et presque silencieuse la nuit, rendant la facturation par utilisation plus raisonnable que la facturation par heure ou par carte ; dans les scénarios tels que le service client intelligent et les assistants d'IA, le nombre de tours de conversation et la profondeur des sous-situations différentes sont incertains, et le modèle de service Tokens peut calculer plus précisément le coût de chaque interaction. D'un autre côté, les services Tokens peuvent efficacement masquer les implémentations techniques complexes sous-jacentes. Les utilisateurs n'ont pas besoin de s'inquiéter du processus technologique de la puce, de la génération du serveur, et autres piles technologiques complexes du matériel, ni de s'inquiéter des piles technologiques logicielles complexes telles que les cadres d'inférence et le déploiement de modèles. Ils peuvent obtenir efficacement le « résultat final de l'IA » directement. Lors de la conférence HC2025, Huawei Cloud a annoncé le lancement complet du service d'inférence de Tokens d'IA basé sur le super-nœud CloudMatrix384. Cela signifie que la puissance de calcul d'IA a entré dans une nouvelle étape caractérisée par « des performances et une efficacité extrêmes », avec des performances supérieures de 3 à 4 fois à celles de NVIDIA H20. La technologie sous-jacente repose principalement sur le super-nœud CloudMatrix384 et le cadre d'inférence distribué xDeepServe. Tout d'abord, le super-nœud CloudMatrix384 utilise une architecture d'interconnexion pair à pair complète et une technologie de communication à haut débit, ce qui offre des avantages significatifs en termes de calcul et de communication, permettant de libérer plus de puissance de calcul extrême. Le super-nœud CloudMatrix384 utilise le réseau d'interconnexion pair à pair à haut débit MatrixLink développé par Huawei Cloud pour coupler étroitement 384 NPU Ascend et 192 CPU Kungpeng, formant un super « serveur d'IA » logiquement unifié. Grâce à la méthode Scale Out, il peut également être composé en un cluster d'IA avec plus de 160 000 cartes, supportant l'entraînement de modèles de grande taille de 1300 milliards de paramètres ou l'inférence de dizaines de milliers de modèles. À l'avenir, en se basant sur le plan le plus récent d'IA de Huawei, les spécifications du super-nœud CloudMatrix seront encore améliorées à 8192, formant un cluster d'IA avec un million de cartes. Deuxièmement, en s'appuyant sur le concept d'« tout peut être poolé », Huawei Cloud utilise le service innovant EMS de stockage mémoire élastique pour déconnecter la mémoire graphique NPU, la mémoire CPU et les ressources de stockage, formant un pool de ressources unifié. La NPU peut accéder directement à la mémoire poolée à distance, réalisant une expansion indépendante de la mémoire graphique, et réduisant significativement le délai des conversations de plusieurs tours de Tokens. En même temps, les ressources de calcul, de stockage et de réseau peuvent être combinées dynamiquement selon les exigences de charge, améliorant l'utilisation des ressources. Cette technologie a un impact important sur les scénarios de questions-réponses multiples. Lorsque les grands modèles effectuent des questions-réponses multiples, la réponse devient généralement plus lente à mesure que le nombre de tours augmente. La raison est que le grand modèle doit « se rappeler » les données générées à chaque tour pour assurer la continuité de la réponse. Lorsque le nombre de tours de questions et de réponses augmente, la quantité de calcul double, entraînant un retard dans la réponse. Le service EMS peut résoudre efficacement ce problème. Troisièmement, la séparation PDC et la PD dynamique : la séparation PDC (Prefill-Decode-Caching) consiste à solidifier Prefill et Decode dans leurs propres clusters, et à tirer parti de la fonction d'adressage global du réseau d'interconnexion pair à pair à haut débit MatrixLink pour établir un cluster KV cache indépendant. Ainsi, que ce soit le cluster Prefill ou le cluster Decode de la NPU, ils peuvent directement accéder à la mémoire cache partagée du cluster KV cache indépendant, brisant les contraintes physiques de localisation des données, améliorant significativement l'équilibrage de charge, l'utilisation de la NPU et l'utilisation de la mémoire, tout en offrant une plus grande flexibilité. Le système peut également analyser ou prédire en temps réel et avec précision la charge de l'entreprise d'inférence. Quatrièmement, le super-nœud CloudMatrix384 est spécialement conçu pour l'architecture MoE courante, prenant en charge le mode d'inférence distribuée « une carte, un expert », distribuant les modules d'expert du modèle MoE sur différentes cartes NPU pour un traitement parallèle. Par exemple, 256 experts correspondent à 256 cartes, réduisant le délai de communication et la perte d'énergie causés par le délai de communication, réduisant le délai de chargement des poids sur chaque carte, et réduisant l'occupation mémoire des poids, améliorant significativement le nombre de chemins parallèles par carte. Lorsque le service Tokens est pleinement connecté au super-nœud CloudMatrix384, les utilisateurs professionnels peuvent obtenir le « résultat final de calcul d'IA » requis pour divers secteurs avec des performances optimales, un bon service et une qualité élevée, leur permettant de se concentrer davantage sur l'application et l'innovation commerciale.