Die Rechenleistung von Huawei Cloud erreicht einen weiteren bedeutenden Durchbruch!

Bei der kürzlich abgeschlossenen Huawei Connect 2025-Konferenz wurden eine Reihe neuer Fortschritte angekündigt

Dies ist nur ein halbes Jahr nach der offiziellen Veröffentlichung des CloudMatrix384-Supernodes im April 2025, in dem sich seine Fähigkeiten kontinuierlich weiterentwickelt haben:

Im April 2025 wurde der CloudMatrix384-Supernode veröffentlicht und kommerzialisiert und skalierte am Wuhu-Datenzentrum; im Juni 2025 wurden die neuen Generationen der Ascend AI-Cloud-Dienste auf Basis des CloudMatrix384-Supernodes vollständig gestartet; im September 2025 wurde der Tokens-Dienst vollständig mit dem CloudMatrix384-Supernode integriert, wodurch die komplexe unterliegende Technologieeffizienz effektiv abgeschirmt und den Nutzern direkt die endgültigen KI-Rechenergebnisse bereitgestellt werden.

Derzeit ist die KI-Branche immer noch von der Sorge um Rechenleistung geprägt. Die Silicon Valley-Giganten sind in den letzten Monaten aktiv im Bereich Rechenleistung und Chips tätig:

OpenAI entwickelt seinen eigenen KI-Chip und schlägt gleichzeitig einen 300 Milliarden Dollar schweren Deal mit Oracle für Rechenleistung vor; Musk hat innerhalb von hundert Tagen einen Superrechnercluster mit 10.000 Karten gebaut und plant, ihn auf eine Million Karten auszubauen, während er zudem still seine Chippläne vorbereitet; Meta, AWS und andere Unternehmen suchen ebenfalls aktiv nach mehr Rechenleistungsressourcen… Allerdings wird die Entwicklung von Rechenleistung nicht über Nacht erreicht. Sie erfordert einen ultimativen Durchbruch bei einzelnen Technologien und beinhaltet die kooperative Evolution von Chips, Hardware, Architektur, Software, Netzwerk, Energie und dem gesamten Industriekosystem.

Auf globaler Ebene verlassen sich alle Lieferanten, die leistungsstarke Rechenleistung liefern können, auf Jahrzehnte der Ansammlung und Erfahrung.

Huawei Cloud, als eines der Mitglieder, hat aufgrund des Branchenstandards einen besonders tiefgründigen Erkundungsweg: es muss nicht nur die Regeln der Rechenleistungsoperation neu definieren, sondern auch

Der Hauptteil der Berechnung ist der Kungpeng Cloud-Geschäftsbereich, basierend auf dem selbstentwickelten Kungpeng-Prozessor (ARM-Architektur) von Huawei Cloud, der eine Reihe von Cloud-Service-Produkten für allgemeine Computing-Szenarien bereitstellt und die industrielle Intelligenzinnovation fördert. Kungpeng Cloud hat umfassende Innovationen in der Zusammenarbeit von Software und Hardware erzielt, von der Entwurf von Multi-Core-Hochkonkurrenz-Chips, der integrierten „Qingtian“-Architektur bis hin zur tiefen Optimierung von Huawei Clouds intelligentem Scheduling-Plattform und dem Betriebssystem. Kungpeng Cloud setzt die starke Rechenleistung von „aus der Box“ frei. Derzeit ist die Anzahl der Kungpeng-Kerne auf der Cloud von über 9 Millionen auf 15 Millionen angestiegen, was einer Steigerung von 67 % entspricht. Gleichzeitig ist es vollständig kompatibel mit den meisten Anwendungssoftware, wobei über 25.000 Anwendungen angepasst wurden und somit eine solide Unterstützung für die Blüte der ARM-Ecosystems bietet. Dies ist die allgemeine Architektur von Huaweis „Rechen-Schwarzer Boden“. Unter diesem System kann Huawei Cloud sich klarer und spezifischer gemäß den Anforderungen der KI-Implementierung im Zeitalter großer Modelle aktualisieren und der Branche effizientere, leichter zu nutzende und zuverlässige Rechenleistung bieten. Im KI-Zeitalter hat die Nachfrage nach KI, definiert durch Tokens, dazu geführt, dass Huawei Cloud diesen Jahr offiziell den Tokens-Dienst auf Basis des CloudMatrix384-Ultra-Nodes gestartet hat. Dies ist ein Cloud-Dienstmodell, das auf KI-Großmodell-Inferenzszenarien ausgerichtet ist und nach dem tatsächlichen Token-Verbrauch abrechnet. Im Gegensatz zum traditionellen Cloud-Computing-Billing-Modell kann es die Kosten für KI-Inferenz erheblich reduzieren. Diese Modelländerung basiert auf detaillierten Einblicken in die Implementierung großer Modelle. Tokens sind die Umwandlung von Text in digitale Vektoren, und die Kapazität der Inhaltsdurchsatzgroßen großer Modelle wird in Tokens berechnet, was die natürliche Maßeinheit im Zeitalter großer Modelle ist. Mit dem Fortschritt des KI-Implementierungsprozesses steigt der Token-Verbrauch exponentiell. Daten zeigen, dass der tägliche Durchschnittsverbrauch an Tokens in China im Frühjahr 2024 bei 100 Milliarden lag und bis Ende Juni dieses Jahres den täglichen Durchschnittsverbrauch auf über 3 Billionen erhöht hat, was in etwas mehr als einem Jahr und einem Halb mehr als 300 Mal gestiegen ist. Offensichtlich sind Tokens nicht mehr nur eine Berechnungseinheit im technischen Bereich, sondern auch die tatsächliche Nutzung großer Modelle, ein wichtiger Referenzwert für die Bewertung der Implementierung großer Modelle und können auch direkt die Nutzung von GPU-Rechenleistung, Speicher und Rechenzeit hinter ihnen widerspiegeln. Die Verwendung von Tokens als Abrechnungseinheit wird zunehmend zur Branchenmeinung: auf der einen Seite kann sie die Ressourcen genauer berechnen, die von Unternehmen verwendet werden, sodass Benutzer nur für den tatsächlichen Verbrauch zahlen und durch das Verständnis der Kostenstruktur durch den tatsächlichen Verbrauch die Kosten weiter optimieren können; auf der anderen Seite kann sie das Problem der unfairen Abrechnung lösen, das durch den großen Unterschied im Token-Verbrauch in verschiedenen Szenarien entsteht, und bietet eine Referenz für Cloud-Anbieter, um dynamisch Rechenressourcen anzupassen. Zum Beispiel in Szenarien wie Online, Near-Line und Offline: Aufgaben zur langen Textgenerierung eignen sich für tägliche Büro-Szenarien, mit hoher Nutzung tagsüber und fast stille nachts, wodurch das Pay-as-you-go-Billing-Modell vernünftiger ist als zeitbasiertes oder Karten-basiertes Billing; in Szenarien wie intelligenter Kundenservice und KI-Assistenten sind die Gesprächsrunden und Tiefe unterschiedlicher Unterkontexte unbestimmbar, und das Tokens-Dienstmodell kann die Kosten jeder Interaktion präziser berechnen. Andererseits können Token-Dienste komplexe unterliegende Technologieimplementierungen effektiv abschirmen. Benutzer müssen sich nicht um den Prozess der Chip-Technologie, die Generierung des Servers und andere komplexe Hardware-Technologie-Stacks kümmern, noch um komplexe Software-Technologie-Stacks wie Inferenz-Frameworks und Modell-Deployment. Sie können direkt die „Endresultate der KI“ effizient erhalten. Bei der HC2025-Konferenz gab Huawei Cloud die vollständige Einführung des CloudMatrix384 AI-Token-Inferenz-Dienstes bekannt. Dies bedeutet, dass die KI-Rechenleistung einen neuen Stadium betreten hat, das durch „extreme Leistung und Effizienz“ gekennzeichnet ist, wobei die Leistung 3-4-mal höher ist als die von NVIDIA H20. Die zugrunde liegende Technologie beruht hauptsächlich auf dem CloudMatrix384 Ultra-Node und dem xDeepServe verteilten Inferenz-Framework. Zunächst verwendet der CloudMatrix384 Ultra-Node eine vollständig peer-to-peer-Interkonnektionsarchitektur und Hochgeschwindigkeitskommunikationstechnologie, was erhebliche Vorteile in Bezug auf Berechnung und Kommunikation hat und mehr extreme Rechenleistung freisetzen kann. Der CloudMatrix384 Ultra-Node verwendet das eigene Huawei Cloud MatrixLink Hochgeschwindigkeits-Peer-to-Peer-Interkonnektionsnetzwerk, um 384 Ascend NPUs und 192 Kungpeng CPUs eng zu koppeln und ein logisch vereinheitlichtes Super-„KI-Server“ zu bilden. Durch die Scale-Out-Methode kann es auch zu einem KI-Cluster mit mehr als 160.000 Karten zusammengesetzt werden, wodurch das Training von 1300 Milliarden Parameter-Modellen oder die Inferenz von zehntausenden Modellen unterstützt wird. In Zukunft, basierend auf Huaweis neuester KI-Server-Planung, werden die Spezifikationen des CloudMatrix Ultra-Node weiter verbessert, auf 8192 erhöht und ein KI-Cluster mit einer Million Karten bildet. Zweitens, basierend auf dem Konzept „Alles kann gepoolt werden“, verwendet Huawei Cloud den innovativen EMS elastischen Speicher-Speicherdienst, um NPU-Grafikspeicher, CPU-Speicher und Speicherressourcen zu entkoppeln und einen einheitlichen Ressourcenpool zu bilden. Der NPU kann den gepoolten Speicher fernbedient direkt zugreifen und so die unabhängige Erweiterung des Grafikspeichers realisieren und die Verzögerung der mehrfachen Gesprächstoken erheblich reduzieren. Gleichzeitig können Berechnungs-, Speicher- und Netzwerkrasourcen je nach Lastanforderungen dynamisch kombiniert werden, um die Ressourcennutzung zu verbessern. Diese Technologie hat einen signifikanten Einfluss auf mehrfache Frage- und Antwort-Szenarien. Wenn große Modelle mehrfache Frage- und Antwort-Szenarien durchführen, wird die Antwort meist langsamer, je mehr Runden es gibt. Der Grund dafür ist, dass das große Modell das in jeder Runde generierte Daten „erinnern“ muss, um die Kontinuität der Antwort sicherzustellen. Wenn die Anzahl der Frage- und Antwort-Runden zunimmt, verdoppelt sich die Berechnungsmenge, was zu Antwortverzögerungen führt. Der EMS-Dienst kann dieses Problem effektiv lösen. Drittens PDC-Trennung und dynamische PD: PDC (Prefill-Decode-Caching)-Trennung bedeutet, dass Prefill und Decode in ihren jeweiligen Clustern festgelegt werden und den globalen Adressierungsmerkmalen des MatrixLink Hochgeschwindigkeits-Peer-to-Peer-Interkonnektionsnetzwerks nutzen, um einen unabhängigen KV-Cache-Cluster zu etablieren. Auf diese Weise kann sowohl der Prefill-Cluster als auch der Decode-Cluster des NPU direkt auf den gemeinsamen Speicher-Cache des unabhängigen KV-Cache-Clusters zugreifen, wodurch die physischen Standortbeschränkungen der Daten durchbrochen werden, die Lastverteilung, die NPU-Nutzung und die Speichernutzung erheblich verbessert werden, während größere Elastizität gewährleistet wird. Das System kann auch die Last des Inferenzgeschäfts genau und in Echtzeit analysieren oder vorhersagen. Viertens ist der CloudMatrix384 Ultra-Node speziell für die gängige MoE-Architektur konzipiert und unterstützt den verteilten Inferenzmodus „ein Karte, ein Experte“, wobei die Expertenmodule des MoE-Modells auf verschiedene NPU-Karten verteilt werden, um parallele Verarbeitung zu ermöglichen. Zum Beispiel entsprechen 256 Experten 256 Karten, wodurch die Kommunikationsverzögerung und der Stromverschwendung, die durch Kommunikationsverzögerung verursacht werden, reduziert werden, die Verzögerung beim Laden der Gewichte auf jeder Karte reduziert werden und die Speicherbelegung der Gewichte reduziert wird, wodurch die Anzahl der parallelen Pfade pro Karte erheblich verbessert wird. Wenn der Tokens-Dienst vollständig mit dem CloudMatrix384 Ultra-Node verbunden ist, können Unternehmensnutzer die „endgültigen KI-Rechenergebnisse“ benötigt für verschiedene Branchen mit optimaler Leistung, gutem Service und hoher Qualität erhalten und sich mehr auf Anwendung und Geschäftsinnovation konzentrieren.

Choose a language:

By WMCN

Leave a Reply

Your email address will not be published. Required fields are marked *