ハウウェイクラウドの計算力が新たな大きな突破を遂げた!

最近終了したハウウェイコネクト2025会議では、多数の新技術革新が発表された。

これは、2025年4月に正式リリースされたCloudMatrix384スーパーノードから半年しか経っていないが、その能力は継続的に進化している:

2025年4月、CloudMatrix384スーパーノードがリリースされ商用化され、芜湖データセンターでスケーリングが行われた。2025年6月には、CloudMatrix384スーパーノードを基盤とした新世代のAscend AIクラウドサービスが全面的に開始された。2025年9月には、TokensサービスがCloudMatrix384スーパーノードと完全統合され、複雑な下位技術実装を効果的に遮断し、ユーザーに最終的なAI計算結果を直接提供するようになった。

現在、AI業界は依然として計算力に関する不安に包まれている。シリコンバレーの大手企業は最近、計算力やチップ分野で活発に動き始めている:

OpenAIは自社のAIチップを開発しながら、Oracleに対して300億ドル規模の計算力取引を提案している。マスク氏は100日で1万枚のスーパーコンピュータクラスタを構築し、100万枚への拡大を目指している一方で、静かにチップ開発計画も進めている。メタ、AWSなども積極的にさらなる計算力リソースを求めている。しかし、計算力の開発は一朝一夕で達成できるものではない。単一技術の究極的な突破が必要であり、チップ、ハードウェア、アーキテクチャ、ソフトウェア、ネットワーク、エネルギー、および全体的な産業エコシステムの協調的進化を伴う。

世界中を見渡すと、強力な計算力を供給できるサプライヤーはすべて数十年にわたる蓄積と積み重ねに依存している。

ハウウェイクラウドもその一つであり、業界の段階によって特に深い探求の道を歩んでいる:計算力運用のルールを再定義するだけでなく、

計算の主な部分はKungpeng Cloudビジネスであり、ハウウェイクラウドが独自開発したKungpengプロセッサ(ARMアーキテクチャ)に基づいており、一般的な計算シナリオ向けのシリーズのクラウドサービス製品を提供し、産業の知能化イノベーションを促進している。Kungpeng Cloudは、ソフトウェアとハードウェアの協働において包括的なイノベーションを達成しており、マルチコア高並列チップ設計、統合された「Qingtian」アーキテクチャ、ハウェイクラウドのインテリジェントスケジューリングプラットフォームとオペレーティングシステムの深層最適化に至るまで、Kungpeng Cloudサービスは「出荷直後」の強力な計算力を解放している。現在、クラウド上のKungpengコア数は900万以上から1500万に増加し、67%の増加を記録している。同時に、主流のアプリケーションソフトウェアとの完全互換性を確保し、25,000以上のアプリケーションに対応し、ARMエコシステムの繁栄に堅固なサポートを提供している。これはハウェイクラウドの「計算ブラックソイル」の一般的なアーキテクチャである。このシステムにより、ハウェイクラウドは大規模モデル時代におけるAIの導入ニーズに応じて、より明確かつ具体的にアップグレードでき、業界により効率的で使いやすく信頼性のある計算力を提供できる。AI時代において、トークンで計算を定義するAIの需要が高まり、ハウェイクラウドは今年、CloudMatrix384超ノードを基盤としたトークンサービスを正式にリリースした。これはAI大規模モデル推論シナリオに焦点を当て、実際のトークン消費に基づいて料金を支払うクラウドサービスモデルである。従来のクラウドコンピューティング課金方法とは異なり、AI推論のコストを大幅に削減できる。このモデル調整は、大規模モデルの導入に関する詳細な洞察に基づいている。トークンはテキストをデジタルベクトルに変換したものであり、大規模モデルのコンテンツ処理量はトークンで計算される。これは大規模モデル時代の自然な測定単位である。AIの導入プロセスが進むにつれて、トークンの消費は指数関数的に増加している。データによると、2024年初頭の中国での1日の平均トークン消費量は1000億に達し、今年6月末には1日の平均トークン消費量が3兆を超えた。わずか1年半で300倍以上増加した。明らかに、トークンは技術分野での単なる計算単位ではなく、大規模モデルの実際の消費であり、大規模モデルの導入を測定する重要な指標であり、GPU計算力、メモリ、計算時間の裏にある使用状況を直接反映することができる。トークンを課金単位として使うことは徐々に業界の共通認識になってきている。一方では、企業が実際に使用したリソースをより正確に計算し、ユーザーが実際の消費のみを支払うことができ、実際の消費を通じてコスト構成を理解することでコストをさらに最適化できる。他方では、異なるシナリオにおけるトークン消費の大きな格差による不公正な課金問題を解決し、クラウドベンダーが動的に計算リソースを調整するための参考となる。例えば、オンライン、ニアライン、オフラインなどのシナリオでは、長文生成タスクは日常的なオフィスシナリオに適しており、昼間は高い利用率を示し、夜間はほぼ静かになるため、課金方式を「使用ごとに支払う」方式にすることが時間ベースまたはカードベースの課金よりも合理的である。インテリジェントカスタマーサービスやAIアシスタントなどのシナリオでは、異なるサブシナリオの会話回数や深さが予測できないため、トークンサービスモデルは各インタラクションのコストをより正確に計算できる。一方で、トークンサービスは複雑な下位技術実装を効果的に遮断する。ユーザーはチップのプロセス技術、サーバーの生成などの複雑なハードウェアテクノロジースタックについて気にする必要はなく、推論フレームワークやモデル配置などの複雑なソフトウェアテクノロジースタックについても気にする必要はない。直接、AIの「最終的な結果」を効率的に得ることができる。HC2025会議で、ハウェイクラウドはCloudMatrix384 AIトークン推論サービスの全面的なリリースを発表した。これはAI計算力が「極限性能と効率」を特徴とする新しい段階に入ったことを意味し、NVIDIA H20を3〜4倍上回る性能を備えている。この下位技術は主にCloudMatrix384超ノードとxDeepServe分散推論フレームワークに依存している。まず、CloudMatrix384超ノードは完全なピアツーピア接続アーキテクチャと高速通信技術を使用しており、計算と通信において顕著な優位性を持ち、より極限的な計算力を解放できる。CloudMatrix384超ノードはハウェイクラウドが独自開発したMatrixLink高速ピアツーピア接続ネットワークを使用して、384個のAscend NPUと192個のKungpeng CPUを密接に結合し、論理的に統一されたスーパー「AIサーバー」として形成されている。Scale Out方法を用いることで、160,000枚以上のカードを含むAIクラスターを構成することも可能で、1300億パラメータの大規模モデルのトレーニングや数千モデルの推論をサポートする。今後、ハウェイの最新のAIサーバー計画に基づき、CloudMatrix超ノードの仕様はさらに向上し、8192に達し、100万枚のカードを持つAIクラスターを形成する予定である。第二に、「すべてをプール化できる」というコンセプトに基づき、ハウェイクラウドは革新的なEMSエラスティックメモリストレージサービスを使用して、NPUグラフィックスメモリ、CPUメモリ、ストレージリソースを分離し、統一されたリソースプールを形成する。NPUはリモートでプールされたメモリに直接アクセスでき、グラフィックスメモリの独立した拡張を実現し、多ラウンド会話トークンの遅延を大幅に削減する。同時に、計算、ストレージ、ネットワークリソースは負荷要件に応じて動的に組み合わせられ、リソース利用率が向上する。この技術は多ラウンド質問応答シナリオに大きな影響を与える。大規模モデルが多ラウンド質問応答を行うとき、応答が遅くなるのは、モデルが各ラウンドで生成されたデータを「記憶」する必要があるためで、回答の連続性を保証するためである。質問応答のラウンド数が増えるにつれて、計算量が倍増し、応答遅延が生じる。EMSサービスはこの問題を効果的に解決する。第三に、PDC分離と動的なPD:PDC(Prefill-Decode-Caching)分離は、PrefillとDecodeをそれぞれのクラスターに固定し、MatrixLink高速ピアツーピア接続ネットワークのグローバルアドレス指定機能を利用して、独立したKVキャッシュクラスターを構築する。これにより、NPUのPrefillクラスターまたはDecodeクラスターは、独立したKVキャッシュクラスターの共有メモリキャッシュに直接アクセスできるようになり、データの物理的場所の制約を突破し、負荷バランス、NPU利用率、メモリ利用率を大幅に向上させ、より大きな柔軟性を提供する。システムはまた、推論業務の負荷を正確かつリアルタイムで分析または予測できる。第四に、CloudMatrix384超ノードは主流のMoEアーキテクチャに特化して設計されており、「1枚のカード、1人の専門家」の分散推論モードをサポートし、MoEモデルの専門家モジュールを異なるNPUカードに分散して並列処理する。例えば、256人の専門家は256枚のカードに対応し、通信遅延による通信遅延や電力浪費を減らし、各カードの重み読み込み遅延を減らし、重みのメモリ占有を減らし、カードあたりの並列パス数を大幅に改善する。トークンサービスがCloudMatrix384超ノードと完全に接続されると、企業ユーザーは最適なパフォーマンス、良いサービス、高品質な「最終的なAI計算結果」を取得でき、アプリケーションやビジネスイノベーションにさらに注力できるようになる。

Choose a language:

By WMCN

Leave a Reply

Your email address will not be published. Required fields are marked *