Вычислительная мощность Huawei Cloud достигла очередного важного прорыва!
На недавно завершившейся конференции Huawei Connect 2025 были объявлены новые достижения
Это всего полгода с момента официального запуска суперузла CloudMatrix384 в апреле 2025 года, за которое его возможности продолжали развиваться:
В апреле 2025 года был запущен и коммерциализирован суперузел CloudMatrix384, масштабирование которого проходило в центре данных Уху; в июне 2025 года были полностью запущены новые поколения сервисов искусственного интеллекта Ascend на основе суперузла CloudMatrix384; в сентябре 2025 года сервис Tokens был полностью интегрирован с суперузлом CloudMatrix384, эффективно скрывая сложную реализацию нижележащих технологий и напрямую предоставляя пользователям окончательные результаты вычислений искусственного интеллекта.
В настоящее время индустрия искусственного интеллекта все еще окутана тревогой по поводу вычислительной мощности. В последнее время крупнейшие компании Силиконовой долины активно занимаются вопросами вычислительной мощности и чипов:
OpenAI разрабатывает собственный чип искусственного интеллекта, одновременно предлагая Oracle сделку на 300 миллиардов долларов за вычислительную мощность; Маск за сотню дней построил суперкомпьютерный кластер из 10 000 карт и планирует расширить его до миллиона карт, одновременно тихо разрабатывая планы по созданию чипов; Meta, AWS и другие компании также активно ищут больше ресурсов вычислительной мощности... Однако развитие вычислительной мощности не происходит за один день. Оно требует фундаментального прорыва в отдельных технологиях и включает совместное эволюционирование чипов, аппаратных средств, архитектуры, программного обеспечения, сети, энергии и всей промышленной экосистемы.
По всему миру поставщики, способные предоставить мощную вычислительную мощность, опираются на десятилетнюю накопленную базу.
Huawei Cloud, как один из участников, имеет особенно глубокий путь исследования из-за этапа развития отрасли: ему необходимо не только пересмотреть правила эксплуатации вычислительной мощности в
Основная часть вычислений — это бизнес Kungpeng Cloud, основанный на саморазработанном процессоре Kungpeng Huawei (архитектура ARM), предоставляющий серию продуктов облачных услуг для общих сценариев вычислений и продвигающий инновации в индустриальной интеллектуализации. Kungpeng Cloud достиг комплексной инновации в сотрудничестве между программным и аппаратным обеспечением, от многопроцессорного высоконагруженного дизайна чипа, интегрированной архитектуры «Qingtian», до глубокой оптимизации интеллектуальной платформы управления Huawei Cloud и операционной системы. Сервисы Kungpeng Cloud освобождают мощную вычислительную мощность «из коробки». В настоящее время количество ядер Kungpeng на облаке увеличилось с более чем 9 миллионов до 15 миллионов, что составляет рост на 67%. Одновременно он полностью совместим с популярными приложениями, адаптировав более 25 000 приложений, что обеспечивает прочную поддержку процветания экосистемы ARM. Это общая архитектура «черной земли» Huawei Cloud. В этой системе Huawei Cloud может обновляться более четко и конкретно в соответствии с потребностями внедрения больших моделей в эпоху больших моделей, предоставляя отрасли более эффективную, удобную и надежную вычислительную мощность. В эпоху искусственного интеллекта определение вычислений через Tokens спрос на искусственный интеллект привело Huawei Cloud к официальному запуску сервиса Tokens на основе суперузла CloudMatrix384 в этом году. Это модель облачных услуг, ориентированная на сценарии вывода больших моделей искусственного интеллекта и взимающая плату за фактическое потребление Tokens. В отличие от традиционного метода оплаты облачных вычислений, она значительно снижает стоимость вывода искусственного интеллекта. Эта модель основана на подробных знаниях о внедрении больших моделей. Tokens представляют собой преобразование текста в цифровые векторы, а объем содержимого больших моделей рассчитывается в Tokens, что является естественной единицей измерения в эпоху больших моделей. По мере того как процесс внедрения искусственного интеллекта прогрессирует, потребление Tokens растет экспоненциально. Данные показывают, что среднее дневное потребление Tokens в Китае в начале 2024 года составляло 100 миллиардов, а к концу июня этого года среднее дневное потребление превысило 3 триллиона, увеличившись более чем в 300 раз за чуть более чем полтора года. Очевидно, что Tokens больше не являются просто единицей вычисления в технической области, но также реальным потреблением больших моделей, ключевым показателем измерения внедрения больших моделей, и могут напрямую отражать использование GPU вычислительной мощности, памяти и времени вычислений. Использование Tokens в качестве единицы оплаты становится все более общепринятым в отрасли: с одной стороны, это позволяет более точно рассчитывать используемые ресурсы предприятия, позволяя пользователям платить только за фактическое потребление, а затем оптимизировать затраты, понимая структуру затрат через фактическое потребление; с другой стороны, это решает проблему несправедливой оплаты, вызванной большим разрывом в потреблении Tokens в разных сценариях, предоставляя ориентир для облачных поставщиков для динамической настройки вычислительных ресурсов. Например, в сценариях, таких как онлайн, близкие к линии и офлайн: задачи генерации длинного текста подходят для повседневных офисных сценариев, с высоким использованием днем и почти тишиной ночью, делая оплату по мере использования более разумной, чем оплата по времени или карте; в сценариях, таких как интеллектуальное обслуживание клиентов и помощники искусственного интеллекта, количество и глубина различных подситуаций неопределенны, и модель сервиса Tokens может более точно рассчитывать стоимость каждой взаимодействия. С другой стороны, сервисы Tokens эффективно скрывают сложные реализации нижележащих технологий. Пользователям не нужно беспокоиться о процессе производства чипа, генерации сервера и других сложных аппаратных технологических стеках, а также о сложных программных технологических стеках, таких как фреймворки вывода и развертывание моделей. Они могут эффективно получить «окончательный результат искусственного интеллекта» напрямую. На конференции HC2025 Huawei Cloud объявила о полном запуске сервиса вывода искусственного интеллекта на основе Tokens CloudMatrix384. Это означает, что вычислительная мощность искусственного интеллекта вошла в новую стадию, характеризующуюся «экстремальной производительностью и эффективностью», превышающую производительность NVIDIA H20 в 3-4 раза. Основная underlying technology зависит от суперузла CloudMatrix384 и распределенной архитектуры вывода xDeepServe. Во-первых, суперузел CloudMatrix384 использует полностью peer-to-peer архитектуру соединения и высокоскоростную технологию связи, которая имеет значительные преимущества в вычислениях и связи, и может высвобождать большую экстремальную вычислительную мощность. Суперузел CloudMatrix384 использует высокоскоростную сеть peer-to-peer MatrixLink, разработанную Huawei Cloud, чтобы плотно связать 384 NPU Ascend и 192 CPU Kungpeng, образуя логически объединенный супер-сервер искусственного интеллекта. С помощью метода Scale Out он также может быть собран в AI-кластер с более чем 160 000 картами, поддерживающий обучение моделей с 1300 миллиардами параметров или вывод десятков тысяч моделей. В будущем, на основе последних планов Huawei по созданию серверов искусственного интеллекта, спецификации суперузла CloudMatrix будут дополнительно улучшены до 8192, образуя AI-кластер с миллионом карт. Во-вторых, на основе концепции «все можно объединить», Huawei Cloud использует инновационный сервис EMS эластичного хранения памяти, чтобы разделить память графического процессора NPU, память CPU и ресурсы хранения, образуя единую ресурсную биржу. NPU может напрямую обращаться к удаленной pooled памяти, реализуя независимое расширение графической памяти и значительно снижая задержку многоцикловых Tokens. В то же время вычислительные, хранилищные и сетевые ресурсы могут динамически сочетаться в соответствии с требованиями нагрузки, повышая эффективность использования ресурсов. Эта технология оказывает значительное влияние на сценарии многоциклового ответа на вопросы. Когда большие модели проводят многоцикловые ответы на вопросы, ответ обычно становится медленнее по мере увеличения количества циклов. Причина в том, что большие модели должны «запоминать» данные, полученные в каждом цикле, чтобы обеспечить непрерывность ответа. Когда количество циклов вопросов и ответов увеличивается, объем вычислений удваивается, что приводит к задержке ответа. Сервис EMS может эффективно решить эту проблему. Третий, разделение PDC и динамическое PD: разделение PDC (Prefill-Decode-Caching) заключается в том, чтобы закрепить Prefill и Decode в своих собственных кластерах, и воспользоваться функцией глобального адресования высокоскоростной сети peer-to-peer MatrixLink, чтобы создать независимый кластер KV-кэша. Таким образом, независимо от того, является ли кластер Prefill или кластер Decode NPU, они могут напрямую обращаться к общей памяти кэша независимого кластера KV-кэша, преодолевая ограничения физического расположения данных, значительно улучшая балансировку нагрузки, использование NPU и памяти, а также предоставляя большую гибкость. Система также может точно и в реальном времени анализировать или прогнозировать нагрузку на бизнес вывода. Четвертый, суперузел CloudMatrix384 специально разработан для популярной архитектуры MoE, поддерживающей распределенный режим вывода «одна карта, один эксперт», распределяя экспертов модели MoE на разные карты NPU для параллельной обработки. Например, 256 экспертов соответствуют 256 картам, что снижает задержку и потери энергии, вызванные задержкой связи, снижает задержку загрузки весов на каждой карте и уменьшает использование памяти весами, значительно повышая количество параллельных путей на карте. Когда сервис Tokens полностью связан с суперузлом CloudMatrix384, корпоративные пользователи могут получить «окончательный результат вычислений искусственного интеллекта», необходимый для различных отраслей, с оптимальной производительностью, хорошим обслуживанием и высоким качеством, позволяя им сосредоточиться на применении и инновациях в бизнесе.