A Potência de Computação da Huawei Cloud Atinge Outro Grande Avanço!
A conferência Huawei Connect 2025, recentemente concluída, anunciou uma série de novos avanços
Isso foi apenas meio ano desde o lançamento oficial do super-nó CloudMatrix384 em abril de 2025, durante o qual suas capacidades continuaram a evoluir:
Em abril de 2025, o super-nó CloudMatrix384 foi lançado e comercializado, escalando no centro de dados de Wuhu; em junho de 2025, os novos serviços de nuvem de inteligência artificial Ascend baseados no super-nó CloudMatrix384 foram totalmente lançados; em setembro de 2025, o serviço Tokens foi totalmente integrado ao super-nó CloudMatrix384, efetivamente protegendo a complexa implementação tecnológica subjacente e fornecendo diretamente aos usuários os resultados finais de computação de inteligência artificial.
Atualmente, a indústria de inteligência artificial ainda está envolta na ansiedade da potência de cálculo. Gigantes de Silicon Valley têm estado ativos nos campos de potência de cálculo e chips recentemente:
OpenAI está desenvolvendo seu próprio chip de inteligência artificial enquanto propõe um acordo de 300 bilhões de dólares com a Oracle para potência de cálculo; Musk construiu um cluster de supercomputação com 10.000 placas em cem dias e planeja escalar para um milhão de placas, enquanto também secretamente planeja a produção de chips; Meta, AWS e outras empresas também estão ativamente buscando mais recursos de potência de cálculo... No entanto, o desenvolvimento da potência de cálculo não é alcançado da noite para o dia. Requer uma quebra final em tecnologia pontual e envolve a evolução colaborativa de chips, hardware, arquitetura, software, rede, energia e todo o ecossistema industrial.
Globalmente, os fornecedores que podem oferecer potência de cálculo poderosa dependem de décadas de sedimentação e acumulação.
Huawei Cloud, como um dos membros, tem um caminho de exploração particularmente profundo devido à fase da indústria: não só precisa redefinir as regras da operação de potência de cálculo no
A parte principal do cálculo é o negócio Kungpeng Cloud, baseado no processador Kungpeng desenvolvido pela própria Huawei (arquitetura ARM), fornecendo uma série de produtos de serviço em nuvem para cenários de computação geral e promovendo inovação industrial inteligente. O Kungpeng Cloud alcançou inovação abrangente em colaboração entre software e hardware, desde o design de chip de alta concorrência multi-núcleo, a arquitetura integrada "Qingtian", até a otimização profunda da plataforma de agendamento inteligente da Huawei Cloud e do sistema operacional, os serviços Kungpeng Cloud liberam a potência de cálculo poderosa "pronta para uso". Atualmente, o número de núcleos Kungpeng na nuvem aumentou de mais de 9 milhões para 15 milhões, um aumento de 67%. Ao mesmo tempo, é totalmente compatível com o software de aplicativos principais, tendo adaptado mais de 25.000 aplicações, fornecendo suporte sólido para a prosperidade do ecossistema ARM. Este é o arquitetura geral do "solo de cálculo" da Huawei Cloud. Sob este sistema, a Huawei Cloud pode atualizar-se mais claramente e especificamente de acordo com as necessidades de implantação de IA na era dos grandes modelos, fornecendo à indústria uma potência de cálculo mais eficiente, fácil de usar e confiável. Na era da IA, definir a computação com Tokens a demanda por IA levou a Huawei Cloud a lançar oficialmente o serviço Tokens baseado no super-nó CloudMatrix384 este ano. Este é um modelo de serviço em nuvem orientado para cenários de inferência de grandes modelos de IA e cobrança com base no consumo real de Tokens. Diferente do método tradicional de cobrança da computação em nuvem, ele pode reduzir significativamente o custo da inferência de IA. Esta ajuste no modelo se baseia em insights detalhados sobre a implantação de grandes modelos. Tokens são a conversão de texto em vetores digitais, e a escala do throughput de conteúdo dos grandes modelos é calculada em Tokens, sendo a unidade natural de medição na era dos grandes modelos. À medida que o processo de implantação da IA avança, o consumo de Tokens cresce exponencialmente. Os dados mostram que o consumo médio diário de Tokens na China no início de 2024 era de 100 bilhões, e até o final de junho deste ano, o consumo médio diário de Tokens ultrapassou 3 trilhões, aumentando mais de 300 vezes em pouco mais de um ano e meio. Claramente, Tokens já não são apenas uma unidade de cálculo no campo técnico, mas também o consumo real dos grandes modelos, uma referência-chave para medir a implantação dos grandes modelos, e também pode refletir diretamente o uso de poder de GPU, memória e tempo de cálculo por trás dele. Usar Tokens como unidade de cobrança está se tornando um consenso da indústria: por um lado, pode calcular com mais precisão os recursos usados pelas empresas, permitindo que os usuários paguem apenas pelo consumo real, e otimizar ainda mais os custos entendendo a composição dos custos através do consumo real; por outro lado, pode resolver o problema da cobrança injusta causada pela grande diferença no consumo de Tokens em diferentes cenários, fornecendo uma referência para os fornecedores de nuvem ajustarem dinamicamente os recursos de computação. Por exemplo, em cenários como online, near-line e offline: tarefas de geração de longos textos são adequadas para cenários de escritório diário, com alto uso durante o dia e quase silencioso à noite, tornando a cobrança por uso mais razoável do que a cobrança por tempo ou placa; em cenários como atendimento ao cliente inteligente e assistentes de IA, o número de rodadas e profundidade das sub-situações diferentes são incertos, e o modelo de serviço Tokens pode calcular com mais precisão o custo de cada interação. Por outro lado, os serviços Tokens podem efetivamente proteger as implementações tecnológicas complexas subjacentes. Os usuários não precisam se preocupar com o processo tecnológico do chip, a geração do servidor e outros pilhas tecnológicas complexas de hardware, nem precisam se preocupar com as pilhas tecnológicas complexas de software, como frameworks de inferência e implantação de modelos. Eles podem obter eficientemente o "resultado final da IA" diretamente. Na conferência HC2025, a Huawei Cloud anunciou o lançamento completo do serviço de inferência de Tokens de IA CloudMatrix384. Isso significa que a potência de cálculo de IA entrou em uma nova fase caracterizada por "desempenho e eficiência extremos", com desempenho superior em 3-4 vezes ao da NVIDIA H20. A tecnologia subjacente depende principalmente do super-nó CloudMatrix384 e do framework de inferência distribuído xDeepServe. Primeiro, o super-nó CloudMatrix384 usa uma arquitetura de interconexão ponto a ponto completa e tecnologia de comunicação de alta velocidade, que tem vantagens significativas em computação e comunicação, podendo liberar mais potência de cálculo extrema. O super-nó CloudMatrix384 usa a rede de interconexão ponto a ponto de alta velocidade MatrixLink desenvolvida pela Huawei Cloud para acoplar firmemente 384 NPUs Ascend e 192 CPUs Kungpeng, formando um super "servidor de IA" logicamente unificado. Por meio do método Scale Out, também pode ser composto em um cluster de IA com mais de 160.000 placas, suportando o treinamento de modelos de grande escala com 1300 bilhões de parâmetros ou a inferência de dezenas de milhares de modelos. No futuro, com base no plano mais recente da Huawei para servidores de IA, as especificações do super-nó CloudMatrix serão aprimoradas ainda mais para 8192, formando um cluster de IA com um milhão de placas. Segundo, com base no conceito de "tudo pode ser pool", a Huawei Cloud usa o serviço inovador de armazenamento de memória elástica EMS para desconectar a memória gráfica NPU, a memória CPU e os recursos de armazenamento, formando um pool de recursos unificado. A NPU pode acessar remotamente a memória pool, realizando a expansão independente da memória gráfica e reduzindo significativamente o atraso da conversa de múltiplas rodadas de Tokens. Ao mesmo tempo, recursos de computação, armazenamento e rede podem ser combinados dinamicamente de acordo com as exigências de carga, melhorando a utilização dos recursos. Essa tecnologia tem impacto significativo em cenários de perguntas e respostas de múltiplas rodadas. Quando os grandes modelos realizam perguntas e respostas de múltiplas rodadas, a resposta normalmente fica mais lenta à medida que o número de rodadas aumenta. O motivo é que o grande modelo precisa "lembrar" os dados gerados em cada rodada para garantir a continuidade da resposta. Quando o número de rodadas de perguntas e respostas aumenta, a quantidade de cálculo dobra, resultando em atraso na resposta. O serviço EMS pode resolver efetivamente esse problema. Terceiro, separação PDC e PD dinâmico: a separação PDC (Prefill-Decode-Caching) solidifica Prefill e Decode em seus clusters respectivos e aproveita a característica de endereçamento global da rede de interconexão ponto a ponto de alta velocidade MatrixLink para estabelecer um cluster de cache KV independente. Assim, seja o cluster de Prefill ou o cluster de Decode da NPU, eles podem acessar diretamente a memória cache compartilhada do cluster de cache KV independente, rompendo as restrições físicas da localização dos dados, melhorando significativamente o equilíbrio de carga, a utilização da NPU e a utilização da memória, enquanto oferecendo maior elasticidade. O sistema também pode analisar ou prever com precisão e em tempo real a carga do negócio de inferência. Quarto, o super-nó CloudMatrix384 foi especialmente projetado para a arquitetura MoE mainstream, suportando o modo de inferência distribuída "uma placa, um especialista", distribuindo os módulos de especialistas do modelo MoE para diferentes placas NPU para processamento paralelo. Por exemplo, 256 especialistas correspondem a 256 placas, reduzindo o atraso de comunicação e o desperdício de energia causado pelo atraso de comunicação, reduzindo o atraso de carregamento de pesos em cada placa e reduzindo a ocupação de memória de pesos, melhorando significativamente o número de caminhos paralelos por placa. Quando o serviço Tokens estiver totalmente conectado ao super-nó CloudMatrix384, os usuários empresariais poderão obter os "resultados finais de cálculo de IA" necessários para diversos setores com desempenho ótimo, bom serviço e alta qualidade, permitindo que foquem mais em aplicações e inovação de negócios.