わあ、このモデルはまるでエージェント向けに作られたかのように感じます!

RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察
RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察

5時頃、スマホを見るとQwen3がリリースされたばかりだとわかりました。もう一度寝ようと思ったのですが、興奮が治まらず起きていました。一日中テストしたいと思い、すぐに取り掛かりました。

RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察
RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察

最初にQwen3-30B-A3Bを見たとき、すぐに思ったことがあります:これは間違いなくエージェント向けに設計されたモデルかもしれません。

RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察
RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察

現在、エージェントを実装する際の大きな課題は二つあります:継続的なツール呼び出しと、トークン消費と速度のバランス管理です。

RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察
RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察

最初にスループットをテストしてみましたが、その結果は驚くべきものでした!これらのテストではFP8バージョンを使用しました。図2に示すように、16および32の同時テストを行い、長めのシステムプロンプトを含む典型的なエージェントシナリオをシミュレートしました。入力を8192、出力を1024に設定したところ、驚異的な388t/sの出力スループットを達成しました。

RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察
RTX 4090 48GBでQwen3 30B MOEのスループットを最大化する方法:Tipsとパフォーマンスの洞察

注意してください、これは単一のRTX 4090 GPUでのパフォーマンスです。このモデルを使えば、小さな企業でも1台または2台の4090で内部エージェントの要件を満たすことができるかもしれません。

次に、自分の特定のシナリオでテストを行いました。私のC++問題解決アシスタントはほぼテスト準備完了です。MCPプロトコルを利用してインタラクティブなノートブックを作成しています。C++の質問を投げかけると、ステップごとに実行可能なコードノートブックを生成し、特に子供たちにとって学習効率を大幅に向上させます。

この特定のシナリオでは、AIが複数回のツール呼び出しを行うことが含まれており、AIは結果を分析しながら継続的にツールを操作・実行します。テスト結果は完璧そのものです!

各ラウンドで、モデルは現在のタスク状況を慎重に評価し、次のステップを決定します。明らかに、このモデルはマルチラウンドタスクに特化して訓練されており、私はこのようなものが登場することを長い間待ち望んでいました。

しかし、本当に驚いたのは、単一ユーザーのスループットが1秒あたり100tを超えたことです。最後の画像をご覧ください、複数回のツール使用シナリオで50,000トークンを消費しても、出力速度は非常に速く、全体プロセスをわずか40秒で完了しました。

未来はこんな風になるのでしょうか:高速かつコストを抑えるためのコンパクトなMOEアクティベーションを使用し、最も複雑なエージェントの問題にも対応しつつ、安定したパフォーマンスを提供できるのでしょうか?

待った甲斐がありました。今後、私はC++学習エージェントシナリオに基づいてこれらのモデルに対してさらに深いテストを続けていきます。また、200B以上のモデルについても、Ktransformerを使った微調整により単一マシンで動作させることが可能かどうか検討しています。興味がある方はいらっしゃいますか?もし興味があれば、さらなるテストを進めてみたいと思います。

Choose a language:

By Ryder Robertson

Passionate about technology and innovation.