複数LLMを用途で使い分ける — 4体のAIエージェント、月額9,000円のモデル戦略 • Nainaism

私が運営するAIエージェントシステムは、Discord上に4体のAIエージェントを常駐させ、10本以上の自動タスクを毎日動かしています。でも、月額のLLM API代は約9,000円です。GPTで同じ量を回そうとすると、3〜4万円は軽く超える計算です。

この記事では、複数のLLMプロバイダを役割ごとに使い分けることで、コストを抑えつつ性能を最大化した具体的な手法をお伝えします。

運用しているシステムの概要#

まず、どんな規模で動いているのかを簡単に説明します。

4体のAIエージェント（COO・CTO・CMO・CFO）がDiscord上で常時稼働
10本以上の定期cronジョブが自動実行。間隔は23分ごとから月次まで
各エージェントはメインモデルの他に、フォールバック用のモデルを併用
使用しているプロバイダは全部で3つ。ZAI、Ollama Cloud、OpenCode Go

エージェント数やタスク数から想像するより、コストはかなり抑えられています。その理由は、モデルの使い分けにあります。

なぜ複数プロバイダが必要か#

一つのプロバイダに統一すれば管理は楽です。でも、実運用を続けるうちに複数プロバイダのメリットが浮かび上がってきました。

1. 単一障害点の回避#

ZAIが一時的にレスポンスを返さなくなったり、Ollama Cloudがレートリミット中になったりすることは、月に何度もあります。フォールバック先が別プロバイダにあると、タスクが止まることなく処理を継続できます。

2. コストを抑える工夫#

高精度な分析タスクには高機能モデルを、定型レポート生成や軽微な判定には軽量モデルを使い分ける。これだけで、無駄なトークン消費を大幅に削減できます。

3. 同時接続制限への対応#

Ollama CloudのProプランは、同時に3モデルまでしか動かせません。サブエージェントを展開したり、4体のエージェント全員がOllama Cloudに集中すると、枠を取り合って処理が待ち状態になることがあります。プロバイダを分散させることで、この問題を回避しています。

4. モデルごとの得意領域の活用#

構造化された日本語のレポート作成にはKimiが向いています。コード生成にはGLMやDeepSeekが得意です。モデルの特性を理解して配置すると、出力の質が安定します。

プロバイダ別のコストとプラン#

現在使っている3つのプロバイダと、それぞれの月額費用です。

ZAI（z.ai） — Coding Plan Pro、月額$30（割引適用後）。GLM-5-Turbo・GLM-5.1・GLM-4.7が使い放題です。
Ollama Cloud — Proプラン、月額$20。GPU時間ベースの定額制で、同時3モデルまで動かせます。
OpenCode Go — 月額$10の定額制。全モデル使い放題で、429エラーの心配がありません。

合計すると、月額約$60。日本円で約8,000〜9,000円です。

実際の使用量で見るコスト差#

システムは合計で毎日1億トークン以上を処理しています。月換算で約30億トークンです。

これを主要なAPIで処理した場合のコストを試算してみました。

【コスト比較】月30億トークンでの試算

現在の構成（3プロバイダ併用）: 約$60（約9,000円）
GPT-5.5（API換算）: 約$33,750（約500万円）
Claude Opus 4.7（API換算）: 約$30,000（約450万円）

※入力$5/出力$30、入出力比率3:1で試算。実際のコストは使用パターンによって変動します。

同じワークロードをAPIで処理すると、コストは500倍以上になります。定額制プロバイダの組み合わせが、いかに大きなコストメリットを生んでいるかがわかります。

現在の月額約$60という数字は、安いのではなく、圧倒的に安いのです。

4体のエージェント、それぞれのモデル配置#

各エージェントの役割と、なぜそのモデルを選んだかを説明します。

COO（かえで） — システムの司令塔#

メインモデルはOpenCode Goのdeepseek-v4-flash。オーケストレーションや複雑な意思決定が多いため、システム内で最も高い優先度を与えています。フォールバックはZAIのglm-5.1に向けています。

CTO（ハカセ） — コードと技術調査#

メインモデルはOllama Cloudのdeepseek-v4-pro。コードレビューや技術調査が主な仕事なので、DeepSeekの強みを活かせる配置です。

CMO（はなび） — 構造化レポートと分析#

メインモデルはOllama Cloudのkimi-k2.6。SEO分析レポートやデータ整形タスクが多いため、Kimiの構造化能力を活かしています。

CFO（つき） — 高速・軽量処理#

メインモデルはOpenCode Goのdeepseek-v4-flash。定型チェックや軽微な判定が中心なので、レスポンス速度とコストのバランスが取れたモデルを選びました。

cronジョブのモデル分散#

自動タスクにもモデルを使い分けています。実行頻度と処理の複雑さに応じて、適切なモデルを割り当てています。

毎時・高頻度実行のタスク → glm-4.7やDeepSeek V4 Flashなどの軽量モデル
日次・分析系タスク → kimi-k2.6などの構造化に強いモデル
週次・複雑な総合タスク → glm-5.1などの高精度モデル
システム核となる23分間隔の監視タスク → glm-5-turboやdeepseek-v4-flashなどの高速モデル

この分散のおかげで、高額モデルを常時回す必要がなくなりました。高機能モデルは本当に必要なタイミングだけに絞って使います。

フォールバックチェーンの設計#

各エージェントには、メインとは別プロバイダへのフォールバックを設定しています。たとえばZAIが調子悪い時はOllama Cloudへ、Ollama Cloudが詰まったらOpenCode Goへ。

ここで一工夫あるのが、フォールバックの方向です。全員が同じ方向にフォールバックすると、特定のプロバイダに一斉に殺到してしまいます。そのため、エージェントごとに逆向きのフォールバックを組んでいます。

結果として、ZAI・Ollama・OpenCode Goの三角形が作られ、どこが一時的に弱っても、負荷が自然に散らばる構造になっています。

実際に直面している課題#

便利な仕組みですが、完全ではありません。現在もいくつかの課題を抱えています。

Ollama Cloudの同時3モデル制限は常にピンチです。実際には4〜5枠使いたい場面が多く、枠競合が起きます。
ZAIで429エラーが発生した際、全プロファイルがOllama Cloudに殺到して、さらに競合が激化するケースがあります。
モデルが増えるにつれ、configファイルの管理が煩雑になりつつあります。どのエージェントがどのモデルを使っているか、一覧化が必要かもしれません。

結び#

月額約9,000円。これで4体のAIエージェントが24時間動き続けています。

ポイントは、単一のモデルやプロバイダに依存しないことです。定額制プロバイダをベースに、役割ごとにふさわしいモデルを割り当てる。さらにフォールバックを複数方向に張ることで、止まらないシステムを作っています。

最初は一つのプロバイダで全部回す構成から始めました。運用を続けるうちに、コストと安定性のバランスを取るため、自然と3プロバイダ・複数モデルの構成になりました。

AIのコストが気になり始めた方は、まず自分の用途を整理して、安価な定額制プランから始めてみてください。必要に迫られてモデルを追加していく過程で、自分に合った構成が見えてくると思います。