Cohereは2026年6月12日(現地時間)、開発者向けのオープンウェイトモデル「North Mini Code」をリリースした。このモデルは300億パラメーターの「mixture-of-experts (MoE)」であり、ルーティング機能により推論時には30億パラメーターで動作する。4ビット量子化により、単一のNVIDIA H100 GPUで実行可能であり、企業の自己ホスト型コーディングパイプラインの計算コスト削減を目指す。
North Mini Codeは、個別のタスクに特化したニューラルネットを搭載するMoEアーキテクチャを採用している。ルーティング機能は、タスクを完了するために最も適切なエキスパートを選択し、必要な稼働パラメーター数を30億に削減する。これにより、4ビット量子化されたモデルは、データセンター規模のNVIDIA H100群を必要とせず、単一のNVIDIA H100 GPUで動作する。
このオープンウェイトモデルは、ソフトウェアエンジニアリングのエージェントタスクに最適化されており、AIの民主化を意図して構築された技術の一つである。Cohereのニック・フロスト (Nick Frosst) 氏は、モデルの紹介ビデオでローカルデプロイメントは、人々を力づけ、AIを本当に彼らのために機能させるための一つの方法だと述べた。North Mini CodeのウェイトはApache 2.0ライセンスの下でHugging Faceで公開されており、Cohere API、Cohere Model Vault、OpenRouter LLM marketplaceからも利用できる。また、CohereのターンキーAIワークプレイスプラットフォーム「North」とも連携可能である。
リリースを発表するブログ投稿では、North Mini Codeは速度と効率性を重視し、総所有コストの最小化に重点を置いて設計されていると説明された。フロスト氏は、コマーシャルAIプロバイダーのAPIを利用する際のコスト増大に言及し、補助金付きトークンの期間が終了するにつれて、企業やエンドユーザーがAI利用を精査し始めるとの見方を示した。多くのタスクでは、大規模なLLMサービスのすべてのパワーと費用を必要としない可能性がある。フロスト氏は、自身のMac Studio上でMLXとNorth Mini Codeを使用して自宅のサーモスタットレギュレーターを構築するプロジェクトをデモンストレーションし、このタスクに必要な作業メモリは約20GBであったと述べた。彼は、複雑なプロジェクトにはAPI経由で大規模モデルを呼び出し、単純なタスクにはローカルモデルを利用するパターンが、トークン価格が注目される中で普及すると予測している。
パフォーマンス面では、North Mini CodeはArtificial Analysis Coding Indexで33.4ポイントを記録し、128の比較可能モデル(MistralのDevstral Small、Poolside、Qwen、Google Gemmaなど)の平均15ポイントを大きく上回った。同コーディングインデックスでは、North Mini Codeは高速であると評価されており、1秒あたり208トークンを生成し、「著しく高速」であると指摘された。ベンチマークでは、平均の3倍以上にあたる7500万トークンを生成した。
参考: devops.com — 2026年6月13日 03:16 (JST)
原文ハイライト"Instead, a router function picks the most appropriate experts to complete the task"