【速報】Qwen 3.5登場！自前で動く最強LLMが常識を変える

皆さん、こんにちは！エンジニア向けに日々の技術ニュースを記事にするTetraです。

今日は、開発現場の空気をガラッと変えてしまいそうな、とんでもないニュースが飛び込んできました。2026年2月19日現在、AI業界は依然として激しい競争の中にありますが、Alibaba Cloudから発表された最新モデル「Qwen 3.5」は、これまでの「巨大モデルはAPIで借りるもの」という常識を覆すかもしれません。

オープンウェイトでありながら、プロプライエタリ（独占的）な最新モデルと互角以上に渡り合う。しかも、現実的なコストで運用可能。そんなエンジニアの夢のような話が、現実のものになろうとしています。今回はこのQwen 3.5の詳細と、私たち日本のエンジニアにとってどのような意味を持つのか、じっくり考察していきたいと思います。

【速報】Alibabaが放つ「所有できる」最強モデル Qwen 3.5
【技術解説】MoEの極致？「17Bアクティブ」がもたらす革命
【考察】日本の開発現場に突きつけられた「APIか、オンプレか」という選択肢
1. 1. 「機密情報」と「コスト」のジレンマ解消
2. 2. 多言語対応とトークナイザーの恩恵
【未来】エージェント開発の民主化が進む
【提言】エンジニアは今、何を準備すべきか
まとめ

【速報】Alibabaが放つ「所有できる」最強モデル Qwen 3.5

旧正月（春節）に合わせて発表されたAlibabaの新しいフラッグシップモデル「Qwen3.5-397B-A17B」。名前が少し長いですが、このスペック表記には重要な意味が込められています。

総パラメータ数は3970億（397B）という巨大な規模ですが、推論時にアクティブになるのはそのうちのわずか170億（17B）パラメータのみ。これは、いわゆるMoE（Mixture of Experts）アーキテクチャを採用しており、トークン生成ごとに必要な専門知識を持つ「エキスパート」だけを呼び出す仕組みだからです。

ニュースから読み取れる主なスペックと特徴は以下の通りです。

圧倒的な推論効率: 自社の旧フラッグシップであり1兆パラメータ超えと言われる「Qwen3-Max」と比較して、ベンチマークで勝利。それでいて推論速度は19倍高速（256Kコンテキスト時）、運用コストは60%削減されています。
競合との比較: Googleの「Gemini 3 Pro」の約1/18のコストで動作し、OpenAIの「GPT-5.2」やAnthropicの「Claude Opus 4.5」といった現在のトップティアモデルと、推論やコーディングタスクにおいて互角かそれ以上のスコアを記録しています。
ネイティブマルチモーダル: テキスト、画像、動画を同時に学習させており、以前のように「言語モデルに視覚エンコーダーを後付け」したものではありません。これにより、視覚的な推論能力が大幅に向上しています。
ライセンス: Apache 2.0ライセンスで提供。商用利用、改変、再配布が可能という、企業にとって非常に使いやすい条件です。

特筆すべきは、これが単なる研究発表ではなく、実際にHugging Faceで重みが公開され、私たちがダウンロードして使える状態にあるということです（もちろん、相応のハードウェアは必要ですが）。

【技術解説】MoEの極致？「17Bアクティブ」がもたらす革命

技術的な視点でこのモデルを見ると、Alibabaのアプローチがいかにアグレッシブかが分かります。

前作の実験的なモデル「Qwen3-Next」では128個だった「エキスパート（専門家ネットワーク）」を、今回のQwen 3.5では512個にまで増やしています。エキスパートを細分化し、その中から少数を精選してアクティブにすることで、「知識の深さ（総パラメータ）」と「推論の軽さ（アクティブパラメータ）」を両立させているわけです。

エンジニアの皆さんならピンとくると思いますが、アクティブパラメータが17Bということは、計算リソース（FLOPS）の消費量は17Bの密なモデル（Denseモデル）に近いということです。400Bクラスの知識を持ちながら、17Bクラスの軽快さで動く。これは、推論レイテンシを劇的に下げる魔法のような技術です。

さらに、マルチトークン予測（Multi-token prediction）の採用や、超長文コンテキストでのメモリ圧迫を軽減する新しいAttention機構も搭載されており、256Kトークンのコンテキストウィンドウでもサクサク動くようです。ホスト版のQwen3.5-Plusに至っては100万トークンまで扱えるとのことなので、RAG（検索拡張生成）の基盤としても非常に優秀でしょう。

【考察】日本の開発現場に突きつけられた「APIか、オンプレか」という選択肢

さて、ここからは現役エンジニアとしての考察です。

これまで私たちは、「最高精度の推論が必要なら、OpenAIやGoogleのAPIを叩くしかない」という半ば諦めに似た前提でシステムを設計してきました。オープンモデルは進化しているとはいえ、GPT-5.2やGemini 3 Proといったプロプライエタリな最先端モデルには一歩及ばない、というのが2026年初頭までの共通認識だったと思います。

しかし、Qwen 3.5の登場はこの前提を揺るがします。

1. 「機密情報」と「コスト」のジレンマ解消

金融や医療、あるいは製造業の設計データなど、外部APIに送信することを躊躇するデータは日本企業の中に山ほどあります。これまでは、精度を犠牲にして小さなローカルモデルを使うか、リスク許容度を上げてAPIを使うかの二択でした。

Qwen 3.5を使えば、「GPT-5.2クラスの知能を、自社のVPC（仮想プライベートクラウド）やオンプレミスサーバの中に閉じ込めて運用する」ことが現実的になります。Apache 2.0ライセンスであるため、ロイヤリティの心配もありません。

2. 多言語対応とトークナイザーの恩恵

地味ですが重要なアップデートとして、語彙数（Vocabulary）が250kに拡張され、201言語に対応した点が挙げられます。特に日本語を含む非ラテン文字圏の言語において、トークン効率が15〜40%向上しているという話は無視できません。

API従量課金の世界では「トークン数＝お金」ですが、自前運用の場合でも「トークン数＝処理時間」です。日本語をより少ないトークンで表現できるということは、それだけレスポンスが速くなり、スループットが上がることを意味します。日本のユーザー向けのサービスを開発する我々にとって、これは直接的なUX向上につながります。

【未来】エージェント開発の民主化が進む

今回の発表で私が特にワクワクしたのは、Qwen 3.5が「エージェント（Agentic）機能」を前提に設計されている点です。

Alibabaは「OpenClaw」というオープンソースのエージェントフレームワークとの互換性を強調しています。また、15,000もの異なる強化学習環境でトレーニングを行い、自律的にタスクを遂行する能力を磨いているそうです。

これまでは、「複雑な推論やツール利用（Function Calling）はGPT-4以降じゃないと安定しない」と言われてきましたが、Qwen 3.5がその壁を越えてくるなら、エージェント開発の主戦場はローカル環境に移るかもしれません。コーディングタスクを自然言語で指示できるCLIツール「Qwen Code」の提供も、開発者の生産性を直接支援する強力な武器になるでしょう。

将来的には、社内のドキュメント整理やログ解析、あるいは簡単なバグ修正程度なら、自社サーバに常駐させたQwenエージェントが夜間に勝手に終わらせておく、なんていうワークフローが当たり前になるかもしれません。

【提言】エンジニアは今、何を準備すべきか

このニュースを受けて、私たちエンジニアはどう動くべきでしょうか。

1. インフラ知識の再武装

「APIを叩くだけ」の時代から、「モデルをホストする」時代への揺り戻しが来ています。Qwen 3.5（397B）を動かすには、量子化バージョンでも約256GB、余裕を見て512GB程度のVRAMが必要です。これは個人のPCでは無理ですが、企業のGPUサーバとしては決して非現実的なスペックではありません。
AWSやAzure、Google CloudなどのGPUインスタンスの選定、vLLMなどの推論エンジンのチューニング、Kubernetes上でのデプロイ戦略など、MLOps/LLMOpsのスキル価値が急上昇するはずです。