Kimi-VLの中身を覗く：MoonViTとMoEがつくる高効率VLMの設計

この記事のポイント

Kimi-VLは「MoonViT」「MLP Projector」「MoE言語デコーダ」の3つのパーツで構成される
MoonViTは画像をリサイズせずネイティブ解像度で処理できる独自のビジョンエンコーダ
Thinking版では「長く考えさせる」ことで数学推論の精度が大幅に向上する

はじめに

前回の記事ではKimi-VLが「小さな巨人」として注目されている背景とその実力を紹介しました。

この記事では、Kimi-VLの内部構造をもう少し詳しく見ていきます。「なぜ2.8Bのアクティブパラメータで大型モデルに匹敵できるのか？」という疑問に、アーキテクチャの観点から答えていきます。

技術的な内容を含みますが、できるだけたとえ話を交えてわかりやすく解説します。

Kimi-VLの全体構造：3つのパーツ

Kimi-VLは大きく3つのパーツで構成されています。人間の「見て、理解して、考える」プロセスに対応させると、以下のようなイメージです。

パーツ	役割	たとえ
MoonViT（ビジョンエンコーダ）	画像を読み取る	高解像度の「目」
MLP Projector	画像情報を言語モデルに渡す	目と脳をつなぐ「視神経」
Moonlight（MoE言語デコーダ）	テキストと画像を統合して推論する	省エネな「脳」

MoonViT：ネイティブ解像度で「画面を読む目」

従来のビジョンエンコーダの課題

一般的なビジョンエンコーダは、入力画像を固定サイズ（例えば224x224ピクセル）にリサイズしてから処理します。しかしこの方法では、高解像度のスクリーンショットやPDFの細かい文字が潰れてしまい、情報が失われます。

MoonViTの解決策

MoonViTはNaViT（Native Resolution ViT）系の設計を取り入れ、画像を任意の解像度のままパッチに分割して処理できます。

処理の流れ：

入力画像をリサイズせず、そのままの解像度で受け取る
画像を小さなパッチ（断片）に分割する
各パッチを1次元のシーケンス（列）として並べる
2D RoPE（2次元の回転位置埋め込み）で、各パッチの位置情報を保持する

これにより、スクリーンショットの小さなボタンやPDFの細かい文字も情報を失わずに認識できます。

実務での利点

MoonViTのネイティブ解像度対応が活きる場面：

スクリーンショットのUI要素の読み取り
PDFや図表の細かいテキスト認識
高解像度の写真や設計図の分析
手書きメモや名刺のOCR

MLP Projector：目と脳をつなぐ「視神経」

画像と言語の橋渡し

MoonViTが読み取った画像情報は、そのままでは言語モデルが理解できる形式ではありません。MLP Projectorがこの変換を担当します。

処理の流れ：

ピクセルシャッフル：画像の空間次元を圧縮してチャネル（情報の深さ）を増やす
2層のMLP（多層パーセプトロン）：言語モデルの埋め込み次元に合わせて変換する

こうして画像の特徴がテキストトークンの列に自然に統合され、言語モデルが「画像の内容をテキストとして」処理できるようになります。

Moonlight：省エネな「脳」としてのMoE言語デコーダ

MoEの仕組み

Moonlightは、DeepSeek-V3に類似したMoE（Mixture of Experts）構造を持つ言語モデルです。

仕組みのポイント：

総パラメータ約16Bの中に、多数のエキスパート（専門家ネットワーク）が用意されている
入力ごとにルーターが最適なエキスパートを少数だけ選んで起動する
結果として、毎回のアクティブパラメータは約2.8Bに抑えられる

たとえ話：巨大な専門書店

【Moonlightの仕組みをたとえると】

→ 巨大な専門書店に、各分野の専門家が待機している
→ お客さん（入力データ）が来ると、案内係（ルーター）が
  「この質問なら、数学の専門家と画像解析の専門家に聞こう」と判断
→ 必要な専門家だけが対応し、他の専門家は待機
→ 書店全体の知識量は膨大だが、毎回動くのはごく一部

事前学習の規模

Moonlightは、テキストだけで数兆トークン規模の事前学習を行ったチェックポイントからスタートし、さらにマルチモーダル（テキスト＋画像）のデータで追加学習を行っています。

学習プロセス：4段階の学習戦略

Kimi-VLの学習は4つの段階を経て行われます。

ステップ1：ビジョンエンコーダの事前学習

MoonViT単体で、画像とテキストのペアを使って学習します。SigLIP損失（画像とテキストの対応関係を学ぶ）とキャプション生成のクロスエントロピー損失を組み合わせています。

ステップ2：結合事前学習（Joint Pretraining）

テキストデータとマルチモーダルデータを混在させて学習し、言語能力を維持しながら視覚能力を獲得します。

ステップ3：結合クールダウン

高品質なデータで再トレーニングし、性能を安定化させます。

ステップ4：ロングコンテキスト活性化

RoPE（回転位置埋め込み）のスケールを調整しながら、コンテキスト長を8Kから128Kに拡張します。これにより、長い文書や長尺の動画も扱えるようになります。

Kimi-VL-Thinking：「考えさせるほど賢くなる」

ポストトレーニングの3ステップ

基本学習のあとに、さらに3つのステップでチューニングを行います。

結合SFT（Supervised Fine-Tuning）：指示に従う対話能力を学習
Long-CoT SFT：長い思考連鎖（Chain of Thought）を含む教師データで学習
強化学習：オンラインPolicy Mirror Descent系の手法で推論力を強化

驚異的な精度ジャンプ

Kimi-VL-Thinkingの最も注目すべき特徴は、「思考トークンを増やすほど精度が上がる」という特性です。

MathVisionベンチマークでは、通常版からThinking版に切り替えることでスコアが大幅に向上し、50%台後半に達したとされています。「AIにじっくり考える時間を与える」ことの効果を明確に示す結果です。

ベンチマークの意味を読み解く

各ベンチマークが測っている能力

ベンチマーク	測っている能力	Kimi-VLのスコア	実務での意味
MMMU	大学レベルの学術問題	57.0%	専門的な質問への回答力
MMBench	総合的なマルチモーダル理解	83.1%	画像＋テキストの総合的な理解力
MathVista	数学の視覚的推論	68.7%	グラフや図表を読んで計算する力
InfoVQA	文書・インフォグラフィック理解	83.2%	文書の内容を正確に読み取る力
OCRBench	OCR性能	86.7%	画像中の文字を認識する力
WindowsAgentArena	PC操作	10.4%	画面を見て操作を代行する力
MMLongBench-Doc	長文書理解	34.7%	長い文書の質問応答

WindowsAgentArenaの10.4%は低い？

PC操作エージェントの成功率10.4%は一見低く感じますが、これは「人間が日常的に行うPC操作をAIが自律的に完遂できた割合」です。GPT-4oクラスと同水準かわずかに上回る程度とされており、画面を認識して操作する自律型AIとしてはトップクラスの水準です。

ただし注意が必要なのは、Kimi-VLが単体でPCを操作しているわけではない点です。WindowsAgentArenaでは「スクリーンショットをKimi-VLに渡し、返ってきた指示に従ってエージェントが実際にマウスやキーボードを操作する」という構成になっています。つまりKimi-VLは「目と頭」の役割で、実際に手を動かすのは別のエージェントシステムです。

実務でのユースケース

Kimi-VLが活きる場面

Kimi-VLの特性を活かせる実務シーン：

ドキュメント処理：

紙の書類やPDFの自動読み取り・データ化
請求書や契約書の内容抽出
多言語ドキュメントの理解

データ分析補助：

グラフや図表の読み取りと解釈
経営資料の要約
統計データの視覚的分析

画面操作の自動化（エージェントとの組み合わせ）：

定型的なPC操作の自動化
UIテストの補助
業務プロセスの自動化

Kimi-VL単体は「画面の内容を読んで理解するモデル」です。実際にクリックやキーボード入力を行うには、別途エージェントフレームワーク（操作を実行するシステム）と組み合わせる必要があります。なお、Kimiのサービスには「OK Computer」というエージェントモードがあり、仮想環境上でブラウザ操作・ファイル操作・ターミナル操作などを自律的に行う機能がすでに提供されています。

他モデルとの使い分け

用途	おすすめモデル
汎用的な対話・文章生成	GPT-4o、Claude
軽量・高効率な画像理解	Kimi-VL
数学・推論タスク	Kimi-VL-Thinking
日本語に特化した処理	Qwen系、国産モデル
ローカル環境での実行	Kimi-VL（コンパクトで動かしやすい）

まとめ

構成要素	役割	特徴
MoonViT	画像を読む「目」	ネイティブ解像度対応で細部まで認識
MLP Projector	目と脳の「橋渡し」	画像情報をテキスト形式に変換
Moonlight（MoE）	推論する「脳」	16B中2.8Bだけ稼働する省エネ設計
Thinking版	深く考える「熟考モード」	思考トークンを増やすほど精度向上

Kimi-VLのアーキテクチャは、「目（MoonViT）」「視神経（MLP Projector）」「脳（Moonlight）」という3つのパーツが緻密に設計されることで、コンパクトながら高い性能を実現しています。

特にMoEによる省エネ設計とMoonViTのネイティブ解像度対応は、今後のVLM開発のひとつの方向性を示すものといえるでしょう。オープンソースであることも大きな利点であり、今後の発展が楽しみなモデルです。

参考記事

AI導入でお困りですか？

「最新のAIモデルを自社業務に活用したい」「画像認識やOCRをAIで効率化したい」

そんなご要望がありましたら、AI DARUMAにご相談ください。せとうち地域の企業様に最適なAIツールの選定・導入をサポートいたします。

〒723-0062 広島県三原市本町 1丁目7-29 2階コワーキングスペースarica内