この記事のポイント
- Swallowプロジェクトは、日本語性能を重視したオープンなLLMを大学・研究機関が開発する国内プロジェクト
- Meta社のLlamaを中心に、Gemma 2やQwenなど複数のオープンLLMをベースとした日本語強化モデルを継続的に公開
- 研究用途だけでなく商用利用も可能で、企業のAI活用にも道を開く
はじめに
「ChatGPTやGeminiは便利だけど、日本語の微妙なニュアンスがうまく伝わらないことがある…」
海外発のAIサービスを使っていて、こう感じた経験はないでしょうか。英語圏で開発されたAIモデルは、どうしても日本語や日本固有の文化・制度に関する知識が手薄になりがちです。
この問題に正面から取り組んでいるのが、Swallowプロジェクトです。東京科学大学(旧・東京工業大学)と産業技術総合研究所(産総研)が中心となり、日本語に強く、しかもオープンに使える大規模言語モデル(LLM)を継続的に開発・公開しています。
この記事では、Swallowプロジェクトの目的・技術的な特徴・公開モデルについてやさしく解説します。
なぜ「日本語性能を重視したLLM」が必要なのか
ChatGPTやGeminiも日本語に対応していますが、内部的にはまず英語で学習し、日本語は追加で対応しているケースが多いです。そのため、ケースによっては以下のような場面で弱さが出ることがあります。
- 日本の法律・制度・地名に関する回答の精度が十分でない場合がある
- 敬語・方言・業界用語など、日本語特有の表現を正確に扱いきれないことがある
- 日本語の長文を処理する際にトークン数が膨らみ、コストや速度の面で不利になる場合がある
Swallowプロジェクトは、こうした課題に取り組むために日本語性能を重視したモデルの開発を進めています。
プロジェクトの体制
Swallowプロジェクトは、アカデミア(大学・研究機関)が主導しているのが大きな特徴です。特定企業のプロダクトではなく、研究基盤として設計されており、日本のAI研究と産業の土台となるモデルを作ることを目指しています。
公式サイトのメンバー一覧を見ると、教授や博士課程の研究者だけでなく学部生も開発に携わっており、幅広い層が参加するプロジェクトであることがわかります。
技術的な特徴
オープンLLMをベースにした「継続事前学習」
Swallowプロジェクトでは、ゼロからモデルを作るのではなく、既存のオープンLLMをベースに、日本語データで追加学習(継続事前学習)するアプローチをとっています。初期はMeta社のLlamaを中心に開発が進められましたが、現在ではGoogleのGemma 2やAlibabaのQwenなど、複数のベースモデルに対して日本語強化を行ったシリーズも公開されています。
オープンLLM(Llama, Gemma 2, Qwen など)
↓ 日本語データで継続事前学習
Swallow(日本語性能を強化したモデル)
ゼロから作るよりも大幅にコストを抑えながら、元モデルの能力を維持しつつ日本語の性能を高められるのがこの方式の利点です。
日本語トークナイザの拡張
Llamaのトークナイザ(テキストを分割する仕組み)に、約1.6万語の日本語トークンを追加しています。これにより、同じ日本語の文章をより少ないトークン数で表現できるようになり、処理速度とコストの両方が改善されます。
例えるなら、英語向けの辞書しかなかった翻訳者に、日本語の熟語辞書を追加してあげるようなイメージです。「人工知能」を「じ・ん・こ・う・ち・の・う」と1文字ずつ読むのではなく、「人工知能」とまとめて認識できるようになります。
大規模な日本語学習データ
2020〜2023年のCommon Crawl(ウェブ上の公開テキストを大規模に収集したデータセット)から、独自に日本語テキストを抽出しています。その規模は約3,121億文字・約1.73億ページに及びます。
公開されているモデル
Swallowプロジェクトでは、ベースとなるモデルの進化に合わせて、複数シリーズのモデルを継続的に公開しています。
| 時期 | シリーズ例 | ベースモデル | 特徴 |
|---|---|---|---|
| 初期 | Swallow | Llama 2 | 日本語対応LLMとして最大級。商用利用可能 |
| 中期〜 | 複数シリーズ | Llama 3.1、Gemma 2、Qwen など | ベースモデルの多様化に合わせて順次リリース |
| 最新 | Llama 3.1 Swallow 等 | Llama 3.1 | 最新のオープンLLMをベースに日本語性能を強化 |
Llama 2 Swallowから始まり、Llama 3 / 3.1 Swallow、Gemma 2 Swallow、Qwen系のSwallowなど、多数のシリーズがHugging Face上で公開されており、研究・商用の双方で利用できます(元モデルのライセンスに従います)。
目指しているもの
Swallowプロジェクトが目指しているのは、単にモデルを公開することだけではありません。
モデルの公開:
- 日本語に強い高性能LLMを、制約の少ないライセンスで公開
- 企業利用や派生研究を促進
ノウハウの共有:
- 高性能モデルを作るための学習手順やハイパーパラメータ(レシピ)を公開
- 訓練データの設計や実験結果も含めて共有
- 日本発のLLM研究コミュニティの知識蓄積に貢献
つまり「魚を配る」だけでなく「魚の釣り方も教える」というスタンスです。これにより、他の研究者や企業がSwallowの知見をもとに独自のモデルを開発しやすくなります。
海外モデルとの使い分け
Swallowのような日本語特化LLMと、ChatGPTやGeminiのような海外モデルは、どちらが優れているというよりも、用途に応じた使い分けが大切です。
| 観点 | Swallow(日本語性能重視) | ChatGPT・Geminiなど(汎用) |
|---|---|---|
| 日本語の精度 | 日本語データで重点的に学習しており、日本語タスクで強みが出るケースがある | 良好だが英語中心の傾向 |
| 日本固有の知識 | 日本語や日本固有の文脈を厚く学習しており、日本向けタスクで有利になることが期待される | ケースによってはやや弱い場合がある |
| 英語タスク | 多くのタスクで良好(ベースモデルの能力を維持) | 非常に高い |
| 導入のしやすさ | 自前環境が必要(HuggingFaceから取得) | API呼び出しですぐ使える |
| コスト | サーバー費用のみ(モデル自体は無料) | API従量課金 |
| カスタマイズ | ファインチューニング可能 | 基本的に不可(APIの範囲内) |
自社データでファインチューニングしたい場合や、データを外部に出せないケースでは、Swallowのようなオープンモデルが有力な選択肢になります。
まとめ
| 項目 | 内容 |
|---|---|
| プロジェクト名 | Swallowプロジェクト |
| 主導機関 | 東京科学大学、産業技術総合研究所(産総研) |
| アプローチ | オープンLLM(Llama, Gemma 2, Qwen等)ベースの継続事前学習 |
| 公開モデル | Llama 2 / 3 / 3.1、Gemma 2、Qwen系など多数のシリーズ |
| ライセンス | 商用利用可能(元モデルのライセンスに従う) |
| 公開先 | Hugging Face |
- 日本語性能を重視したオープンLLMを、大学と研究機関が継続的に開発・公開している
- Llamaを中心に複数のオープンLLMを基盤とした継続事前学習で、元モデルの能力を維持しつつ日本語性能を強化
- モデルだけでなく学習レシピやデータ設計も公開し、日本のAI研究基盤の底上げを目指している
- 自社でカスタマイズしたい企業や、データを外部に出せない用途に向いている
日本語AIの活用に興味がある方は、Hugging Face上のSwallowプロジェクトのページをチェックしてみてください。
関連記事
AI導入でお困りですか?
「自社の業務に合った日本語AIモデルを導入したい」「データを外部に送らずにAIを活用したい」――そんなご要望がありましたら、AI DARUMAにご相談ください。オープンモデルの選定からカスタマイズまで、お手伝いいたします。
〒723-0062 広島県三原市本町 1丁目7-29 2階 コワーキングスペースarica内