この記事のポイント
- 国立国会図書館が公開したGPU不要の無料OCRソフト「NDLOCR-Lite」の概要と特徴
- Windows・Mac・Linuxで動き、マウス操作だけで使えるGUIアプリが付属
- 日本語の縦書き・横書きに対応し、英文や手書きも試せる実用的なツール
はじめに
「紙の資料をデジタル化したいけど、OCRソフトは高い」「無料のOCRは英語向けばかりで、日本語の精度がイマイチ」と感じたことはありませんか?
そんな悩みに応える形で、国立国会図書館(NDL)が新しいOCRソフトを無料公開しました。その名も「NDLOCR-Lite」。これまでのNDLOCRはGPU(高性能なグラフィックカード)が必須で、導入のハードルが高いのが課題でした。NDLOCR-Liteはその名の通り「軽量版」で、一般的なノートPCでもサクサク動くよう設計されています。
この記事では、NDLOCR-Liteがどんなソフトなのか、何ができるのかを一般ユーザー目線で紹介します。
NDLOCR-Liteとは
NDLOCR-Liteは、国立国会図書館のNDLラボが開発した日本語対応のOCR(光学文字認識)ソフトウェアです。図書・雑誌などのスキャン画像からテキストデータを自動生成する用途で作られています。
もともとNDLラボは「NDLOCR」というOCRソフトを公開していましたが、こちらはNVIDIA製GPUとCUDA環境が必須。パソコンに詳しくない方にはかなりハードルが高いものでした。
NDLOCR-Liteは、このNDLOCRの軽量版として新たに開発されたもので、GPUなしでも高速に動作します。2026年2月24日に公開され、GitHub上でアプリ本体とソースコードがダウンロードできます。
NDLOCR-Liteの主な特徴
GPU不要で一般PCでも動く
最大の特徴は、CUDAや専用GPUが不要なこと。家庭用のノートPCレベルでも十分に高速で動作します。
マルチプラットフォーム対応
以下のOSで動作確認がされています。
| OS | バージョン |
|---|---|
| Windows | 11 |
| macOS | 15 |
| Ubuntu | 22.04 |
対応する文字種とレイアウト
- 日本語の活字(横書き・縦書きの両方)に対応
- 英文にも対応(NDLOCRでは苦手だった部分)
- 手書き文字にも「実験的に」対応
- くずし字・漢籍も読める場合があるが、本格的に使うなら別途「NDL古典籍OCR」が推奨されている
豊富な出力形式
GUI版では、以下の出力形式が選べます。
- プレーンテキスト
- XML(座標・レイアウト情報付き)
- TEI形式
- 透明テキスト付きPDF
透明テキスト付きPDFは、見た目はスキャン画像のまま、テキストで検索やコピーができるようになるので便利です。
ライセンス
CC BY 4.0で公開されています。クレジット表記をすれば、商用利用も含めて自由に使えます。企業が自社の業務フローに組み込むことも可能です。
インストールと基本的な使い方
配布場所
NDLラボの公式GitHubリポジトリ「ndlocr-lite」から、GUI版アプリとソースコードをダウンロードできます。
2つの実行方式
| 方式 | 対象ユーザー | 必要なもの |
|---|---|---|
| GUI版デスクトップアプリ | 一般ユーザー | Windows or Mac |
| コマンドライン版 | 開発者・エンジニア | Python 3.10 |
GUI版の基本操作
GUI版はマウス操作だけで使えるように設計されています。手順は以下の通りです。
- アプリを起動する
- 言語を選択する(日本語・英語など)
- 入力する画像ファイルまたはPDFを指定する
- 出力先のフォルダを指定する
- 「OCR」ボタンを押す → 一括処理が始まる
一部だけOCRしたい場合は、「Crop&OCR」機能で画像の範囲を選択して部分的に処理することもできます。
NDLOCRとの違い
| 項目 | NDLOCR | NDLOCR-Lite |
|---|---|---|
| GPU | NVIDIA GPU必須(CUDA 11.1) | 不要 |
| 対象PC | 高性能PC | 一般的なノートPC |
| 英文対応 | 苦手 | 対応 |
| 手書き対応 | 非対応 | 実験的に対応 |
| GUI | なし | あり |
| 導入ハードル | 高い | 低い |
NDLOCR-Liteは性能面で従来のNDLOCRに劣る部分もあるかもしれませんが、「誰でも手軽に使える」という点で大きく進化しています。
関連ツール:NDL古典籍OCR
NDLラボはNDLOCR-Liteのほかにも、江戸時代以前の和古書や漢籍向けの「NDL古典籍OCR」「NDL古典籍OCR-Lite」も公開しています。くずし字の高精度な読み取りが必要な場合は、こちらの利用が推奨されています。これらの開発で得られた知見が、NDLOCR-Liteにも活かされているとのことです。
実際に使ってみた
(このセクションは後日、実際に使用した結果を追記予定です)
まとめ
| ポイント | 内容 |
|---|---|
| 開発元 | 国立国会図書館 NDLラボ |
| 価格 | 無料(CC BY 4.0) |
| GPU | 不要 |
| 対応OS | Windows 11 / macOS 15 / Ubuntu 22.04 |
| 対応文字 | 日本語活字(縦書き・横書き)、英文、手書き(実験的) |
| GUI | マウス操作だけで使えるデスクトップアプリあり |
| おすすめ用途 | 紙資料のデジタル化、書籍スキャンのテキスト化 |
国の機関が作った無料ツールという信頼性の高さに加え、GPU不要でWindows・Mac・Linuxの3OSに対応しているため、学校・図書館・研究室・職場など幅広い場面で導入しやすいのが大きな魅力です。紙の資料をテキスト化して検索可能にしたい方は、ぜひ試してみてください。
関連記事
AI導入でお困りですか?
「紙の資料が山積みで、デジタル化の進め方がわからない」「OCRの精度が思うように出ない」そんなお悩みはありませんか?
AI DARUMAでは、OCRを活用した文書デジタル化のご相談も承っています。お気軽にお問い合わせください。
〒723-0062 広島県三原市本町 1丁目7-29 2階 コワーキングスペースarica内