この記事のポイント
- SKILL.md ファイル1つで、Claude に OCR 専門家としての振る舞いを追加できる
- Claude Code(CLI)でも Claude.ai(ブラウザ)でも同じ考え方で設定可能
- コピペで使える SKILL.md テンプレートを掲載
はじめに
Claude や GPT-4 などの LLM は、Vision 機能によって画像や PDF の文字を高精度に読めるようになりました。従来の OCR ツール(Tesseract など)と比べて、レイアウトの理解・文脈の補完・JSON への構造化が得意です。
しかし、毎回「Markdown で出力して」「読み取れない文字は□にして」といった指示を書くのは面倒です。
そこで登場するのが Claude Skills です。OCR 用の指示をあらかじめ定義しておけば、毎回プロンプトを書かなくても、高品質な OCR が一発で実行できるようになります。
Skills の基本的な仕組み(SKILL.md の構造、配置場所、呼び出し方法など)については、Claude Skills とは?― AI に「得意技」を覚えさせる新しい方法 をご覧ください。
本記事では、Skills の知識を前提に、OCR 専用スキルを実際に作る手順を解説します。
OCR 専用 Skill を作る
ステップ 1:フォルダを作成
ターミナルで以下を実行します。
個人用(すべてのプロジェクトで使える):
mkdir -p ~/.claude/skills/ocr-basic
プロジェクト用(特定のプロジェクトだけで使う):
mkdir -p .claude/skills/ocr-basic
OCR スキルはどのプロジェクトでも使える汎用的なものなので、ここでは個人用で進めます。
ステップ 2:SKILL.md を作成
~/.claude/skills/ocr-basic/SKILL.md に以下の内容を保存します。そのままコピペで使えます。
<!-->フロントマスター<-->
name: ocr-basic
description: 画像やPDFから日本語テキストを高精度にOCRし、Markdown形式で返す。OCR、文字認識、テキスト抽出を求められたときに使用する。
<!-->OCRのルール<-->
# OCR Basic Skill
## 役割
あなたは画像やPDFから日本語テキストを抽出する専門アシスタントです。
ユーザーが渡したファイルから、できるだけ元のレイアウトを保ちながらテキストを抽出し、Markdown形式で返してください。
## 基本ルール
- 可能な限り全文を漏れなく読み取ること。
- 段落や改行、箇条書きなどの構造をMarkdownで再現すること。
- 装飾やレイアウト情報(フォントサイズ、色など)は基本的に無視してよい。
- 明らかにノイズな部分(スキャンのゴミ、欠けた文字など)は文脈から補ってもよいが、迷った場合はそのまま写すこと。
- 読み取れない文字や判別が難しい箇所は「□」や「[判別不能]」で明示すること。
## 出力フォーマット
- 返答は必ずMarkdown形式のテキストのみとすること。
- 余計な前置き(「以下が結果です」など)は書かず、いきなり本文から始めること。
- 見出しが明確な場合は `#` `##` などを使って再現してよい。
- 表が含まれる場合はMarkdownテーブルで再現すること。
## 使い方の例
- 「このPDFをOCRして、Markdownでテキストにしてください」
- 「このフォルダ内の画像を順番にOCRして、1つのMarkdownドキュメントにまとめて」
- 「このスキャン画像から日本語テキストをすべて抽出して」
ステップ 3:使ってみる
Claude Code を起動して、以下のどちらかの方法で呼び出します。
方法 A:スラッシュコマンドで直接呼び出す
/ocr-basic 名刺画像.png
/ に続けてスキル名を入力すると、そのスキルを確実に呼び出せます。入力中にタブ補完も効くため、スキル名を正確に覚えていなくても大丈夫です。
方法 B:自然に話しかける(自動発動)
この画像をOCRして、Markdownにしてください
description に「OCR」「文字認識」「テキスト抽出」などのキーワードを入れているため、関連する依頼をすると Claude が自動的にこのスキルを適用します。
よくある誤解:「スラッシュコマンドは使えない」?
「カスタムスキルは自然言語でしか呼び出せない」と誤解されることがありますが、
/スキル名によるスラッシュコマンド呼び出しは正式にサポートされています。 スキルの呼び出し方法をまとめると以下の通りです。
方法 例 動作 スラッシュコマンド /ocr-basic 画像.png確実にスキルが発動する 自然言語 「この画像をOCRして」 description が一致すれば自動発動 スラッシュコマンドが効かない場合は、
SKILL.mdの配置場所(~/.claude/skills/または.claude/skills/)やファイル名が正しいか確認してください。
実行例
名刺の読み取り
/ocr-basic 名刺サンプル(企業).png
Claude は名刺の画像を読み取り、会社名・氏名・電話番号などをMarkdown形式で出力します。
## 株式会社 田中システムズ
**田中 太郎**
取締役 技術統括部長
- TEL: 03-1234-5678
- Email: tanaka@tanaka-systems.co.jp
- 〒100-0001 東京都千代田区丸の内1-2-3
outputフォルダなどを作成し、読み取り結果を保存するようにしておけば自動仕訳までできます。
ホワイトボードのメモ
会議後にホワイトボードを撮影して読み取れば、議事メモの下書きが即座に完成します。
このホワイトボードの写真をOCRしてください
スキャン PDF
紙のマニュアルや会議資料をスキャンした PDF も、同じスキルで対応可能です。複数ページの PDF でも、1つのMarkdownドキュメントとして出力してくれます。
運用のコツ
description の書き方が重要
description に書いたキーワードが、Claude の自動判定に使われます。「OCR」だけでなく、「文字認識」「テキスト抽出」「読み取り」など、ユーザーが実際に使いそうな言葉を含めておくと、自動発動の精度が上がります。
手動専用にしたい場合
自動で発動してほしくない場合は、frontmatter に disable-model-invocation: true を追加します。
---
name: ocr-basic
description: 画像やPDFから日本語テキストをOCRする
disable-model-invocation: true
---
これにより、/ocr-basic で明示的に呼び出したときだけ動作するようになります。
発展のアイデア
このスキルをベースに、用途に合わせたバリエーションも作れます。
| 発展パターン | 概要 |
|---|---|
| レシート → JSON | 日付・店名・金額を構造化して JSON 出力 |
| 要約モード | OCR 後にそのまま要約まで実行 |
| 多言語対応 | 英語・中国語など複数言語に対応する指示を追加 |
まとめ
Claude Skills を使えば、OCR 用のプロンプトを毎回書く必要がなくなります。
| ステップ | やること |
|---|---|
| 1 | ~/.claude/skills/ocr-basic/ フォルダを作成 |
| 2 | SKILL.md にOCR用の指示を記述 |
| 3 | /ocr-basic または自然な会話で呼び出す |
まずは手元の名刺やレシートで試してみてください。 プロンプトを毎回考える手間がなくなり、OCR の品質も安定します。
関連記事
AI導入でお困りですか?
「Claude Skills を試してみたいけど、自社の業務に合ったスキルの設計がわからない」
「OCR だけでなく、社内文書の検索や要約にも AI を活用したい」
そんなご要望がありましたら、AI DARUMAにご相談ください。貴社の業務内容に応じた、最適な AI 活用方法をご提案いたします。
〒723-0062 広島県三原市本町 1丁目7-29 2階 コワーキングスペースarica内