Claude Skills で「OCR 専用アシスタント」を作る方法

この記事のポイント

SKILL.md ファイル1つで、Claude に OCR 専門家としての振る舞いを追加できる
Claude Code（CLI）でも Claude.ai（ブラウザ）でも同じ考え方で設定可能
コピペで使える SKILL.md テンプレートを掲載

はじめに

Claude や GPT-4 などの LLM は、Vision 機能によって画像や PDF の文字を高精度に読めるようになりました。従来の OCR ツール（Tesseract など）と比べて、レイアウトの理解・文脈の補完・JSON への構造化が得意です。

しかし、毎回「Markdown で出力して」「読み取れない文字は□にして」といった指示を書くのは面倒です。

そこで登場するのが Claude Skills です。OCR 用の指示をあらかじめ定義しておけば、毎回プロンプトを書かなくても、高品質な OCR が一発で実行できるようになります。

Skills の基本的な仕組み（SKILL.md の構造、配置場所、呼び出し方法など）については、Claude Skills とは？― AI に「得意技」を覚えさせる新しい方法をご覧ください。

本記事では、Skills の知識を前提に、OCR 専用スキルを実際に作る手順を解説します。

OCR 専用 Skill を作る

ステップ 1：フォルダを作成

ターミナルで以下を実行します。

個人用（すべてのプロジェクトで使える）：

mkdir -p ~/.claude/skills/ocr-basic

プロジェクト用（特定のプロジェクトだけで使う）：

mkdir -p .claude/skills/ocr-basic

OCR スキルはどのプロジェクトでも使える汎用的なものなので、ここでは個人用で進めます。

ステップ 2：SKILL.md を作成

~/.claude/skills/ocr-basic/SKILL.md に以下の内容を保存します。そのままコピペで使えます。

<!-->フロントマスター<-->
name: ocr-basic
description: 画像やPDFから日本語テキストを高精度にOCRし、Markdown形式で返す。OCR、文字認識、テキスト抽出を求められたときに使用する。

<!-->OCRのルール<-->
# OCR Basic Skill

## 役割

あなたは画像やPDFから日本語テキストを抽出する専門アシスタントです。
ユーザーが渡したファイルから、できるだけ元のレイアウトを保ちながらテキストを抽出し、Markdown形式で返してください。

## 基本ルール

- 可能な限り全文を漏れなく読み取ること。
- 段落や改行、箇条書きなどの構造をMarkdownで再現すること。
- 装飾やレイアウト情報（フォントサイズ、色など）は基本的に無視してよい。
- 明らかにノイズな部分（スキャンのゴミ、欠けた文字など）は文脈から補ってもよいが、迷った場合はそのまま写すこと。
- 読み取れない文字や判別が難しい箇所は「□」や「[判別不能]」で明示すること。

## 出力フォーマット

- 返答は必ずMarkdown形式のテキストのみとすること。
- 余計な前置き（「以下が結果です」など）は書かず、いきなり本文から始めること。
- 見出しが明確な場合は `#` `##` などを使って再現してよい。
- 表が含まれる場合はMarkdownテーブルで再現すること。

## 使い方の例

- 「このPDFをOCRして、Markdownでテキストにしてください」
- 「このフォルダ内の画像を順番にOCRして、1つのMarkdownドキュメントにまとめて」
- 「このスキャン画像から日本語テキストをすべて抽出して」

ステップ 3：使ってみる

Claude Code を起動して、以下のどちらかの方法で呼び出します。

方法 A：スラッシュコマンドで直接呼び出す

/ocr-basic 名刺画像.png

/ に続けてスキル名を入力すると、そのスキルを確実に呼び出せます。入力中にタブ補完も効くため、スキル名を正確に覚えていなくても大丈夫です。

方法 B：自然に話しかける（自動発動）

この画像をOCRして、Markdownにしてください

description に「OCR」「文字認識」「テキスト抽出」などのキーワードを入れているため、関連する依頼をすると Claude が自動的にこのスキルを適用します。

よくある誤解：「スラッシュコマンドは使えない」？

「カスタムスキルは自然言語でしか呼び出せない」と誤解されることがありますが、/スキル名 によるスラッシュコマンド呼び出しは正式にサポートされています。 スキルの呼び出し方法をまとめると以下の通りです。

方法例動作
スラッシュコマンド /ocr-basic 画像.png 確実にスキルが発動する
自然言語「この画像をOCRして」 description が一致すれば自動発動

スラッシュコマンドが効かない場合は、SKILL.md の配置場所（~/.claude/skills/ または .claude/skills/）やファイル名が正しいか確認してください。

方法	例	動作
スラッシュコマンド	`/ocr-basic 画像.png`	確実にスキルが発動する
自然言語	「この画像をOCRして」	description が一致すれば自動発動

実行例

名刺の読み取り

/ocr-basic 名刺サンプル（企業）.png

Claude は名刺の画像を読み取り、会社名・氏名・電話番号などをMarkdown形式で出力します。

## 株式会社 田中システムズ

**田中 太郎**
取締役 技術統括部長

- TEL: 03-1234-5678
- Email: tanaka@tanaka-systems.co.jp
- 〒100-0001 東京都千代田区丸の内1-2-3

outputフォルダなどを作成し、読み取り結果を保存するようにしておけば自動仕訳までできます。

ホワイトボードのメモ

会議後にホワイトボードを撮影して読み取れば、議事メモの下書きが即座に完成します。

このホワイトボードの写真をOCRしてください

スキャン PDF

紙のマニュアルや会議資料をスキャンした PDF も、同じスキルで対応可能です。複数ページの PDF でも、1つのMarkdownドキュメントとして出力してくれます。

運用のコツ

description の書き方が重要

description に書いたキーワードが、Claude の自動判定に使われます。「OCR」だけでなく、「文字認識」「テキスト抽出」「読み取り」など、ユーザーが実際に使いそうな言葉を含めておくと、自動発動の精度が上がります。

手動専用にしたい場合

自動で発動してほしくない場合は、frontmatter に disable-model-invocation: true を追加します。

---
name: ocr-basic
description: 画像やPDFから日本語テキストをOCRする
disable-model-invocation: true
---

これにより、/ocr-basic で明示的に呼び出したときだけ動作するようになります。

発展のアイデア

このスキルをベースに、用途に合わせたバリエーションも作れます。

発展パターン	概要
レシート → JSON	日付・店名・金額を構造化して JSON 出力
要約モード	OCR 後にそのまま要約まで実行
多言語対応	英語・中国語など複数言語に対応する指示を追加

まとめ

Claude Skills を使えば、OCR 用のプロンプトを毎回書く必要がなくなります。

ステップ	やること
1	`~/.claude/skills/ocr-basic/` フォルダを作成
2	`SKILL.md` にOCR用の指示を記述
3	`/ocr-basic` または自然な会話で呼び出す

まずは手元の名刺やレシートで試してみてください。 プロンプトを毎回考える手間がなくなり、OCR の品質も安定します。

AI導入でお困りですか？

「Claude Skills を試してみたいけど、自社の業務に合ったスキルの設計がわからない」

「OCR だけでなく、社内文書の検索や要約にも AI を活用したい」

そんなご要望がありましたら、AI DARUMAにご相談ください。貴社の業務内容に応じた、最適な AI 活用方法をご提案いたします。

〒723-0062 広島県三原市本町 1丁目7-29 2階コワーキングスペースarica内