Claude Skills で「OCR 専用アシスタント」を作る方法

この記事のポイント

  • SKILL.md ファイル1つで、Claude に OCR 専門家としての振る舞いを追加できる
  • Claude Code(CLI)でも Claude.ai(ブラウザ)でも同じ考え方で設定可能
  • コピペで使える SKILL.md テンプレートを掲載

はじめに

Claude や GPT-4 などの LLM は、Vision 機能によって画像や PDF の文字を高精度に読めるようになりました。従来の OCR ツール(Tesseract など)と比べて、レイアウトの理解・文脈の補完・JSON への構造化が得意です。

しかし、毎回「Markdown で出力して」「読み取れない文字は□にして」といった指示を書くのは面倒です。

そこで登場するのが Claude Skills です。OCR 用の指示をあらかじめ定義しておけば、毎回プロンプトを書かなくても、高品質な OCR が一発で実行できるようになります。

Skills の基本的な仕組み(SKILL.md の構造、配置場所、呼び出し方法など)については、Claude Skills とは?― AI に「得意技」を覚えさせる新しい方法 をご覧ください。

本記事では、Skills の知識を前提に、OCR 専用スキルを実際に作る手順を解説します。


OCR 専用 Skill を作る

ステップ 1:フォルダを作成

ターミナルで以下を実行します。

個人用(すべてのプロジェクトで使える):

mkdir -p ~/.claude/skills/ocr-basic

プロジェクト用(特定のプロジェクトだけで使う):

mkdir -p .claude/skills/ocr-basic

OCR スキルはどのプロジェクトでも使える汎用的なものなので、ここでは個人用で進めます。

ステップ 2:SKILL.md を作成

~/.claude/skills/ocr-basic/SKILL.md に以下の内容を保存します。そのままコピペで使えます。

<!-->フロントマスター<-->
name: ocr-basic
description: 画像やPDFから日本語テキストを高精度にOCRし、Markdown形式で返す。OCR、文字認識、テキスト抽出を求められたときに使用する。

<!-->OCRのルール<-->
# OCR Basic Skill

## 役割

あなたは画像やPDFから日本語テキストを抽出する専門アシスタントです。
ユーザーが渡したファイルから、できるだけ元のレイアウトを保ちながらテキストを抽出し、Markdown形式で返してください。

## 基本ルール

- 可能な限り全文を漏れなく読み取ること。
- 段落や改行、箇条書きなどの構造をMarkdownで再現すること。
- 装飾やレイアウト情報(フォントサイズ、色など)は基本的に無視してよい。
- 明らかにノイズな部分(スキャンのゴミ、欠けた文字など)は文脈から補ってもよいが、迷った場合はそのまま写すこと。
- 読み取れない文字や判別が難しい箇所は「□」や「[判別不能]」で明示すること。

## 出力フォーマット

- 返答は必ずMarkdown形式のテキストのみとすること。
- 余計な前置き(「以下が結果です」など)は書かず、いきなり本文から始めること。
- 見出しが明確な場合は `#` `##` などを使って再現してよい。
- 表が含まれる場合はMarkdownテーブルで再現すること。

## 使い方の例

- 「このPDFをOCRして、Markdownでテキストにしてください」
- 「このフォルダ内の画像を順番にOCRして、1つのMarkdownドキュメントにまとめて」
- 「このスキャン画像から日本語テキストをすべて抽出して」

ステップ 3:使ってみる

Claude Code を起動して、以下のどちらかの方法で呼び出します。

方法 A:スラッシュコマンドで直接呼び出す

/ocr-basic 名刺画像.png

/ に続けてスキル名を入力すると、そのスキルを確実に呼び出せます。入力中にタブ補完も効くため、スキル名を正確に覚えていなくても大丈夫です。

方法 B:自然に話しかける(自動発動)

この画像をOCRして、Markdownにしてください

description に「OCR」「文字認識」「テキスト抽出」などのキーワードを入れているため、関連する依頼をすると Claude が自動的にこのスキルを適用します。

よくある誤解:「スラッシュコマンドは使えない」?

「カスタムスキルは自然言語でしか呼び出せない」と誤解されることがありますが、/スキル名 によるスラッシュコマンド呼び出しは正式にサポートされています。 スキルの呼び出し方法をまとめると以下の通りです。

方法動作
スラッシュコマンド/ocr-basic 画像.png確実にスキルが発動する
自然言語「この画像をOCRして」description が一致すれば自動発動

スラッシュコマンドが効かない場合は、SKILL.md の配置場所(~/.claude/skills/ または .claude/skills/)やファイル名が正しいか確認してください。


実行例

名刺の読み取り

/ocr-basic 名刺サンプル(企業).png

Claude は名刺の画像を読み取り、会社名・氏名・電話番号などをMarkdown形式で出力します。

## 株式会社 田中システムズ

**田中 太郎**
取締役 技術統括部長

- TEL: 03-1234-5678
- Email: tanaka@tanaka-systems.co.jp
- 〒100-0001 東京都千代田区丸の内1-2-3

outputフォルダなどを作成し、読み取り結果を保存するようにしておけば自動仕訳までできます。

ホワイトボードのメモ

会議後にホワイトボードを撮影して読み取れば、議事メモの下書きが即座に完成します。

このホワイトボードの写真をOCRしてください

スキャン PDF

紙のマニュアルや会議資料をスキャンした PDF も、同じスキルで対応可能です。複数ページの PDF でも、1つのMarkdownドキュメントとして出力してくれます。


運用のコツ

description の書き方が重要

description に書いたキーワードが、Claude の自動判定に使われます。「OCR」だけでなく、「文字認識」「テキスト抽出」「読み取り」など、ユーザーが実際に使いそうな言葉を含めておくと、自動発動の精度が上がります。

手動専用にしたい場合

自動で発動してほしくない場合は、frontmatter に disable-model-invocation: true を追加します。

---
name: ocr-basic
description: 画像やPDFから日本語テキストをOCRする
disable-model-invocation: true
---

これにより、/ocr-basic で明示的に呼び出したときだけ動作するようになります。

発展のアイデア

このスキルをベースに、用途に合わせたバリエーションも作れます。

発展パターン概要
レシート → JSON日付・店名・金額を構造化して JSON 出力
要約モードOCR 後にそのまま要約まで実行
多言語対応英語・中国語など複数言語に対応する指示を追加

まとめ

Claude Skills を使えば、OCR 用のプロンプトを毎回書く必要がなくなります。

ステップやること
1~/.claude/skills/ocr-basic/ フォルダを作成
2SKILL.md にOCR用の指示を記述
3/ocr-basic または自然な会話で呼び出す

まずは手元の名刺やレシートで試してみてください。 プロンプトを毎回考える手間がなくなり、OCR の品質も安定します。

関連記事


AI導入でお困りですか?

「Claude Skills を試してみたいけど、自社の業務に合ったスキルの設計がわからない」

「OCR だけでなく、社内文書の検索や要約にも AI を活用したい」

そんなご要望がありましたら、AI DARUMAにご相談ください。貴社の業務内容に応じた、最適な AI 活用方法をご提案いたします。

〒723-0062 広島県三原市本町 1丁目7-29 2階 コワーキングスペースarica内