この記事のポイント
- 古い文書特有の文字・記号を正確に読み取るためのコツがわかる
- 古文書や公文書のデジタル化で陥りがちなミスを防げる
- 時代による表記の違いを理解し、適切なデータ変換ができるようになる
はじめに
「明治時代の文書をデータ化したいけど、読めない文字がたくさん…」
相続手続き、家系調査、歴史研究、アーカイブ構築など、古い文書をデジタル化する機会は意外と多いものです。対象となる文書は、戸籍謄本、土地台帳、古い契約書、社史資料、地域の歴史文献など多岐にわたります。
しかし、現代の一般的なOCRツールでそのまま読み取ると、誤認識のオンパレードになってしまうことがあります。
本記事では、古文書や旧字体を含む文書をOCRで処理する際に気をつけるべき10のポイントをご紹介します。これらを押さえておくことで、データ化の精度が大きく向上します。
1. 変体仮名の扱い
明治・大正期の文書には「変体仮名」が頻繁に登場します。変体仮名とは、現在使われているひらがなとは異なる字形で書かれた仮名のことです。
例えば、「の」を「乃」の崩し字で書いたり、「は」を「者」の崩し字で書いたりします。これらは現代のOCRでは認識できないことがほとんどです。
対策:
- 変体仮名対応の専用OCRエンジンを使用する
- 認識後に専門家による目視チェックを行う
- よく出現する変体仮名のパターンをデータベース化しておく
2. 旧字体→新字体変換の罠
「國」→「国」、「邊」→「辺」のような旧字体から新字体への変換は、一見便利に思えます。しかし、安易な変換には落とし穴があります。
例えば、人名の「渡邊」を「渡辺」に変換してしまうと、公的書類では別人扱いになる可能性があります。また、「澤」と「沢」、「齋」と「斎」など、法的書類では明確に区別される文字もあります。歴史文献でも、原文の表記を変えてしまうと学術的価値が損なわれます。
対策:
- 原則として原文のまま保持する
- 変換が必要な場合は、原文と変換後の両方を記録する
- 人名・地名・固有名詞は特に慎重に扱う
3. 縦書き文書の処理
古い文書の多くは縦書きで記されています。縦書き文書をOCRで処理する際は、読み取り方向の設定が重要です。
横書き用の設定のままで処理すると、文字の順序がバラバラになったり、行の区切りが正しく認識されなかったりします。
対策:
- OCRツールの読み取り方向を「縦書き」に設定する
- 画像の向きが正しいか事前に確認する
- 段組みがある場合は、段ごとに分割して処理する
4. 年号と漢数字の扱い
古い文書では「明治参拾年」「大正拾弐年」のように、漢数字で年号が記されています。これを「明治30年」「大正12年」のようにアラビア数字に変換する際、いくつかの注意点があります。
- 「壱・弐・参・肆・伍・陸・漆・捌・玖・拾」などの大字(だいじ)の読み取り
- 年号と西暦の対応表の準備
- 閏月や旧暦の存在(明治5年以前)
対策:
- 大字の変換テーブルを用意しておく
- 年号→西暦の自動変換機能を実装する(ただし原文も保持)
- 日付の妥当性チェック(存在しない日付の検出)を行う
5. 繰り返し記号の復元
繰り返しを示す記号「々」「〃」「ゝ」「ゞ」や「同上」「同右」「右同断」といった表現は、そのままデータ化すると意味が通じなくなります。
例えば、勤務先欄に「株式会社山田商事 前同 前同」と書かれている場合、前の行を参照して「株式会社山田商事」を3回分のデータとして復元する必要があります。
対策:
- 「々」「〃」「同上」などを検出したら、参照先の文字列を取得する
- 復元後のデータと原文表記の両方を保持する
- 表形式のデータでは、上のセルや左のセルを参照するロジックを組む
6. 抹消線・訂正印の解釈
古い文書には、訂正や取り消しを示す抹消線・二重線が引かれていることがあります。これらは単なるノイズではなく、重要な法的・歴史的意味を持つ場合があります。
例えば、契約書の訂正箇所には訂正印が押されており、戸籍では除籍された人物の名前に抹消線が引かれます。この情報を無視すると、文書の正確な理解に支障をきたします。
対策:
- 抹消線を検出する画像処理を実装する
- 抹消された文字も読み取り、「抹消済み」のフラグを付与する
- 抹消理由や訂正の経緯も可能な限り記録する
7. 文書特有の記号・印
古い文書には独特の記号が使われています。
- ◯(まる): 署名・押印箇所、選択肢の選択
- ×(ばつ): 記載抹消、否定
- ㊞(いんかん): 印鑑の押印箇所
- 朱書き: 重要な注記、訂正
これらの記号を正しく認識し、適切に処理することが重要です。
対策:
- 文書タイプ別の記号リストを作成し、対応を決めておく
- 認識できない記号は「不明記号」としてフラグを立てる
- 記号の出現位置と文脈から意味を推定する
8. カタカナ・異体字の原文保持
明治・大正期の文書では、現代とは異なる表記が多く見られます。
- 女性名のカタカナ表記(「ハナ」「キヨ」「ツル」など)
- 片仮名の異体字(「井」→「ヰ」、「恵」→「ヱ」など)
- 合字・合略仮名(「より」を一文字で書くなど)
これを現代表記に変換すると、原文との不一致が生じる可能性があります。
対策:
- 原文表記はそのまま保持する
- 変換が必要な場合は、原文と変換後の両方を記録する
- 読み仮名として別フィールドに記録する方法も検討する
9. 旧地名・旧国名の扱い
古い文書には、現在は存在しない地名が記載されています。市町村合併、住居表示の変更、都道府県制施行前の旧国名などにより、旧地名は現代の住所とは大きく異なります。
例えば、「武蔵國荏原郡」は現在の東京都品川区・大田区の一部にあたります。
対策:
- 旧地名→現住所の変換データベースを用意する
- 変換不能な場合は原文のまま保持し、注釈を付ける
- 複数の候補がある場合は、すべての可能性を記録する
10. 専門用語・時代特有の表現
古い文書には、現代では使われなくなった専門用語や表現が含まれています。
| 旧表記 | 現代の意味 |
|---|---|
| 嫡出子 | 法律婚の夫婦間に生まれた子 |
| 庶子 | 非嫡出子 |
| 入夫 | 婿養子 |
| 分家 | 本家から独立した家 |
| 右ニ同ジ | 上記と同じ |
これらの表記を正しく理解し、現代の解釈に対応させることが重要です。
対策:
- 時代別・分野別の用語対応表を作成する
- 法的・歴史的な意味の違いにも注意する
- 原文表記と現代解釈の両方を記録する
まとめ
古文書・旧字体のOCR処理は、現代の文書とは異なる多くの課題があります。本記事でご紹介した10のポイントを意識することで、データ化の精度を大幅に向上させることができます。
重要なのは、「原文をできる限り保持しつつ、必要に応じて現代表記への変換も行う」という二段階のアプローチです。 安易な変換は、後々のトラブルの原因になりかねません。
また、OCRはあくまで補助ツールです。最終的には専門知識を持った人間による確認が欠かせません。ツールと人間の適切な役割分担が、正確なデジタル化への近道です。
次のステップ
古文書や歴史的文書のデジタル化でお困りでしたら、ぜひお気軽にご相談ください。専門スタッフが、お客様の状況に合わせた最適なソリューションをご提案いたします。
困ったときは
AI DARUMAでは、古文書OCRの活用サポートを行っています。 まずは無料相談から。
〒723-0062 広島県三原市本町 1丁目7-29 2階 コワーキングスペースarica内