ドキュメントの束をスキャンしてPDFにしました。画面上では、鮮明で読みやすく、プロフェッショナルに見えます。しかし、単語を検索したり、段落をコピーしたり、電話番号を選択しようとすると、何も起こりません。カーソルは、画像をドラッグしているかのように、ページ全体に青い四角形を描くだけです。なぜなら、それがまさにあなたがやっていることだからです。

スキャンされたPDFは写真です。各ページは単一の画像であり、文字、単語、文の概念を持たないピクセルの平坦なグリッドです。コンピューターは、夕日のJPEG画像に見えるテキストと同じ量のテキストしか、スキャンされたPDFから認識できません。つまり、テキストはゼロです。

OCR（光学文字認識）がこれを解決します。各ページの画像を分析し、文字を識別して、元のスキャンの上に目に見えないテキストレイヤーを追加します。見た目は全く同じですが、これで検索、コピー、テキスト選択が可能になり、スクリーンリーダーもアクセスできるようになります。

このガイドでは、OCRとは何か、どのように機能するか、スキャンされたPDFをOCR処理する3つの方法、そして最良の結果を得る方法について説明します。

How to OCR a scanned PDF - converting image-only pages into searchable, selectable text

PDFにOCRが必要かどうかを見分ける方法

OCRに時間を投資する前に、PDFに実際にOCRが必要かどうかを確認してください。多くのPDFは「デジタル生まれ」であり、Word文書、Excelスプレッドシート、またはWebページから作成されているため、すでに実際のテキストレイヤーが含まれています。

5秒テスト

PDFを任意のビューア（Adobe Reader、Preview、Chrome、Edge）で開きます。
Ctrl+F（Windows/Linux）またはCmd+F（Mac）を押します。
ページ上に見える単語を入力します。
ビューアが単語をハイライトした場合：PDFにはすでに検索可能なテキストが含まれています。OCRは不要です。
何も見つからない場合：PDFは画像のみです。OCRが必要です。

選択テスト

ページ上のテキストをクリックしてドラッグして選択してみてください。

個々の単語を選択できる場合、それらが青くハイライトされる場合：PDFにはテキストレイヤーがあります。
ページ全体が1つのブロックとして選択される場合（画像を選択するような場合）：PDFはテキストレイヤーのないスキャンです。
一部のテキストは選択できるが、他のテキストは選択できない場合：PDFは部分的にOCR処理されているか、混合コンテンツです。一部のページはデジタルで、他はスキャンされています。

OCRが必要な一般的なPDFの種類

ドキュメントの種類	通常OCRが必要か？	理由
スキャンされた紙の文書	はい	純粋な画像、テキストデータなし
ファックスされた文書をPDFとして保存	はい	ファックス出力はラスター画像
文書の写真（携帯カメラ）	はい	カメラキャプチャ＝画像
コピー機からの「メールでスキャン」PDF	はい	ほとんどのコピー機は画像PDFを生成
Word/ExcelからエクスポートされたPDF	いいえ	デジタル生まれ、テキストレイヤーが含まれる
WebブラウザからPDF（PDFに印刷）	いいえ	テキストが保持される
オンラインでダウンロードした政府フォーム	通常いいえ	ほとんどがデジタル生まれ
PDF添付ファイルとして送信された領収書	通常いいえ	テキストを含むPOSシステムによって生成

OCRとは何か？平易な言葉での説明

OCRはOptical Character Recognition（光学文字認識）の略です。 画像からテキストを読み取る技術であり、ピクセルのパターンを分析して文字、数字、記号を識別します。これは、あなたの目がページ上の単語を読むのと非常によく似ています。

ドキュメントをスキャンすると、スキャナーは写真を撮ります。その写真にはピクセルが含まれています。インクがあった場所は暗く、紙があった場所は明るいですが、実際のテキストデータはありません。スキャナーは、ピクセルの配置が「請求書」という単語を綴っていることを知りません。単に画像を記録するだけです。

OCRはその画像を取り込み、形状を分析し、既知の文字パターンと比較して、それらの形状が表すテキストを出力します。結果は、元のスキャンと見た目が全く同じですが、目に見えないテキストレイヤーが含まれるPDFになります。Ctrl+Fを押して「December」を検索すると、PDFビューアはテキストレイヤーを確認し、一致するものを見つけて、その単語が表示されている画像上の領域をハイライトします。

OCRは1950年代にまで遡ります。初期のシステムは、制御された環境で特定のフォントしか処理できませんでした。この技術は、テンプレートマッチング（1970年代～80年代）、特徴抽出（1990年代～2000年代）、機械学習（2010年代）を経て進化しました。今日のOCRは、文字認識のためのディープニューラルネットワークと、文脈を使用して曖昧さを解決する言語モデルを組み合わせています。システムが文字が「l」なのか「1」なのか確信が持てない場合、周囲の単語がそれを判断するのに役立ちます。

最新のOCRエンジンは、クリーンで適切にスキャンされた印刷文書に対して99%以上の文字精度を達成しています。

OCRの仕組み：技術的なプロセス

OCRは単一のアルゴリズムではありません。それはパイプライン化されたステップであり、各ステップは前のステップの上に構築されます。

ステップ1：画像の前処理

文字認識が行われる前に、OCRエンジンは画像をクリーンアップします。これには、二値化（最大のコントラストを得るために白黒に変換）、傾き補正（わずかなページの回転さえも補正します。1～2度の傾きでも精度が著しく低下する可能性があります）、ノイズ除去（スキャナーのアーティファクトや斑点を排除）、境界除去（黒い縁や綴じ代の影を削除）が含まれます。

ステップ2：レイアウト分析

エンジンは、テキストブロック、列、画像、ヘッダー、フッター、テーブル、および読み取り順序などのページ構造を識別します。このステップがないと、2列の文書が両方の列を同時に読み取るような混乱した出力になる可能性があります。

ステップ3：文字セグメンテーション

各テキストブロック内で、個々の文字が分離されます。行は垂直方向の間隔で、単語は水平方向のギャップで、単語内の文字はそれらの境界で分離されます。これは言うほど簡単ではありません。多くのフォントでは文字が重なったりくっついたりしており、アラビア語やデーヴァナーガリーのようなスクリプトでは、文字が複雑に接続します。

ステップ4：文字認識

各セグメント化された文字画像は、ラベル付けされた何百万もの文字画像でトレーニングされたディープニューラルネットワークを使用して分類されます。ネットワークは、単一の回答ではなく、信頼度ランク付けされた候補のリストを出力します。クリーンな「A」は99.8%の信頼度を得るかもしれません。劣化している文字は、はるかに平坦な分布を生成する可能性があります。

ステップ5：言語モデリング

生の文字認識はエラーが発生しやすいです。文脈が曖昧さを解決します。「lnvoice」は単語ですか？いいえ、「l」は実際には「I」であり、「Invoice」になります。統計言語モデルは、可能性のある文字シーケンスを予測し、フォーマット検証は日付や数値のようなパターンにルールを適用します。

ステップ6：出力生成

認識されたテキストは元の画像座標にマッピングされ、PDFに目に見えないテキストレイヤーとして書き込まれます。各単語は視覚的な対応物に正確に整列され、検索とハイライトの機能が可能になります。

方法1：PDFSub OCRツール（推奨）

How OCR converts a scanned PDF to searchable text - Upload Scan, OCR Analysis, Extract Text, Searchable PDF

PDFSubのOCRツールは、スキャンされたPDFを処理し、各ページの元の視覚的表示を維持しながら検索可能なテキストレイヤーを追加します。

手順

OCRツールにアクセス - pdfsub.com/tools/ocrに移動します。
スキャンされたPDFをアップロード - ファイルをドラッグ＆ドロップするか、クリックして参照します。大きなドキュメントを分割する必要はありません。複数ページのPDFは自動的に処理されます。
OCRがドキュメントを処理 - ツールは各ページを分析し、テキストを認識し、目に見えないテキストレイヤーを構築します。処理時間はページ数と複雑さによって異なりますが、ほとんどのドキュメントは数秒で完了します。
検索可能なPDFをダウンロード - 出力ファイルは元のスキャンと全く同じように見えますが、テキスト検索、テキスト選択、コピー＆ペーストがサポートされます。

PDFSubを選ぶ理由

130以上の言語をサポート。 OCRは、英語、スペイン語、フランス語、ドイツ語、中国語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語、ポルトガル語、およびその他の120以上の言語のドキュメントで機能します。複数言語のドキュメントも自動的に処理されます。事前に言語を指定する必要はありません。

元の表示を維持。 OCRプロセスは、視覚的なコンテンツを変更せずにテキストデータを追加します。スキャンされたページの見た目は全く同じです。フォント、レイアウト、スタンプ、署名、手書きの注釈はすべてそのまま残ります。

ソフトウェアのインストール不要。 すべてブラウザまたはセキュアサーバー上で実行されます。ダウンロードするものも、システム要件を確認する必要も、互換性の問題もありません。

プライバシーに配慮した設計。 アップロードされたドキュメントは処理後に削除されます。PDFSubはお客様のファイルを保存したり、トレーニングに使用したりしません。

無料トライアル。 PDFSubでは7日間の無料トライアルを提供しており、契約前にご自身のドキュメントでOCRをテストできます。

方法2：Adobe Acrobat Pro

Adobe Acrobat Proには、「スキャンとOCR」ツールセット内に「テキスト認識」と呼ばれる組み込みOCR機能が含まれています。

手順

Adobe Acrobat ProでスキャンされたPDFを開きます。
ツールに移動し、スキャンとOCRを選択します。
テキスト認識をクリックし、「このファイル内」または「複数ファイル内」を選択します。
設定で、「検索可能な画像」（目に見えないテキストレイヤーを追加 - 推奨）を選択します。
テキスト認識をクリックして処理を開始します。
ファイルを保存します。

利点と制限

Adobeは、クリーンな英語のスキャンに対して高い精度を提供し、バッチ処理をサポートし、OCRエラーを直接修正できます。しかし、Acrobat Proは年間プランで月額$19.99（年間$239.88）かかり、デスクトップインストールが必要（ブラウザベースのOCRなし）、約20言語しかサポートしておらず、50ページを超えるドキュメントでは処理が遅くなる可能性があります。

方法3：Googleドライブ（無料、ただし品質低下の可能性あり）

Googleドライブには、スキャンされたPDFからテキストを抽出する基本的なOCR機能が含まれていますが、重大なトレードオフがあります。

手順

スキャンされたPDFをGoogleドライブにアップロードします。
ファイルを右クリックし、「プログラムから開く」を選択し、「Googleドキュメント」を選択します。
GoogleがPDFを処理し、抽出されたテキストを含むGoogleドキュメントを作成します。
テキストは検索可能、選択可能、編集可能になります。

利点と制限

GoogleドライブのOCRは完全に無料で、クリーンなタイプされた文書に対して良好な精度を提供し、言語を自動検出します。しかし、重要なトレードオフがあります：フォーマットが破壊されます。 GoogleはPDFにテキストレイヤーを追加するのではなく、Googleドキュメントにテキストを抽出します。テーブルはプレーンテキストになり、列は崩壊し、元のレイアウトは失われます。結果として検索可能なPDFではなく、Googleドキュメントが得られます。

また、10ページ未満のドキュメントで最も効果的です。長いドキュメントは切り捨てられる場合があります。

最適： 元のレイアウトを必要としない場合にテキストコンテンツを抽出する。見た目を維持した検索可能なPDFが必要な場合は、方法1または方法2を使用してください。

OCR精度：ドキュメントの種類別の期待値

OCRは魔法ではありません。精度は、ドキュメントの品質、コンテンツの種類、スキャン条件によって劇的に異なります。実際のテスト結果を示します。

タイプされた文書（モダンフォント）：95～99％

請求書、契約書、レーザープリンターで印刷されたレポートなどのモダンな印刷文書は、最良のシナリオです。標準フォントはOCRトレーニングデータでよく表現されており、白い紙にクリーンに印刷されたものは高コントラストの画像を生成します。250語のページ（約1,500文字）で99%の精度の場合、約15文字のエラーが予想されます。ほとんどは、コンマをピリオドと誤読したり、小文字の「l」を「1」と混同したりするような、些細なものです。

古いタイプライター文書：85～95％

機械式タイプライターは課題を提示します。文字の不均一な配置、リボンの摩耗によるインク密度のばらつき、均一な文字幅によるセグメンテーションの混乱などです。それでも、タイプライターのテキストは個別に形成され、水平に配置されているため、ほとんどのOCRエンジンは検索目的には十分な程度で処理できます。

手書きテキスト：60～80％

手書きはOCRにとって最も難しい課題のままです。変動性は非常に大きく、人々の間だけでなく、1ページ内の1人の筆跡の中でも異なります。きれいにブロック体で書かれた印刷文字は80～85%に達する可能性があります。罫線のある紙に鉛筆で書かれた筆記体は60%を下回る可能性があります。手書き文書の重要なデータは、常に手動で確認してください。

混合コンテンツ（テキスト＋テーブル）：90～97％

テキストと表形式のデータを組み合わせたドキュメントは、レイアウト分析の課題を追加します。セル内の文字認識は通常正確ですが、構造的なエラー（セル境界の誤認識、列の誤った割り当て、複数行セルが行に分割されるなど）は、個々の文字の間違いよりもデータの関係性を損ないます。

精度概要表

ドキュメントの種類	文字精度	検索可能か？	データ抽出の信頼性？
モダン印刷（レーザー）	95-99%	優秀	はい
モダン印刷（インクジェット）	93-98%	優秀	通常
古いタイプライター	85-95%	良好	検証が必要
きれいな手書き（ブロック体）	70-80%	部分的	いいえ - すべて検証が必要
筆記体	60-70%	低い	いいえ
テキスト＋テーブル混合	90-97%	良好	構造レビューが必要
劣化・破損した紙	70-90%	変動	重大な検証が必要

OCR前のスキャンに関するベストプラクティス

OCR精度の最も大きな要因はOCRソフトウェアではなく、スキャンの品質です。優れたOCRエンジンが貧弱なスキャンで動作しても、中程度のエンジンが優れたスキャンで動作するよりも悪い結果を生み出します。

解像度：最低300 DPI

**DPI（dots per inch：1インチあたりのドット数）**は、スキャナーがどれだけの詳細をキャプチャするかを決定します。

300 DPI：ほとんどのドキュメントの標準。通常のテキストサイズ（10～12pt）の標準フォントを確実に認識するのに十分です。
600 DPI：小さなテキスト（脚注、細かい活字）や、最大限の精度が必要な場合に推奨されます。
150 DPI以下：推奨されません。文字が小さすぎて確実に認識できません。精度が著しく低下します。
1200 DPI：OCRには過剰です。精度は向上せず、ファイルサイズが巨大になります。

カラーモード：通常はグレースケールが最適

グレースケール：ほとんどのドキュメントに最適。良好な二値化に必要なコントラストを維持しつつ、ファイルサイズを管理可能な範囲に保ちます。
白黒：クリーンで高コントラストのドキュメントには機能しますが、余白の詳細を破壊する可能性があります。
カラー：ドキュメントに保持する必要のあるカラーコード化された情報が含まれている場合にのみ必要です。OCR目的では、カラーはグレースケール以上の利点をもたらしません。

整列と向き

ページをまっすぐに保つ。 わずか2～3度の傾きでもOCR精度を5～10%低下させる可能性があります。スキャナーの用紙ガイドを使用してページを整列させてください。
片面ページは裏面を下にしてスキャンする。 裏面のインクのにじみがOCRエンジンを混乱させる影のテキストを作成しないように注意してください。
製本されたドキュメントにはフラットベッドスキャナーを使用する。 シートフィードスキャナーは、書籍や製本されたレポートのページを傾ける可能性があります。フラットベッドスキャンは、ページを平らに保ち、適切に整列させます。

スキャナーのメンテナンスとドキュメントの準備

バッチをスキャンする前にガラスを清掃する。 汚れはすべてのページにアーティファクトを作成します。
空白ページをスキャンして、ストリークがないか確認する。 縦線はローラーの汚れを示します。
ステープルとペーパークリップを取り除く。 ジャムや傷を防ぐため。
折り目の付いたページを平らにする。 深い折り目はOCRエンジンが誤読する可能性のある影を作成します。
裏側にテープで破れを補修する。 表側のテープは反射を作成します。

OCR後：次のステップ

OCRを実行するのは最初のステップにすぎません。新しく検索可能になったドキュメントを最大限に活用する方法を以下に示します。

結果の検証

特に重要なドキュメントについては、常にOCR出力を抜き打ちで確認してください。

ドキュメントに表示されるはずの重要な用語を検索する。 Ctrl+Fで一貫して見つかる場合、OCRは機能しています。
段落をコピーしてテキストエディタに貼り付ける。 明らかなエラーがないか読み直してください。文字化けした単語、欠落した文字、無意味な置換など。
数値を注意深く確認する。 金額、日付、電話番号、口座番号は重要なデータです。取引金額の「8」を「6」と誤読することは実際の問題です。OCRエンジンは、類似した数字（0/O、1/l、5/S、6/8）を時々混同します。

エラーの修正と整理

重要なドキュメントにエラーが見つかった場合、Adobe Acrobat Proではテキストレイヤーを直接編集できます。または、問題のあるページを600 DPIで再スキャンしてOCRを再実行することもできます。手書きの部分については、手動での書き起こしの方が、質の悪いOCRを修正するよりも速い場合が多いです。

検索可能になったら、PDFは既存のワークフローに統合されます。デスクトップ検索（Windows Search、MacのSpotlight）は自動的にインデックスを作成します。ドキュメント管理システム（SharePoint、Google Drive、Dropbox）は、ライブラリ全体での全文検索を可能にします。適切なファイル名と検索可能なコンテンツの組み合わせが理想的です。

OCRの実用的なユースケース

紙のアーカイブのデジタル化

企業、法律事務所、政府機関は、数十年にわたる紙の文書を保管していることがよくあります。単にPDFにスキャンするだけでは、ファイル名でしか検索できない画像ファイルが作成されます。OCRを追加することで、受動的なアーカイブがクエリ可能なデータベースに変わります。典型的なワークフロー：300 DPIグレースケールでスキャンし、OCRを実行し、命名規則を適用し、ドキュメント管理システムにアップロードします。

法的文書の検索可能化

法律専門家は、証拠開示やデューデリジェンスの過程で膨大な量の文書を扱います。相手方弁護士が数千ページのスキャンされた文書を提出する可能性があります。OCRなしでは、レビューはすべてのページを手動で読むことを意味します。OCRを使用すると、弁護士はセット全体で重要な用語、名前、日付、金額を検索でき、現実的な時間枠内でレビューが可能になります。

アクセシビリティコンプライアンス

障害を持つアメリカ人法（ADA）およびセクション508の下では、政府機関および連邦資金提供組織からのデジタル文書はアクセス可能でなければなりません。スクリーンリーダーは画像のみのPDFを解釈できません。テキストレイヤーが必要です。OCRはコンプライアンスへの第一歩です。追加の作業（見出し構造、代替テキスト、読み取り順序タグ）が必要になる場合もありますが、テキストレイヤーなしではアクセス可能性は不可能です。

保険および金融処理

保険会社や銀行は、数百万件のスキャンされた請求書、医療記録、小切手、ローン申請書を受け取ります。OCRにより、スキャンされた文書から保険証券番号、請求額、サービス日、口座詳細などを処理システムに自動的に抽出できるようになります。

学術および研究アーカイブ

大学、図書館、アーカイブは、歴史的な文書、新聞、写本をデジタル化しています。OCRにより、何世紀にもわたる知識が検索可能になります。Google BooksやInternet Archiveのようなプロジェクトは、数十億ページをOCR処理しており、手動で読むのに一生かかるコレクション全体を横断する全文検索を可能にしています。

よくある質問

複数のPDFを一度にOCR処理できますか（バッチ処理）？

はい。PDFSubは、複数ページのドキュメントを単一の操作で処理できます。大量のバッチジョブ（数百または数千ファイル）の場合は、ツールを通じて順番に処理します。Adobe Acrobat Proは、アクションウィザード機能を通じてバッチOCRも提供しており、PDFフォルダ全体を自動的に処理できます。

OCR処理するとPDFの外観は変わりますか？

いいえ。適切なOCRは、表示されているページ画像の背後に目に見えないテキストレイヤーを追加します。スキャンされたPDFの視覚的な外観は変更されません。同じページ、同じレイアウト、同じ解像度です。テキストレイヤーは、検索機能、テキスト選択、コピー＆ペースト、スクリーンリーダーにのみ「表示」されます。

すでに検索可能なテキストが含まれるPDFにOCRを実行するとどうなりますか？

ほとんどのOCRツールは、既存のテキストレイヤーを検出し、それらのページをスキップするか、再処理するオプションを提供します。すでに検索可能なPDFにOCRを実行することは、一般的に無害ですが不要です。既存のテキストレイヤーを改善せず、冗長なデータのためにファイルサイズがわずかに増加する可能性があります。

OCR処理後にファイルサイズは増加しますか？

わずかに増加します。典型的なスキャンされたドキュメントでは、5～15%の増加が見込まれます。テキストレイヤー自体は小さく（文字と位置データ）、スキャンされたPDFの大部分を構成する画像データと比較すると増加は無視できます。

OCRは、スキャンされたページとデジタル化されたページの混合PDFでも機能しますか？

はい。優れたOCRツールは、各ページを個別に処理します。すでにテキストレイヤーがあるページは検出され、スキップできます。画像のみのページは処理されます。結果として、元のPDFがどのように組み立てられたかに関係なく、完全に検索可能なPDFになります。

OCRはどの言語をサポートしていますか？

言語サポートはツールによって異なります。PDFSubのOCRは、ラテン文字（英語、スペイン語、フランス語、ドイツ語）、CJK（中国語、日本語、韓国語）、キリル文字（ロシア語、ウクライナ語）、アラビア文字（アラビア語、ペルシャ語、ウルドゥー語）、デーヴァナーガリー（ヒンディー語、マラーティー語）など、130以上の言語をサポートしています。

OCRは手書き文字を読み取れますか？

部分的に。きれいにブロック体で書かれたものは70～80%の精度に達します。筆記体は著しく難しく（60～70%以下）なります。手書き文書の重要なデータについては、常に結果を手動で確認してください。

OCRはPDFテキスト抽出と同じですか？

いいえ。OCRはテキストの画像を実際の文字に変換します。これは、ピクセルしかない場合に必要です。PDFテキスト抽出は、デジタルPDFのコンテンツストリームにすでに存在するテキストを読み取ります。これは、テキストが簡単に扱えない形式に閉じ込められている場合に必要です。PDFがデジタル生まれの場合は抽出が必要です。スキャンされた場合は、まずOCRが必要です。

OCRは携帯電話のカメラで撮影した写真でも機能しますか？

はい、ただし精度は写真の品質に依存します。最良の結果を得るには：電話をドキュメントに平行に持ち、均一な照明（影なし）を確保し、フレーム全体を埋め、安定して持ち、可能であれば携帯電話のドキュメントスキャンモードを使用してください。携帯電話の写真では、クリーンな印刷テキストに対して通常85～95%の精度が得られます。フラットベッドスキャンよりも低いですが、検索可能性には十分な場合が多いです。

OCR後にテキストを編集できますか？

OCRテキストレイヤーは目に見えず、スキャン画像の上に配置されます。テキストをコピーして任意の編集者に貼り付けたり、Adobe Acrobat Proを使用してテキストレイヤーを直接編集したり、Wordまたはプレーンテキストにエクスポートして編集したりできます。スキャンされたドキュメントの表示内容を変更するには、再スキャンするか、PDFエディターを使用して画像の上に注釈を追加する必要があります。

OCRの開始方法

検索可能にする必要があるスキャンされたPDFをお持ちの場合、最も簡単な方法は次のとおりです。

PDFをテストする - Ctrl+Fテストを使用して、OCRが必要であることを確認します。
PDFSubのOCRツールを試す - pdfsub.com/tools/ocrでスキャンされたPDFをアップロードし、結果を確認します。
出力を検証する - いくつかのページを抜き打ちで確認し、精度がニーズに合っていることを確認します。
残りのドキュメントを処理する - 結果に自信が持てたら、バックログを処理します。

PDFSubでは、OCRツールおよびプラットフォーム上の他のすべてのPDFツールへのアクセスを含む7日間の無料トライアルを提供しています。スキャンされたドキュメントをアップロードして、検索可能なテキストがもたらす違いを確認してください。いつでもキャンセルできます。