スキャン済みPDFのクリーンアップ方法(ノイズ除去、ページ直線化)
スキャンされたPDFは、ページの傾き、背景のまだら、色あせた文字などで見栄えが悪くなりがちです。ここでは、プロフェッショナルで読みやすい結果を得るためのクリーンアップ方法を紹介します。
書類の束をスキャンした結果が…あまり良くない。ページがわずかに傾いている。白い背景は、まだら模様やシミのある黄色みがかった色合いになっている。紙の上ではくっきりシャープだった文字が、画面上では色あせてぼやけて見える。スキャナーガラスにページが平らに置かれなかったため、暗い影が端に沿って入り込んでいる。
これがスキャンの現実です。オペレーターが注意深く操作しても、優れたスキャナーでさえ完璧な結果は得られません。用紙は給紙中にずれます。フラットベッドスキャナーは、あらゆるホコリを拾ってしまいます。古い書類は紙が黄ばみ、インクが色あせ、物理的な損傷があり、スキャナーはそれを忠実に再現します。その結果、技術的には機能するものの、プロフェッショナルに見えず、読みにくいPDFになります。
スキャン済みPDFをクリーンアップすることで、これらの見栄えの悪いスキャンを、ページがまっすぐで、背景が白く、文字がくっきりしており、境界線のアーティファクトがない、クリーンでプロフェッショナルなドキュメントに変えることができます。さらに良いことに、後でOCRを実行してテキストを検索可能かつ選択可能にする場合、クリーンなスキャンは劇的に優れた結果をもたらします。
ここでは、スキャン済みPDFをクリーンアップする方法、各クリーンアップステップが何をするのか、そしていつクリーンアップとOCRを組み合わせるべきかについて説明します。

なぜスキャン済みPDFのクリーンアップが必要なのか
何が見栄えを悪くしているのかを理解することで、どのクリーンアップステップがドキュメントにとって最も重要かがわかります。
スキュー(ページの傾き)
ドキュメントスキャナーで用紙がわずかな角度で給紙されると、たとえ半度でも目立つ十分な角度であれば、結果の画像は傾きます。これは、すべての自動ドキュメントフィーダー(ADF)にある程度起こります。人間の目はスキューに驚くほど敏感です。わずか1度の傾きでもページは明らかに曲がって見え、ドキュメントがだらしなくプロフェッショナルでない印象を与えます。
スキューはOCRの精度にも大いに影響します。OCRエンジンは、テキストが水平線に沿って流れることを期待しています。ページ全体が回転していると、テキスト検出アルゴリズムは行の境界を特定するのに苦労し、単語の混同、文字の欠落、段落の破損につながります。
ノイズ(まだら模様と点)
スキャナーのノイズは複数のソースから発生します。スキャナーガラスのホコリ、高解像度で取り込まれた紙の質感、スキャナーセンサーの電気的ノイズ、スキャン光学系からのアーティファクトなどです。その結果、ページ全体にランダムな点やまだら模様が散らばります。これは白い背景で最も目立ちますが、画像全体に存在します。
ノイズは、特に白い余白や文字の間にあると、視覚的な乱雑さを生み出します。OCRにとって、ノイズの点は句読点、ダイアクリティカルマーク、文字の一部として誤解される可能性があります。これはOCRエラーの一般的な原因です。
文字の色あせ
時間が経つとインクは色あせます。レーザープリントはよく持ちますが、インクジェットプリント、コピー、カーボンコピーは著しく色あせます。比較的最近のドキュメントでも、印刷密度にむらがある場合があります。トナーが新しいところは濃く、少なくなっているところは薄くなります。
色あせた文字は画面上では読みにくく、印刷してもきれいに仕上がりません。また、OCR精度を低下させます。なぜなら、アルゴリズムが文字を確実に識別するには、テキストと背景の間に明確なコントラストが必要だからです。
暗い境界線と影
ページがスキャナーの表面全体を覆っていない場合、または本の背表紙が影を作っている場合、スキャンは暗い境界線と影の領域を捉えます。これらはスキャンプロセスからのアーティファクトであり、ドキュメントには何の役にも立ちません。印刷時にはトナーを無駄にし、ドキュメントをコピーのコピーのように見せます。
不均一な背景
紙は完全に白いわけではありません。古い書類は黄ばんでいます。再生紙は灰色がかった色合いをしています。一部の書類は色付きの紙です。スキャンすると、これらの背景のバリエーションがピクセルデータとして取り込まれ、ファイルサイズにメガバイトを追加する一方で、可読性には何も貢献しません。
4つのクリーンアップステップ
PDFSubのスキャン済みPDFクリーンアップツールは、ドキュメントを4つのクリーンアップステージで処理します。各ステージは、特定のスキャンアーティファクトを対象としています。
ステップ1:デスキュー(ページ直線化)
デスキューは、各ページで支配的なテキストの角度を検出し、テキストを完全に水平にするために画像を回転させます。アルゴリズムは、ページ全体の暗いピクセル(テキスト)の分布を分析し、必要な回転角度を決定し、サブディグリー精度で適用します。
ほとんどのページは、0.3〜2度の補正が必要です。プロセスは自動で行われるため、角度を指定する必要はありません。各ページは独立して分析および補正されるため、ページ3が左に傾き、ページ7が右に傾いているドキュメントでも、両方の補正が正しく適用されます。
**気づくこと:**わずかに斜めに見えたテキスト行が完全に水平になります。改善はすぐに目に見え、ドキュメントが著しくプロフェッショナルに見えるようになります。
ステップ2:デノイズ(まだら模様除去)
デノイズは、ドキュメントの内容の一部ではない、小さく孤立したマークを識別して除去します。アルゴリズムは、サイズ、形状、コンテキストに基づいて、ノイズ(ランダムな小さな点)と実際のコンテンツ(テキスト、線、画像)を区別します。
主な課題は、ピリオド、カンマ、小数点、ダイアクリティカルマークなどの細かいディテールを損傷することなくノイズを除去することです。PDFSubのクリーンアップエンジンは、周囲のコンテキストを考慮する適応的閾値処理を使用します。白い余白の中央にある小さな点はノイズですが、文末にある小さな点はピリオドです。
**気づくこと:**背景がよりクリーンになり、余白がくっきりし、ドキュメント全体が「粒状」に見えなくなります。ノイズの多いスキャンでは、改善は劇的です。
ステップ3:コントラスト強化
コントラスト強化は、テキスト(暗い)と背景(明るい)の差を増やします。これにより、色あせた文字が読みやすくなり、コンテンツと背景の間にクリーンな視覚的分離が生まれます。
強化は適応的であり、ローカルな画像特性に基づいて強度を調整します。太字のテキストがあるページセクションは、薄い色あせたテキストがあるセクションよりも強化が少なくなります。これにより、すでに暗いテキストが太い塊になるのを防ぎながら、色あせたテキストを読みやすいコントラストまで引き上げます。
**気づくこと:**テキストがよりシャープで黒く見えます。色あせた部分が読めるようになります。背景がより明るく均一に見えます。
ステップ4:境界線クリーニング(暗い端の除去)
境界線クリーニングは、スキャンされたページの端の周りの暗い領域(スキャナー蓋からの影、ページがスキャンエリアより小さい場合の黒いバー、本の背表紙からの影のアーティファクト)を検出して除去します。
アルゴリズムはページコンテンツの境界を特定し、その外側のすべてをクリーンな白いスペースに置き換えます。これにより、境界線のアーティファクトが除去され、ページの端まで伸びるコンテンツ(ヘッダー、フッター、余白の注釈など)が保持されます。
**気づくこと:**暗い端が消えます。ページにはクリーンで均一な余白ができます。印刷出力に邪魔な境界線がなくなります。
PDFSubでスキャン済みPDFをクリーンアップする方法
ステップバイステップの手順
ステップ1:ツールの起動。 pdfsub.com/tools/clean-scanにアクセスします。
ステップ2:スキャン済みPDFのアップロード。 ファイルをドラッグアンドドロップするか、クリックして参照します。PDFはPDFSubのセキュアな処理サーバーにアップロードされます。
ステップ3:クリーンアップオプションの選択。 適用するクリーンアップステップを選択します。デフォルトではすべて有効になっていますが、必要に応じていずれかのステップを無効にできます。ほとんどのスキャン済みドキュメントでは、4つのステップすべてが最良の結果をもたらします。
ステップ4:処理。 クリーンアップボタンをクリックします。PDFSub Engineは、選択されたステップを通じて各ページを処理します。処理時間はページ数と解像度に依存します。ページあたり約2〜3秒かかります。
ステップ5:確認とダウンロード。 クリーンアップされたページをプレビューして結果を確認します。クリーンなPDFをダウンロードします。
クリーンアップステップをカスタマイズする場合
スキャンがすでに完全に整列されている場合(例:優れたアライメントを備えたプロフェッショナルなドキュメントスキャナーから)、またはドキュメントに角度を保ちたい角度付きコンテンツ(例:斜めの透かし)が含まれている場合は、デスキューを無効にしてください。
ドキュメントにノイズと間違われる可能性のある非常に細かいディテール(点描画、ハーフトーン写真、意図的にテクスチャ化された背景を持つドキュメント)が含まれている場合は、デノイズを無効にしてください。
元のスキャンにすでに十分なコントラストがある場合は、コントラスト強化を減らしてください。過度の強化は、テキストが意図したよりも太く見える可能性があります。
ドキュメントの端までコンテンツが伸びている場合、または暗い境界線に有用な情報(トリムマークやレジストレーションマークなど)が含まれている場合は、境界線クリーニングを無効にしてください。
クリーンアップとOCRの組み合わせ
スキャン済みPDFをクリーンアップする最も説得力のある理由の1つは、OCR精度の劇的な向上です。OCRエンジンは、既知の文字形状のデータベースに対して文字の形状を分析することによって機能します。文字形状を劣化させるもの(ノイズ、スキュー、低コントラスト、境界線アーティファクト)はすべて、OCR精度を低下させます。
精度の向上
OCRを実行する前にスキャン済みPDFをクリーンアップすると、通常、文字認識精度が5〜15パーセントポイント向上します。ノイズが多い、またはスキューが大きいスキャンでは、改善がさらに劇的になる可能性があります。
- スキュー補正だけでもOCR精度を3〜8%向上させることができます。OCRエンジンは水平なテキスト行を期待していますが、わずかなスキューでも単語のセグメンテーションエラーを引き起こします。
- ノイズ除去は、誤った文字検出を防ぎます。余白のランダムな点は、文字や句読点として誤認されません。
- コントラスト強化は、特に色あせた、または薄いテキストの場合に、OCRエンジンが背景から文字を区別するのに役立ちます。
推奨ワークフロー
最良の結果を得るには、まずスキャンをクリーンアップし、次にOCRを実行します。
- スキャン済みPDFをPDFSubのスキャン済みPDFクリーンアップツールにアップロードします。
- クリーンアップされたバージョンをダウンロードします。
- クリーンアップされたPDFをPDFSubのOCRツールにアップロードします。
- 検索可能で選択可能なPDFをダウンロードします。
この2段階のプロセスは、乱雑なスキャンに直接OCRを実行するよりも優れた結果をもたらします。
一般的なシナリオ
オフィスドキュメントのスキャン
最も一般的なケース:契約書、手紙、フォーム、レポートなどをオフィス複合機でスキャンしたもの。これらは通常、4つのクリーンアップステップすべてを必要とします。ADFはスキューを引き起こし、スキャナーはノイズを追加し、フラットベッドでフェイスダウンでスキャンされたドキュメントには境界線の影があります。
書籍や雑誌のページ
製本された資料をスキャンすると、特有のアーティファクトが発生します。背表紙近くの湾曲したページは歪みや影を生み出し、ページは綴じ角度からわずかにスキューしている可能性があり、厚い背表紙は片側に暗い帯を作成します。これらのスキャンでは、境界線クリーニングとデスキューが特に重要です。
歴史的およびアーカイブドキュメント
古いドキュメントは、紙の黄ばみ、インクの色あせ、フォクシング(経年による茶色のシミ)、物理的な損傷があります。これらのドキュメントでは、コントラスト強化が最も効果的なステップです。色あせた文字を読みやすい状態に戻します。歴史的に重要な可能性のある視覚的アーティファクトがあるため、歴史的ドキュメントではデノイズを慎重に行ってください。
レシートと感熱印刷
感熱紙(レシートプリンターで使用)は急速に色あせ、スキャンが悪いです。テキストは黒ではなく薄い灰色であることが多く、紙はまだらな外観になります。保存すべき細かいディテールがほとんどない感熱印刷では、積極的なコントラスト強化とデノイズがうまく機能します。
マルチページフォーム
政府のフォーム、税務書類、申請書類には、クリーンアップを複雑にする印刷済みのボックス、線、陰影が含まれていることがよくあります。クリーンアップエンジンはこれらをうまく処理します。印刷済みの要素は、デノイズを生き残るのに十分な大きさであり、デスキューはフォーム全体を正しく整列させます。
よくある質問
クリーンアップはドキュメントの内容を変更しますか?
いいえ。クリーンアップはスキャンされた画像の視覚的な品質にのみ影響します。ページをまっすぐにし、ノイズを除去し、コントラストを強化し、境界線をきれいにします。テキストやコンテンツを追加、削除、または変更しません。ページ上の情報はまったく同じままです。
スキャンされていないPDFをクリーンアップできますか?
クリーンアップツールは、各ページがラスター画像であるスキャン済みPDF用に設計されています。スキャンされていないPDFに害を与えることはありませんが、クリーンアップステップはスキャンアーティファクト専用に設計されており、デジタルソース(Wordエクスポートなど)から作成されたPDFを実質的に改善することはありません。
クリーンアップはファイルサイズをどのくらい削減しますか?
変動しますが、クリーンアップにより通常ファイルサイズが20〜40%削減されます。ノイズ除去は、ページあたり数千の不要なピクセルを削除します。境界線クリーニングは、大きな暗い領域を削除します。コントラスト強化は、より均一な背景を作成することで圧縮効率を向上させることができます。クリーンアップ後に80MBだった50ページのドキュメントが、50〜60MBに削減される可能性があります。
クリーンアップはカラーのスキャンにも機能しますか?
はい。4つのクリーンアップステップすべてが、カラー、グレースケール、白黒のスキャンで機能します。カラーのスキャンは、特に背景の正規化と境界線クリーニングから恩恵を受けます。コントラスト強化は、テキストの可読性を向上させながら、カラー情報を保持する方法で適用されます。
結果が気に入らない場合、クリーンアップを元に戻せますか?
クリーンアップは新しいファイルを作成します。元のPDFは変更されません。クリーンアップが満足のいくものでない場合は、元のファイルに戻ってください。このため、常に元のスキャンをクリーンアップされたバージョンと一緒に保持してください。
まとめ
スキャン済みPDFのクリーンアップは、見栄えの悪いスキャンをプロフェッショナルなドキュメントに変える4段階のプロセスです。
| ステップ | 修正するもの | 効果 |
|---|---|---|
| デスキュー | 傾いたページ | まっすぐでプロフェッショナルな外観 |
| デノイズ | まだら模様と点 | クリーンな背景、より鮮明なテキスト |
| 強化 | 色あせた低コントラストのテキスト | 読みやすく、印刷可能な出力 |
| 境界線クリーニング | 暗い端と影 | 均一な余白、アーティファクトなし |
各ステップは独立しており、オン/オフを切り替えることができます。ほとんどのスキャン済みドキュメントでは、4つのステップすべてを実行すると最良の結果が得られます。クリーンアップされた出力は、ファイルサイズが小さく、外観がプロフェッショナルで、後で検索可能なテキストが必要な場合に劇的に優れたOCR結果をもたらします。
スキャンをクリーンアップする準備はできましたか?PDFSubのスキャン済みPDFクリーンアップツールを試してください。スキャン済みPDFをアップロードして、数秒でクリーンでプロフェッショナルな結果を得てください。