PDFSubによるPDF処理の仕組み:ブラウザ、エンジン、AI
ほとんどのオンラインPDFツールはファイルをリモートサーバーにアップロードします。PDFSubは、ブラウザベースの編集、変換用の独立したPDFSub Engine、インテリジェント分析用のAIという3つの処理層を使用しており、それぞれがデータを保護するように設計されています。その仕組みを詳しく説明します。
銀行の明細書をExcelに変換する必要がある。または、2つの契約書を1つのPDFにマージする。あるいは、クライアントにメールで送る前に税務申告書を圧縮する。
そこで、「PDFコンバーター」とGoogle検索し、最初に出てきた結果をクリックして、ファイルをアップロードボックスにドラッグ&ドロップする。プログレスバーがいっぱいになり、スピナーが回転する。30秒後、結果をダウンロードする。
シンプル。高速。そして、あなたの機密文書はインターネットを横断し、見知らぬサーバーに着陸し、検査できないソフトウェアで処理され、(うまくいけば)その後削除された。
それがオンライン文書ツールのプライバシーのパラドックスです。処理が必要な最も重要な文書—銀行の明細書、税務申告書、法律契約書、医療記録、財務報告書—は、共有に最も注意を払うべき文書です。しかし、すべての主要なPDFツールの標準的なワークフローでは、これらのファイルをサードパーティに渡す必要があります。
PDFSubは、このパターンを破るために構築されました。ほとんどの操作では、ファイルはデバイスから離れません。この記事では、その仕組み、サーバーサイド処理が本当に必要な場合、そしてすべてを自分で検証する方法を詳しく説明します。
ほとんどのオンラインPDFツールの仕組み
PDFSubがどのように違うかを説明する前に、標準的なアプローチを理解することが役立ちます。ほぼすべてのオンラインPDFツール—無料または有料—は同じパターンに従います。
- デバイス上のファイルを選択します。
- ファイルがインターネット経由でプロバイダーのサーバーにアップロードされます。
- サーバーがファイルを処理します(マージ、圧縮、変換、データ抽出)。
- 結果がダウンロードとして返送されます。
- 元のファイルは、削除されるまで(とされるまで)サーバー上に残ります。
このアーキテクチャは、プロバイダーの観点からは理にかなっています。サーバーサイド処理は、構築が容易で、スケーリングが容易で、プロバイダーが完全に制御できます。しかし、あなたの観点からは、あなたの文書があなたが制御できないインフラストラクチャに触れることを意味します。
プロバイダーがHTTPSを使用している場合でも、処理後にファイルを削除すると約束している場合でも、そして安心できるプライバシーポリシーを持っている場合でも—あなたのファイルは彼らのサーバー上にありました。それは彼らのメモリ、ディスク、そしておそらくバックアップやログに存在していました。サポートスタッフがアクセスできる可能性があります。サブプロセッサがコピーを受け取る可能性があります。そして、彼らのインフラストラクチャが侵害された場合、あなたの文書は何百万人もの他の文書と一緒に公開される可能性があります。
これは、あなたが使用したほぼすべてのオンラインPDFツールに当てはまります。大手、無料ツール、「プライバシー重視」のツール—ほぼすべてがこのアップロード・処理・ダウンロードモデルに従っています。
「プライバシー重視」とは通常何を意味するか
一部のツールはプライバシーに配慮していると宣伝しています。しかし、それが通常何を意味するかを詳しく見てみましょう。
- 「ファイルは転送中に暗号化されます」 — これは単なるHTTPSです。すべてのウェブサイトが使用しています。転送中のファイルを保護しますが、サーバー上にあるファイルは保護しません。
- 「ファイルは2時間後に削除されます」 — 2時間は、サードパーティサーバー上の機密文書にとって長い時間です。「削除」は、バックアップから完全に消去されることを必ずしも意味しません。
- 「ファイルを読み取ることはありません」 — 技術的には真実です—自動化されたソフトウェアが処理します。しかし、ファイルは依然として彼らのインフラストラクチャ上にあり、サーバーアクセス権を持つ誰もがアクセスできます。
- 「SOC 2認定」 — これはセキュリティプロセスが存在することを証明するものであり、侵害が発生しないことを証明するものではありません。大手会計事務所4社のうち3社は、MOVEit侵害で9330万人のデータが公開された際にSOC 2認定を受けていました。
これらの対策のいずれも悪いものではありません。それらは単に本当に機密性の高い文書には不十分です。最も安全なアプローチは、より良い暗号化や短い保持期間ではなく、そもそもファイルを送信しないことです。
PDFSubが異なる理由:ブラウザベースの処理
PDFSubは根本的に異なるアーキテクチャアプローチを採用しています。ファイルをサーバーにアップロードして処理する代わりに、PDFSubは処理ソフトウェアをWebブラウザ内で直接実行します。
PDFSubを開いてPDFを読み込むと、ファイルはデバイスからブラウザのメモリに読み込まれます。処理コード—JavaScriptとWebAssemblyで記述されています—は、あなたのコンピュータ上で、あなたのプロセッサとRAMを使用して実行されます。結果はローカルで生成され、ブラウザから直接ハードドライブにダウンロードされます。
ファイルはネットワークを横断しません。リモートサーバーに触れることもありません。アップロードも、生ファイルデータのダウンロードも、サーバーサイドストレージも、保持期間も、サードパーティアクセスもありません。
これは信頼を必要とするマーケティング上の主張ではありません。これは、自分で検証できる技術的なアーキテクチャです(後述)。
ブラウザベースの処理の実際の仕組み
これを理解するためにソフトウェアエンジニアである必要はありません。従来のPDFツールを写真プリントキオスクのようなものと考えてください。写真をキオスクに渡すと、キオスクはそれを処理して印刷し、(うまくいけば)元の写真をシュレッダーにかけます。キオスクのオペレーターを信頼する必要があります。
ブラウザベースの処理は、自宅に写真プリンターを持っているようなものです。写真は家から出ません。処理はあなたの機器上で、あなたの管理下で行われます。
PDFSubがブラウザで読み込まれると、処理ソフトウェアがデバイスにダウンロードされます。そのソフトウェアは、あなたのマシン上で完全に実行されます。ブラウザは、コードが生ファイルデータをどこかに送信する能力なしに、ファイルを読み取って処理できる安全なサンドボックス化された環境を提供します。
典型的な操作のステップバイステップの流れは次のとおりです。
- PDFSubを開く — ブラウザがアプリケーションコード(JavaScript、WebAssembly)をダウンロードします。これが処理エンジンです。
- PDFファイルを選択する — ブラウザがハードドライブからローカルメモリにファイルを読み込みます。ネットワークリクエストは行われません。
- ローカルで処理を実行 — JavaScript/WebAssemblyコードがPDF構造を解析し、テキストを抽出し、ページを操作し、選択したその他の操作を実行します。すべての計算はデバイスのプロセッサを使用します。
- メモリ内で結果を生成 — 出力ファイル(マージされたPDF、Excelスプレッドシート、圧縮されたPDFなど)がブラウザのメモリ内に作成されます。
- 結果をダウンロードする — ファイルはブラウザメモリから直接ハードドライブに保存されます。サーバーは関与しません。
元のファイル—またはその内容—がデバイスから離れることはありません。ブラウザのセキュリティモデルがこれを強制します:Webページで実行されるJavaScriptは、ネットワークリクエストを行わずにサイレントにデータを送信することはできません。リアルタイムでネットワークリクエストを監視できます。
ブラウザのセキュリティモデルがあなたを保護します
最新のWebブラウザは、このアーキテクチャを真に安全にするいくつかの保護レイヤーを提供しています。
- 同一オリジンポリシー — あるウェブサイトからのコードは、別のウェブサイトからのデータにアクセスできません。他のタブやウェブサイトは、PDFSubで処理しているファイルを読み取ることができません。
- プロセス分離 — 各ブラウザタブは、個別のサンドボックス化されたプロセスで実行されます。コンピュータ上の他のアプリケーションは、処理中のデータにアクセスできません。
- 永続ストレージなし — タブを閉じると、メモリ内のすべてのデータは破棄されます。サーバーサイド処理とは異なり、ディスク上に残存コピー、バックアップスナップショット、データを含むログファイルはありません。
- 監査可能なネットワークアクティビティ — ブラウザが行うすべてのネットワークリクエストは、開発者ツールで表示できます。ファイルデータが送信されていないことをリアルタイムで確認できます。
これはPDFSubが構築した独自のセキュリティシステムではありません。これは、Chrome、Firefox、Safari、Edge—セキュリティ投資に数十億ドルを費やしているブラウザ—によって強制される、Webプラットフォーム自体のセキュリティモデルです。
オフラインでも動作します
PDFSubのページが読み込まれると、インターネットから切断しても多くの操作が機能します。処理コードはすでにブラウザ内にあります。ファイルはすでにメモリ内にあります。PDFをマージしたり、文書を圧縮したり、テキストを抽出したりするためにネットワーク接続は必要ありません。
PDFSubを読み込み、機内モードをオンにして、ファイルを処理します。動作します—なぜなら、ファイルはそもそもアップロードされる予定ではなかったからです。
サーバーサイド処理が必要な場合
透明性は重要なので、率直に言いましょう:すべての操作がブラウザで行えるわけではありません。一部のタスクは、ブラウザにはない機能が必要です。そのため、PDFSubはサーバーサイド処理を使用します。
以下に具体的なシナリオを示します。
OCRが必要なスキャン済みPDF
PDFがスキャンされた画像—印刷された文書の写真—である場合、ブラウザはピクセルを見ることができますが、テキストを読むことはできません。画像からテキストを抽出するには、光学文字認識(OCR)が必要であり、それにはブラウザで実行するには大きすぎる、計算負荷の高いAIモデルが必要です。
スキャンされた文書の場合、PDFはPDFSubのサーバーに送信され、AI搭載OCRが画像からテキストを読み取り、データを抽出し、結果を返します。
AI搭載機能
AIによる要約、AI翻訳、AIデータ抽出、文書に関するAIチャットなどの機能には、特殊なハードウェアで実行される大規模言語モデルが必要です。これらの機能は現在ブラウザで実行できません—モデルは、消費者デバイスが提供できるものを超えるかなりの計算リソースを必要とします。
AI機能を使用すると、関連する文書コンテンツが処理のためにサーバーに送信されます。
複雑なサーバーサイド解析
一部のPDF文書は、ブラウザベースのパーサーでは処理できない、異常なエンコーディング、破損した構造、またはエッジケースのフォーマットを持っています。このような場合、PDFSubはより堅牢な解析ツールにアクセスできるサーバーサイドパーサーにフォールバックします。
サーバーサイド処理中の処理内容
サーバーサイド処理が必要な場合、具体的には次のようになります。
- 暗号化された転送 — ファイルはTLS(オンラインバンキングと同じ暗号化)経由でPDFSubのサーバーに送信されます。
- メモリ内処理 — ファイルはすぐに処理されます。処理中はサーバーメモリ内に保持され、永続ストレージには書き込まれません。
- 結果の返送 — 処理結果がブラウザに返送されます。
- 即時削除 — 元のファイルと中間データは、処理が完了次第、サーバーメモリから削除されます。
- 保持なし — PDFSubはファイルを保存せず、ファイル内容をログに記録せず、処理後に文書データを保持しません。
- AIトレーニングなし — 文書はAIモデルのトレーニングには使用されません。ファイル内容は処理され、破棄されます。
他のツールとの主な違い:PDFSubは、技術的に必要な場合にのみ、およびそれが必要な特定の操作に対してのみ、サーバーサイド処理を使用します。ほとんどのツールは、必要かどうかに関わらず、すべてのファイルをサーバーに送信します。
あなたの文書にとっての意味
文書の種類によって処理パスが異なります。以下に実用的な内訳を示します。
銀行明細書(デジタルPDF)
オンラインバンキングポータルから銀行明細書をダウンロードした場合、それはデジタルPDFです—テキストは実際のテキストであり、スキャンされた画像ではありません。これらの文書の場合、PDFSubの抽出エンジンは完全にブラウザ内で実行されます。
取引日、説明、金額、残高はローカルで解析および構造化されます。出力—Excel、CSV、QBO、OFX、またはその他の形式—はデバイス上で生成されます。あなたの銀行明細書(口座番号、取引履歴、残高を含む)は、あなたのコンピュータから離れることはありません。
今日、ほとんどの銀行明細書はデジタルでダウンロードされるため、これは銀行明細書変換の最も一般的なシナリオです。
銀行明細書(スキャン済み)
物理的な明細書を写真に撮ったりスキャンしたりした場合、PDFにはテキストではなく画像が含まれています。これらには、画像からテキストを読み取るためのサーバーサイドAIが必要です。ファイルはサーバーに送信され、処理され、その後すぐに削除されます。
請求書と領収書
デジタル請求書や領収書からのテキスト抽出は、ブラウザ内で行われます。AIによる分析—ベンダー名、品目、税額、合計金額を自動的に識別する—が必要な場合は、サーバーサイドAI処理が必要です。
契約書と法的文書
契約書のマージ、法的書類の圧縮、特定のページの抽出、透かしの追加、編集など、ほとんどのPDF操作は完全にブラウザ内で行われます。文書は、その間ずっとデバイス上に留まります。
財務報告書
デジタルPDFの財務報告書の表をExcelに変換する操作は、ブラウザサイドで行われます。AIによる分析—要約の生成、主要指標の抽出、コンテンツに関する質問—には、サーバーサイド処理が必要です。
一般的なルール
操作が構造的な場合(マージ、分割、圧縮、回転、ページ抽出、フォーマット変換、透かし追加)—ブラウザ内で実行されます。
操作がAIの理解を必要とする場合(要約、翻訳、複雑またはスキャンされた文書からのデータ抽出、質問応答)—サーバーサイド処理が必要です。
PDFSubは77以上のツールを提供しています。その大部分はサーバーに触れないブラウザベースの操作です。
規制産業向け
厳格なデータ処理要件を持つ分野で働いている場合、ブラウザベース処理とサーバーベース処理の区別は、コンプライアンスに実質的な影響を与えます。
ヘルスケア(HIPAA)
HIPAAは、カバー事業者およびビジネスアソシエイトに患者健康情報(PHI)を保護することを要求しています。PHIを含む文書を処理するためにクラウドベースのツールを使用する場合、そのツールのプロバイダーはビジネスアソシエイトとなり、署名済みのビジネスアソシエイト契約(BAA)、文書化されたセキュリティ管理、および侵害通知義務が必要になります。
ブラウザベースのツールを使用してPHIを含むPDFを処理する場合、文書はデバイスから離れません。PHIは共有されないため、これらの操作にはBAAは必要ありません。これにより、コンプライアンスが簡素化され、ベンダーリスクのカテゴリが排除されます。
サーバーサイド処理を必要とするAI機能については、標準的なHIPAAベンダー評価が適用されます。
金融サービス
銀行、投資会社、保険会社、および金融アドバイザーは、Gramm-Leach-Bliley法、SEC規則、FINRA要件、および州固有の規制によって管理されるデータを扱います。これらには、文書化されたデータ処理手順、ベンダーリスク評価、およびクライアントデータをサードパーティと共有することの制限が必要です。
ブラウザベースの処理は、AIを必要としない操作の場合、オンプレミスでクライアントの財務データを保持することを意味します。これにより、コンプライアンス文書におけるサードパーティデータプロセッサが削減され、ベンダーリスク評価が簡素化されます。
法務
弁護士は、弁護士依頼人秘匿特権で保護された文書を扱います。秘匿特権のある文書をサードパーティサーバーにアップロードすると、プロバイダーから文書がアクセスされたり、侵害されたり、召喚されたりした場合に、秘匿特権が異議を唱えられるリスクが生じます。
秘匿特権のある文書に対する基本的なPDF操作—証拠ファイルの結合、証拠の圧縮、ページの抽出—の場合、ブラウザベースの処理は、文書が弁護士のデバイスから離れないことを意味します。秘匿特権は疑問の余地なく維持されます。
会計および税務準備
IRSは、すべての税務専門家に書面情報セキュリティ計画(WISP)を維持することを要求しています。AICPAは、機密性の高いクライアント情報のサードパーティへの開示を制限しています。クライアントの財務文書にクラウドベースのツールを使用すると、コンプライアンス義務が生じます。
ブラウザベースの処理は、サーバーサイドAIを必要としない操作の場合、これらの義務を排除します。WISPはよりシンプルになり、ベンダーリスクインベントリは短くなり、コンプライアンス体制はより強力になります。
ご自身で検証する方法
PDFSubのこれらの主張を信じる必要はありません。ブラウザベースのアーキテクチャは、Webブラウザに組み込まれているツールを使用して完全に監査可能です。
ステップ1:開発者ツールを開く
任意のモダンブラウザで、F12キーを押す(またはページ上のどこかを右クリックして「検証」を選択)と、開発者ツールパネルが開きます。
ステップ2:ネットワークタブに移動する
ネットワークタブをクリックします。これにより、ブラウザが行うすべてのネットワークリクエスト—ダウンロードされるすべてのファイル、すべてのAPI呼び出し、すべてのデータ送信—が表示されます。ブラウザから何も送信されずにここに表示されることはありません。
ステップ3:ログをクリアする
クリアボタン(線で区切られた円)をクリックして、まっさらな状態から始めます。
ステップ4:文書を処理する
PDFSubにPDFを読み込み、ブラウザベースの操作を実行します—マージ、圧縮、テキスト抽出、銀行明細書の変換。
ステップ5:ネットワークログを調べる
処理中に表示されたリクエストを確認します。ブラウザベースの操作の場合、次のようになります。
- ファイルアップロードリクエストなし — PDFデータをサーバーに送信するPOSTまたはPUTリクエストはありません。
- リクエストに文書コンテンツなし — ファイルバイトはブラウザのメモリ内に留まります。
- 小さなメタデータリクエストのみ — 使用状況分析(ページビュー、機能使用状況)など、文書データを含まないもの。
これは、セキュリティ研究者がWebアプリケーションを監査するために使用するのと同じ手法です。PDFSubが秘密裏にファイルをアップロードしていた場合、それはすぐに明らかになるでしょう。
AI操作については?
サーバーサイドAIを必要とする機能を使用した場合、ネットワークタブにネットワークリクエストが表示されます。これは予想されることです—AI処理のためにコンテンツがサーバーに到達する必要があります。違いは、PDFSubがすべてのファイルをサイレントにアップロードするのではなく、どの操作でこれが必要になるかについて透明であることです。
PDFSubが収集するものと収集しないもの
完全な透明性とは、PDFSubが扱うデータと扱わないデータを具体的に示すことです。
PDFSubが収集するもの
- アカウント情報 — アカウントを作成した場合のメールアドレス、名前、サブスクリプションの詳細。
- 使用状況分析 — どのツールを、どのくらいの頻度で使用しているか、ページビュー、機能のインタラクション。これは製品改善に役立つ標準的なWeb分析です。
- エラーレポート — 問題が発生した場合、匿名化されたエラー情報(文書コンテンツではありません)が問題の診断と修正に役立ちます。
- 支払い情報 — 支払いプロバイダーによって処理されます(PDFSubによって直接保存されるわけではありません)。
ブラウザベースの操作でPDFSubが収集しないもの
- ファイルの内容 — ブラウザベースの操作の場合、PDFのバイトはPDFSubのサーバーに送信されません。
- 抽出されたテキスト — 取引の説明、名前、金額、日付—これらのデータはいずれもローカル操作のためにデバイスから離れません。
- 文書メタデータ — ファイル名、作成者フィールド、PDF内の作成日はデバイス上に留まります。
- 処理済み出力 — Excelファイル、CSV、マージされたPDF、または圧縮された文書は、ブラウザで生成され、デバイスに保存されます。
サーバーサイド操作の場合
サーバーサイド処理(AI機能、スキャン文書OCR)が必要な操作の場合、文書コンテンツは処理のためにサーバーに送信され、完了後すぐに削除されます。保存、ログ記録、インデックス作成、または要求された操作の完了以外の目的で使用されることはありません。
他のアプローチとの比較
PDFSubのアプローチを文脈に入れるために、一般的な代替手段との比較を以下に示します。
| アプローチ | 処理場所 | ファイルアップロード必要 | データ保持 | プライバシーレベル |
|---|---|---|---|---|
| PDFSub(ブラウザベースツール) | あなたのデバイス | いいえ | なし | 最高 — ファイルは決して離れない |
| PDFSub(AI機能) | PDFSubサーバー | はい(必要な場合) | なし — 即時削除 | 高 — 最小限の露出 |
| 一般的なクラウドPDFツール | プロバイダーのサーバー | はい、常に | 数時間〜数日 | 中 — プロバイダーによる |
| エンタープライズクラウドツール | プロバイダーのサーバー | はい、常に | 保留ポリシーによる | 中 — 文書化された管理 |
| デスクトップソフトウェア | あなたのデバイス | いいえ | ローカルファイル | 高 — ただしインストールが必要 |
デスクトップソフトウェアは、プライバシーの観点から最も近い比較です—どちらもローカルで処理します。ブラウザベースの利点:インストール不要、ブラウザ搭載のあらゆるデバイスで動作、常に最新、およびデスクトップソフトウェアを実行できないChromebookやタブレットからアクセス可能。
正直なトレードオフ
完璧なアプローチはなく、信頼できるということは、限界について正直であるということです。
ブラウザベースの処理は、非常に大きなファイルでは遅くなる可能性があります。 専用サーバーと最適化されたハードウェアは、非常に大きな文書(100ページ以上)ではより高速になる可能性があります。一般的な文書では、違いはほとんど感知できません。
AI機能にはサーバーサイド処理が必要です。 AIによる要約、翻訳、またはスキャンされた文書のOCRが必要な場合、コンテンツはサーバーに到達する必要があります。PDFSubは、まずローカル処理を使用し、必要な場合にのみエスカレーションすることで、これを最小限に抑えます。
ブラウザの機能には限界があります。 破損したPDF、異常なエンコーディング、非常に複雑なレイアウトなどのエッジケース—は、サーバーサイドのフォールバックを必要とする場合があります。PDFSubはこれをうまく処理しますが、その場合ファイルはデバイスから離れます。
哲学:可能な限りローカルで処理し、本当に必要な場合にのみサーバーサイドを使用し、どちらであるかについて透明性を保ち、サーバー処理が必要な場合はすべて即座に削除する。
なぜこのアーキテクチャが重要なのか
ソフトウェアのトレンドは、より多くのクラウド処理、より多くのデータ収集、より多くのサーバーサイド計算へと向かっています。銀行の明細書、税務申告書、法律契約書、医療記録、財務報告書などの機密文書にとっては、そのトレンドはまさに逆です。
最も安全なファイルは、デバイスから離れないファイルです。最も強力なサーバーは、データを受信しないサーバーです。最も強力なプライバシーポリシーは、プロバイダー側に保護するものが何もないため、存在するはずのないポリシーです。
PDFSubのブラウザベースのアーキテクチャは、マーケティング上の差別化要因ではありません。それは、すべてのツールの構築方法を形作る基本的な設計上の決定です。新しい機能をクライアントサイドで実装できる場合は、実装されます。サーバーサイド処理はデフォルトではなく、例外です。
プライバシーを重視する専門家、コンプライアンス担当者、ITマネージャーにとっての質問は、「このツールに優れたプライバシーポリシーがあるか?」だけではありません。それは、「このツールは私のファイルにアクセスする必要があるのか?」です。
PDFSubが行うことのほとんどについては、答えは「いいえ」です。
自分で試してみる
PDFSubのプライバシーアーキテクチャを評価する最善の方法は、直接体験することです。
7日間の無料トライアルを開始—77以上のツールをすべてブラウズし、ネットワークタブを開いたまま文書を処理して、自分で確認してください。ファイルアップロードなし。サーバーサイド処理なし。あなたの文書はデバイス上に留まります。
銀行明細書の変換、PDFのマージ、圧縮、テキスト抽出、その他の数十の操作では—あなたのファイルはブラウザから離れません。それは約束ではありません。それはあなたが検証できるアーキテクチャです。