PDFSubによるPDF処理の仕組み:ブラウザ、エンジン、AI
ほとんどのオンラインPDFツールはファイルをリモートサーバーにアップロードします。PDFSubは、ブラウザベースの編集、変換用の独立したPDFSub Engine、インテリジェント分析用のAIという3つの処理階層を使用しており、それぞれがデータを保護するように設計されています。その仕組みを詳しく説明します。
銀行の明細書をExcelに変換する必要がある。または、2つの契約書を1つのPDFにマージする。または、クライアントにメールで送信する前に税務申告書を圧縮する。
そこで「PDF変換」とGoogle検索し、最初に出てきた結果をクリックして、ファイルをアップロードボックスにドラッグします。進捗バーがいっぱいになり、スピナーが回転します。30秒後、結果をダウンロードします。
シンプル。高速。そして、あなたの機密文書はインターネットを横断し、見知らぬサーバーに着陸し、検査できないソフトウェアで処理され、(うまくいけば)その後削除されました。
それがオンライン文書ツールのプライバシーのパラドックスです。処理が必要な文書—銀行明細書、税務申告書、法的契約書、医療記録、財務報告書—は、共有に最も注意を払うべき文書です。しかし、すべての主要なPDFツールの標準的なワークフローでは、これらのファイルをサードパーティに渡す必要があります。
PDFSubは、そのパターンを破るために構築されました。ほとんどの操作では、ファイルはデバイスから離れません。この記事では、その仕組み、サーバーサイド処理が本当に必要な場合、そしてあなたがすべての主張を自分で検証する方法を詳しく説明します。

ほとんどのオンラインPDFツールの仕組み
PDFSubがどのように異なるかを説明する前に、標準的なアプローチを理解することが役立ちます。無料または有料のほぼすべてのオンラインPDFツールは、同じパターンに従います。
- デバイス上のファイルを選択
- ファイルがインターネット経由でプロバイダーのサーバーにアップロードされる
- サーバーがファイルを処理する(マージ、圧縮、変換、データ抽出)
- 結果がダウンロードとして返される
- 元のファイルは(おそらく)削除されるまでサーバー上に置かれる
このアーキテクチャは、プロバイダーの観点からは理にかなっています。サーバーサイド処理は、構築が容易で、スケーリングが容易で、プロバイダーに完全な制御を与えます。しかし、あなたの観点からは、あなたの文書があなたが制御できないインフラストラクチャに触れることを意味します。
プロバイダーがHTTPSを使用している場合でも、処理後にファイルを削除すると約束している場合でも、プライバシーポリシーが安心できるものであっても—ファイルは彼らのサーバー上にありました。それは彼らのメモリ、ディスク、潜在的にはバックアップやログに存在しました。サポートスタッフがアクセスできる可能性があります。サブプロセッサがコピーを受け取る可能性があります。そして、彼らのインフラストラクチャが侵害された場合、あなたの文書は何百万人もの他の文書と一緒に公開される可能性があります。
これは、あなたが使用したほぼすべてのオンラインPDFツールに当てはまります。有名どころ、無料ツール、「プライバシー重視」のツール—ほぼすべてがこのアップロード-処理-ダウンロードモデルに従っています。
「プライバシー重視」とは通常何を意味するか
一部のツールはプライバシーを意識しているとマーケティングしています。しかし、それが通常何を意味するかをよく見てください。
- 「ファイルは転送中に暗号化されます」 - これはHTTPSにすぎません。すべてのウェブサイトが使用しています。転送中のファイルを保護しますが、サーバー上にある間は保護しません。
- 「ファイルは2時間後に削除されます」 - 2時間は、サードパーティサーバー上の機密文書にとっては長い時間です。「削除」は必ずしもバックアップから消去されることを意味しません。
- 「ファイルを読みません」 - 技術的には真実です—自動化されたソフトウェアが処理します。しかし、ファイルはまだ彼らのインフラストラクチャ上にあり、サーバーへのアクセス権を持つ誰でもアクセスできます。
- 「SOC 2認定」 - これはセキュリティプロセスが存在することを証明するものであり、侵害が発生しないことを証明するものではありません。Big Four会計事務所のうち3社は、MOVEit侵害で9330万人のデータが公開されたときにSOC 2を取得していました。
これらの対策のどれも悪いわけではありません。それらは単に本当に機密性の高い文書には不十分です。最も安全なアプローチは、より良い暗号化や短い保持期間ではなく、そもそもファイルを送信しないことです。
PDFSubが異なる理由:ブラウザベースの処理

PDFSubは根本的に異なるアーキテクチャアプローチを採用しています。処理のためにファイルをサーバーにアップロードする代わりに、PDFSubは処理ソフトウェアをWebブラウザで直接実行します。
PDFSubを開いてPDFをロードすると、ファイルはデバイスからブラウザのメモリに読み込まれます。処理コード—JavaScriptとWebAssemblyで記述されています—は、あなたのコンピュータ上で、あなたのプロセッサとRAMを使用して実行されます。結果はローカルで生成され、ブラウザから直接ハードドライブにダウンロードされます。
ファイルはネットワークを横断しません。リモートサーバーに触れることはありません。アップロードも、生のファイルデータのダウンロードも、サーバーサイドストレージも、保持期間も、サードパーティのアクセスもありません。
これは信頼を必要とするマーケティング上の主張ではありません。これは、あなたが自分で検証できる技術的なアーキテクチャです(後述)。
ブラウザベースの処理は実際にどのように機能するか
これを理解するためにソフトウェアエンジニアである必要はありません。従来のPDFツールを写真プリントキオスクと考えてください。写真をキオスクに渡すと、キオスクはそれを処理して印刷し、(うまくいけば)元の写真をシュレッダーにかけます。キオスクオペレーターを信頼する必要があります。
ブラウザベースの処理は、自宅に写真プリンターを持っているようなものです。写真は家から離れません。処理はあなたの機器上で、あなたの管理下で行われます。
PDFSubがブラウザでロードされると、処理ソフトウェアがデバイスにダウンロードされます。そのソフトウェアは、あなたのマシン上で完全に実行されます。ブラウザは、コードが生のファイルデータをどこかに送信する能力なしに、ファイルを読み取って処理できる安全なサンドボックス化された環境を提供します。
一般的な操作のステップバイステップの流れは次のとおりです。
- PDFSubを開く - ブラウザがアプリケーションコード(JavaScript、WebAssembly)をダウンロードします。これが処理エンジンです。
- PDFファイルを選択する - ブラウザがハードドライブからローカルメモリにファイルを読み込みます。ネットワークリクエストは行われません。
- ローカルで処理が行われる - JavaScript/WebAssemblyコードがPDF構造を解析し、テキストを抽出し、ページを操作し、選択した操作を実行します。すべての計算はデバイスのプロセッサを使用します。
- メモリ内で結果が生成される - 出力ファイル(マージされたPDF、Excelスプレッドシート、圧縮されたPDFなど)がブラウザのメモリ内に作成されます。
- 結果をダウンロードする - ファイルはブラウザメモリから直接ハードドライブに保存されます。サーバーは関与しません。
元のファイル—またはその内容—がデバイスを離れることはありません。ブラウザのセキュリティモデルがこれを強制します:Webページで実行されるJavaScriptは、ネットワークリクエストを行わずにサイレントにデータを送信することはできません。リアルタイムでネットワークリクエストを監視できます。
ブラウザのセキュリティモデルがあなたを保護する
最新のWebブラウザは、このアーキテクチャを真に安全にするいくつかの保護レイヤーを提供しています。
- 同一オリジンポリシー - あるウェブサイトのコードは、別のウェブサイトのデータにアクセスできません。他のタブやウェブサイトは、PDFSubで処理しているファイルを読み取ることができません。
- プロセス分離 - 各ブラウザタブは、個別のサンドボックス化されたプロセスで実行されます。コンピュータ上の他のアプリケーションは、処理中のデータにアクセスできません。
- 永続ストレージなし - タブを閉じると、メモリ内のすべてのデータは破棄されます。サーバーサイド処理とは異なり、ディスク上に残りのコピー、バックアップスナップショット、データを含むログファイルはありません。
- 監査可能なネットワークアクティビティ - ブラウザが行うすべてのネットワークリクエストは、開発者ツールで表示できます。ファイルデータが送信されていないことをリアルタイムで確認できます。
これはPDFSubが構築した独自のセキュリティシステムではありません。これは、Chrome、Firefox、Safari、Edge—セキュリティ投資に数十億ドルを費やしているブラウザ—によって強制される、Webプラットフォーム自体のセキュリティモデルです。
オフラインでも機能する
PDFSubのページがロードされると、インターネットから切断しても多くの操作が機能します。処理コードはすでにブラウザ内にあります。ファイルはすでにメモリ内にあります。PDFをマージしたり、文書を圧縮したり、テキストを抽出したりするためにネットワーク接続は必要ありません。
PDFSubをロードし、機内モードをオンにして、ファイルを処理します。機能します—なぜなら、ファイルはそもそもアップロードされる予定ではなかったからです。
サーバーサイド処理が必要な場合
透明性は重要なので、率直に言いましょう:すべての操作がブラウザで行えるわけではありません。一部のタスクにはブラウザにない機能が必要であり、それらの場合、PDFSubはサーバーサイド処理を使用します。
以下は具体的なシナリオです。
OCRが必要なスキャン済みPDF
PDFがスキャンされた画像—印刷された文書の写真—である場合、ブラウザはピクセルを見ることができますが、テキストを読むことはできません。画像からテキストを抽出するには、光学文字認識(OCR)が必要であり、それにはブラウザで実行するには大きすぎる、計算集約的なAIモデルが必要です。
スキャンされた文書の場合、PDFはPDFSubのサーバーに送信され、AI搭載OCRが画像からテキストを読み取り、データを抽出し、結果を返します。
AI搭載機能
AIによる要約、AI翻訳、AIデータ抽出、文書に関するAIチャットなどの機能には、専用ハードウェアで実行される大規模言語モデルが必要です。これらの機能は現在ブラウザで実行することはできません—モデルは、消費者デバイスが提供できるものを超えるかなりの計算リソースを必要とします。
AI機能を使用すると、関連する文書コンテンツが処理のためにサーバーに送信されます。
複雑なサーバーサイド解析
一部のPDF文書は、ブラウザベースのパーサーが処理できない、異常なエンコーディング、破損した構造、またはエッジケースのフォーマットを持っています。これらの場合、PDFSubはより堅牢な解析ツールにアクセスできるサーバーサイドパーサーにフォールバックします。
サーバーサイド処理中の処理内容
サーバーサイド処理が必要な場合、正確には次のようになります。
- 暗号化された転送 - ファイルはTLS(オンラインバンキングと同じ暗号化)経由でPDFSubのサーバーに送信されます。
- メモリ内処理 - ファイルはすぐに処理されます。処理中はサーバーメモリに保持され、永続ストレージには書き込まれません。
- 結果の返却 - 処理結果がブラウザに返されます。
- 即時削除 - 元のファイルと中間データは、処理が完了次第、サーバーメモリから削除されます。
- 保持なし - PDFSubはファイルを保存せず、ファイル内容をログに記録せず、処理後に文書データを保持しません。
- AIトレーニングなし - あなたの文書はAIモデルのトレーニングには使用されません。ファイル内容は処理され、破棄されます。
他のツールとの主な違い:PDFSubは、技術的に必要な場合にのみ、そしてそれが必要な特定の操作に対してのみ、サーバーサイド処理を使用します。ほとんどのツールは、必要かどうかに関わらず、すべてのファイルをサーバーに送信します。
あなたの文書にとっての意味
異なる文書タイプは異なる処理パスを持ちます。実用的な内訳は次のとおりです。
銀行明細書(デジタルPDF)
オンラインバンキングポータルから銀行明細書をダウンロードした場合、それはデジタルPDFです—テキストは実際のテキストであり、スキャンされた画像ではありません。これらの文書の場合、PDFSubの抽出エンジンは完全にブラウザで実行されます。
取引日、説明、金額、残高はローカルで解析および構造化されます。出力—Excel、CSV、QBO、OFX、またはその他の形式であっても—はデバイス上で生成されます。あなたの銀行明細書は、口座番号、取引履歴、残高とともに、コンピュータから離れることはありません。
今日、ほとんどの銀行明細書はデジタルでダウンロードされるため、これは銀行明細書変換の最も一般的なシナリオです。
銀行明細書(スキャン済み)
物理的な明細書を写真に撮ったりスキャンしたりした場合、PDFにはテキストではなく画像が含まれています。これらには、画像からテキストを読み取るためのサーバーサイドAIが必要です。ファイルはサーバーに送信され、処理され、その後すぐに削除されます。
請求書と領収書
デジタル請求書や領収書からのテキスト抽出は、ブラウザで行われます。AIによる分析—ベンダー名、品目、税額、合計金額を自動的に識別する—が必要な場合は、サーバーサイドAI処理が必要です。
契約書と法的文書
契約書のマージ、訴訟提出書類の圧縮、特定のページの抽出、透かしの追加、編集など、ほとんどのPDF操作は完全にブラウザで行われます。文書は全体を通してデバイス上に留まります。
財務報告書
デジタルPDFの財務報告書の表をExcelに変換することは、ブラウザサイドで行われます。AIによる分析—要約の生成、主要指標の抽出、コンテンツに関する質問—には、サーバーサイド処理が必要です。
一般的なルール
操作が構造的な場合(マージ、分割、圧縮、回転、ページ抽出、フォーマット変換、透かし追加)—ブラウザで行われます。
操作にAIの理解が必要な場合(要約、翻訳、複雑またはスキャンされた文書からのデータ抽出、質問応答)—サーバーサイド処理が必要です。
PDFSubは84以上のツールを提供しています。その大部分はサーバーに触れないブラウザベースの操作です。
規制産業向け
厳格なデータ処理要件を持つ分野で働いている場合、ブラウザベースとサーバーベースの処理の違いは、コンプライアンスに実際の意味を持ちます。
ヘルスケア(HIPAA)
HIPAAは、カバーエンティティとビジネスアソシエイトに患者健康情報(PHI)を保護することを要求しています。PHIを含む文書を処理するためにクラウドベースのツールを使用すると、そのツールのプロバイダーはビジネスアソシエイトになり、署名済みのビジネスアソシエイト契約(BAA)、文書化されたセキュリティ管理、および侵害通知義務が必要になります。
PDFSubのブラウザベースのツールを使用してPHIを含むPDFを処理する場合、文書はデバイスから離れません。PHIは共有されないため、これらの操作にはBAAは必要ありません。これにより、コンプライアンスが簡素化され、ベンダーリスクのカテゴリが排除されます。
サーバーサイド処理を必要とするAI搭載機能については、標準的なHIPAAベンダー評価が適用されます。
金融サービス
銀行、投資会社、保険会社、財務アドバイザーは、Gramm-Leach-Bliley法、SEC規則、FINRA要件、および州固有の規制によって管理されるデータを扱います。これらには、文書化されたデータ処理手順、ベンダーリスク評価、およびクライアントデータをサードパーティと共有することの制限が必要です。
ブラウザベースの処理は、AIを必要としない操作の場合、クライアントの財務データがオンプレミスに残ることを意味します。これにより、コンプライアンス文書におけるサードパーティのデータプロセッサが減少し、ベンダーリスク評価が簡素化されます。
法務
弁護士は、弁護士依頼人特権で保護された文書を扱います。特権のある文書をサードパーティサーバーにアップロードすると、プロバイダーから文書がアクセスされたり、侵害されたり、召喚されたりした場合に、特権が異議を唱えられるリスクが生じます。
特権のある文書に対する基本的なPDF操作—証拠ファイルの結合、証拠の圧縮、ページの抽出—の場合、ブラウザベースの処理は、文書が弁護士のデバイスから離れないことを意味します。特権は疑問なく維持されます。
会計と税務申告
IRSは、すべての税務専門家に書面情報セキュリティ計画(WISP)を維持することを要求しています。AICPAは、機密クライアント情報の開示をサードパーティに制限しています。クライアントの財務文書にクラウドベースのツールを使用すると、コンプライアンス義務が発生します。
ブラウザベースの処理は、サーバーサイドAIを必要としない操作の場合、これらの義務を排除します。WISPはよりシンプルになり、ベンダーリスクインベントリは短くなり、コンプライアンス体制はより強力になります。
ご自身で検証する方法
PDFSubのこれらの主張を信じる必要はありません。ブラウザベースのアーキテクチャは、Webブラウザに組み込まれているツールを使用して完全に監査可能です。
ステップ1:開発者ツールを開く
任意のモダンブラウザで、F12キーを押す(またはページ上のどこかを右クリックして「検証」を選択)と、開発者ツールパネルが開きます。
ステップ2:ネットワークタブに移動する
ネットワークタブをクリックします。これにより、ブラウザが行うすべてのネットワークリクエスト—ダウンロードされるすべてのファイル、すべてのAPI呼び出し、すべてのデータ送信—が表示されます。ブラウザから何も送信されずにここに表示されることはありません。
ステップ3:ログをクリアする
クリアボタン(線で囲まれた円)をクリックして、クリーンな状態から開始します。
ステップ4:文書を処理する
PDFSubにPDFをロードし、ブラウザベースの操作を実行します—マージ、圧縮、テキスト抽出、銀行明細書の変換。
ステップ5:ネットワークログを検査する
処理中に表示されたリクエストを確認します。ブラウザベースの操作の場合、次のようになります。
- ファイルアップロードリクエストなし - PDFデータをサーバーに送信するPOSTまたはPUTリクエストはありません。
- どのアクエストにも文書コンテンツが含まれていない - ファイルバイトはブラウザのメモリ内に留まります。
- 小さなメタデータリクエストのみ - 使用状況分析(ページビュー、機能使用状況)のようなもので、文書データは含まれません。
これは、セキュリティ研究者がWebアプリケーションを監査するために使用するのと同じ手法です。PDFSubが秘密裏にファイルをアップロードしていた場合、それはすぐに明らかになります。
AI操作については?
サーバーサイドAIを必要とする機能を使用した場合、ネットワークタブにネットワークリクエストが表示されます。これは予想されることです—AI処理のためにコンテンツがサーバーに到達する必要があります。違いは、PDFSubがすべてのファイルをサイレントにアップロードするのではなく、どの操作にこれが必要かを透明にしていることです。
PDFSubが収集するものと収集しないもの
完全な透明性とは、PDFSubが処理するデータと処理しないデータについて具体的に述べることです。
PDFSubが収集するもの
- アカウント情報 - アカウントを作成した場合のメールアドレス、名前、サブスクリプションの詳細。
- 使用状況分析 - どのツールを、どのくらいの頻度で使用しているか、ページビュー、機能のインタラクション。これは製品改善に役立つ標準的なWeb分析です。
- エラーレポート - 何か問題が発生した場合、匿名化されたエラー情報(文書コンテンツではありません)が問題の診断と修正に役立ちます。
- 支払い情報 - 支払いプロバイダーによって処理されます(PDFSubが直接保存するわけではありません)。
ブラウザベースの操作でPDFSubが収集しないもの
- ファイルの内容 - ブラウザベースの操作の場合、PDFのバイトはPDFSubのサーバーに送信されません。
- 抽出されたテキスト - 取引の説明、名前、金額、日付—これらのデータはローカル操作のためにデバイスを離れません。
- 文書メタデータ - ファイル名、作成者フィールド、PDF内の作成日はデバイス上に残ります。
- 処理された出力 - Excelファイル、CSV、マージされたPDF、または圧縮された文書は、ブラウザで生成され、デバイスに保存されます。
サーバーサイド操作の場合
操作にサーバーサイド処理(AI機能、スキャン文書OCR)が必要な場合、文書コンテンツは処理のためにサーバーに送信され、その後すぐに削除されます。保存、ログ記録、インデックス作成、または要求された操作の完了以外の目的で使用されることはありません。
他のアプローチとの比較
PDFSubのアプローチを文脈に入れるために、一般的な代替案との比較を以下に示します。
| アプローチ | 処理場所 | ファイルアップロード必要 | データ保持 | プライバシーレベル |
|---|---|---|---|---|
| PDFSub(ブラウザベースツール) | あなたのデバイス | いいえ | なし | 最高 - ファイルは決して離れない |
| PDFSub(AI機能) | PDFSubサーバー | はい(必要な場合) | なし - 即時削除 | 高 - 最小限の露出 |
| 一般的なクラウドPDFツール | プロバイダーのサーバー | はい、常に | 数時間から数日 | 中程度 - プロバイダーによる |
| エンタープライズクラウドツール | プロバイダーのサーバー | はい、常に | 保持ポリシーによる | 中程度 - 文書化された管理 |
| デスクトップソフトウェア | あなたのデバイス | いいえ | ローカルファイル | 高 - ただしインストールが必要 |
デスクトップソフトウェアは、プライバシーの観点から最も近い比較です—どちらもローカルで処理します。ブラウザベースの利点:インストール不要、ブラウザ搭載のあらゆるデバイスで動作、常に最新、Chromebookやタブレットからもアクセス可能(デスクトップソフトウェアは実行できない)。
正直なトレードオフ
完璧なアプローチはなく、信頼できるということは、限界について正直であることを意味します。
ブラウザベースの処理は、非常に大きなファイルの場合、遅くなる可能性があります。 専用サーバーと最適化されたハードウェアは、非常に大きな文書(100ページ以上)の場合、より高速です。通常の文書では、違いはほとんど気になりません。
AI機能にはサーバーサイド処理が必要です。 AIによる要約、翻訳、またはスキャン文書のOCRが必要な場合、コンテンツはサーバーに到達する必要があります。PDFSubは、まずローカル処理を使用し、必要な場合にのみエスカレートすることで、これを最小限に抑えます。
ブラウザの機能には限界があります。 エッジケース—破損したPDF、異常なエンコーディング、非常に複雑なレイアウト—には、サーバーサイドフォールバックが必要になる場合があります。PDFSubはこれをうまく処理しますが、その場合ファイルはデバイスを離れます。
哲学:可能な限りローカルで処理し、本当に必要な場合にのみサーバーサイドを使用し、どちらであるかについて透明性を持ち、サーバー処理が必要な場合はすべて即座に削除する。
なぜこのアーキテクチャが重要なのか
ソフトウェアのトレンドは、より多くのクラウド処理、より多くのデータ収集、より多くのサーバーサイド計算へと向かっています。機密文書—銀行明細書、税務申告書、法的契約書、医療記録、財務報告書—にとって、そのトレンドは全く逆です。
最も安全なファイルは、デバイスから離れないファイルです。最も安全なサーバーは、あなたのデータを受け取らないサーバーです。最も強力なプライバシーポリシーは、プロバイダー側に保護するものが何もないため、存在するのを必要としないポリシーです。
PDFSubのブラウザベースのアーキテクチャは、マーケティング上の差別化要因ではありません。それは、すべてのツールの構築方法を形作る基本的な設計上の決定です。新しい機能がクライアントサイドで実装できる場合、それは実装されます。サーバーサイド処理は例外であり、デフォルトではありません。
プライバシーを意識する専門家、コンプライアンス担当者、ITマネージャーにとって、質問は「このツールに良いプライバシーポリシーはありますか?」だけではありません。それは「このツールは私のファイルにアクセスする必要がありますか?」です。
PDFSubが行うことのほとんどでは、答えは「いいえ」です。
ご自身で試してみてください
PDFSubのプライバシーアーキテクチャを評価する最良の方法は、直接体験することです。
7日間の無料トライアルを開始 - 84以上のツールをすべて閲覧し、ネットワークタブを開いたまま文書を処理して、ご自身で確認してください。ファイルアップロードなし。サーバーサイド処理なし。あなたの文書はデバイス上に留まります。
銀行明細書の変換、PDFのマージ、圧縮、テキスト抽出、およびその他の多数の操作では—あなたのファイルはブラウザから離れることはありません。それは約束ではありません。それはあなたが検証できるアーキテクチャです。