Вам нужно преобразовать банковскую выписку в Excel. Или объединить два договора в один PDF. Или сжать налоговую декларацию перед отправкой клиенту по электронной почте.

Вы ищете в Google «конвертер PDF», нажимаете на первый результат и перетаскиваете файл в окно загрузки. Полоса загрузки заполняется. Индикатор вращается. Через тридцать секунд вы скачиваете результат.

Просто. Быстро. И ваш конфиденциальный документ только что прошел через интернет, попал на чужой сервер, был обработан программным обеспечением, которое вы не можете проверить, и (надеемся) был удален после этого.

Таков парадокс конфиденциальности онлайн-инструментов для работы с документами. Документы, которые вам нужно обрабатывать чаще всего — банковские выписки, налоговые декларации, юридические контракты, медицинские записи, финансовые отчеты — это именно те, с которыми следует обращаться наиболее осторожно. Однако стандартный рабочий процесс для каждого основного инструмента для работы с PDF требует передачи этих файлов третьей стороне.

PDFSub был создан, чтобы изменить эту модель. Для большинства операций ваши файлы никогда не покидают ваше устройство. Эта статья подробно объясняет, как это работает, когда серверная обработка действительно необходима, и как вы можете самостоятельно проверить каждое утверждение.

How PDFSub processes PDFs without uploading your files - browser-based document processing for privacy-conscious professionals

Как работают большинство онлайн-инструментов для работы с PDF

Прежде чем объяснять, что PDFSub делает иначе, полезно понять стандартный подход. Практически каждый онлайн-инструмент для работы с PDF — бесплатный или платный — следует одной и той же схеме:

Вы выбираете файл на своем устройстве
Файл загружается на сервер провайдера через интернет
Сервер обрабатывает файл (объединение, сжатие, преобразование, извлечение данных)
Результат отправляется обратно вам для скачивания
Исходный файл остается на их сервере до тех пор, пока он (предположительно) не будет удален

Эта архитектура имеет смысл с точки зрения провайдера. Серверная обработка проще в разработке, масштабировании и дает провайдеру полный контроль. Но с вашей точки зрения это означает, что ваш документ касается инфраструктуры, которую вы не контролируете.

Даже если провайдер использует HTTPS, даже если они обещают удалять файлы после обработки, и даже если у них есть обнадеживающая политика конфиденциальности — ваш файл был на их сервере. Он существовал в их памяти, на их диске, потенциально в их резервных копиях и журналах. Сотрудники службы поддержки могут иметь доступ. Субподрядчики могут получить копии. И если их инфраструктура будет взломана, ваш документ может быть раскрыт вместе с миллионами других.

Это верно для почти каждого онлайн-инструмента для работы с PDF, которым вы пользовались. Крупные имена, бесплатные инструменты, «ориентированные на конфиденциальность» инструменты — почти все следуют этой модели загрузки-обработки-скачивания.

Что обычно означает «ориентированность на конфиденциальность»

Некоторые инструменты позиционируют себя как заботящиеся о конфиденциальности. Но присмотритесь, что это обычно означает:

«Файлы шифруются при передаче» — это просто HTTPS. Его использует каждый веб-сайт. Он защищает ваш файл во время передачи, а не когда он находится на их сервере.
«Файлы удаляются через 2 часа» — два часа — это долго для конфиденциального документа на стороннем сервере. И «удалено» не всегда означает стерто из резервных копий.
«Мы не читаем ваши файлы» — технически верно — их обрабатывает автоматизированное программное обеспечение. Но файл все равно находится на их инфраструктуре, доступный любому, кто имеет доступ к серверу.
«Сертификация SOC 2» — это подтверждает наличие процессов безопасности, а не то, что взломы не могут произойти. Три из четырех крупнейших бухгалтерских фирм имели SOC 2, когда взлом MOVEit раскрыл данные 93,3 миллиона человек.

Ни одна из этих мер не является плохой. Они просто недостаточны для документов, которые действительно конфиденциальны. Самый безопасный подход — не лучшая шифровка или более короткий срок хранения, а не отправка файла вообще.

Чем отличается PDFSub: обработка в браузере

How PDFSub processes files privately - Upload, Process in Browser, Download, No Server Storage

PDFSub использует принципиально другой архитектурный подход. Вместо загрузки вашего файла на сервер для обработки, PDFSub запускает программное обеспечение для обработки непосредственно в вашем веб-браузере.

Когда вы открываете PDFSub и загружаете PDF-файл, файл считывается с вашего устройства в память вашего браузера. Код обработки — написанный на JavaScript и WebAssembly — выполняется на вашем компьютере, используя ваш процессор и оперативную память. Результат генерируется локально и скачивается напрямую из вашего браузера на ваш жесткий диск.

Файл никогда не пересекает сеть. Он никогда не касается удаленного сервера. Нет загрузки, нет скачивания необработанных данных файла, нет серверного хранения, нет периода хранения и нет доступа третьих лиц.

Это не маркетинговое заявление, требующее доверия. Это техническая архитектура, которую вы можете проверить самостоятельно (об этом позже).

Как на самом деле работает обработка в браузере

Вам не нужно быть инженером-программистом, чтобы это понять. Представьте традиционный инструмент для работы с PDF как киоск для печати фотографий. Вы передаете свою фотографию киоску, он обрабатывает и печатает ее, и (надеемся) уничтожает оригинал. Вам приходится доверять оператору киоска.

Обработка в браузере больше похожа на наличие домашнего принтера для фотографий. Фотография никогда не покидает ваш дом. Обработка происходит на вашем оборудовании, под вашим контролем.

Когда PDFSub загружается в ваш браузер, он скачивает программное обеспечение для обработки на ваше устройство. Это программное обеспечение затем выполняется полностью на вашей машине. Ваш браузер предоставляет безопасную, изолированную среду, где код может считывать и обрабатывать ваш файл без возможности отправки необработанных данных файла куда-либо еще.

Вот пошаговый процесс для типичной операции:

Вы открываете PDFSub — ваш браузер скачивает код приложения (JavaScript, WebAssembly). Это движок обработки.
Вы выбираете PDF-файл — ваш браузер считывает файл с вашего жесткого диска в локальную память. Сетевой запрос не выполняется.
Обработка происходит локально — код JavaScript/WebAssembly анализирует структуру PDF, извлекает текст, манипулирует страницами или выполняет любую выбранную вами операцию. Все вычисления используют процессор вашего устройства.
Результат генерируется в памяти — выходной файл (объединенный PDF, электронная таблица Excel, сжатый PDF и т. д.) создается в памяти вашего браузера.
Вы скачиваете результат — файл сохраняется напрямую из памяти браузера на ваш жесткий диск. Сервер не задействован.

В любой момент исходный файл — или его содержимое — не покидает ваше устройство. Модель безопасности браузера обеспечивает это: JavaScript, работающий на веб-странице, не может незаметно передавать данные без выполнения сетевого запроса, и вы можете отслеживать сетевые запросы в режиме реального времени.

Модель безопасности браузера защищает вас

Современные веб-браузеры предоставляют несколько уровней защиты, которые делают эту архитектуру действительно безопасной:

Политика одинакового источника (Same-origin policy) — код с одного веб-сайта не может получить доступ к данным с другого. Ни одна другая вкладка или веб-сайт не может прочитать файл, который вы обрабатываете в PDFSub.
Изоляция процессов — каждая вкладка браузера работает в отдельном изолированном процессе. Другие приложения на вашем компьютере не могут получить доступ к обрабатываемым данным.
Отсутствие постоянного хранения — при закрытии вкладки все данные в памяти уничтожаются. В отличие от серверной обработки, не остается остаточных копий на диске, нет снимков резервного копирования, нет журналов, содержащих ваши данные.
Проверяемая сетевая активность — каждый сетевой запрос, который делает ваш браузер, виден в инструментах разработчика. Вы можете в режиме реального времени убедиться, что данные файла не передаются.

Это не проприетарная система безопасности, созданная PDFSub. Это модель безопасности самой веб-платформы, обеспечиваемая Chrome, Firefox, Safari и Edge — браузерами, поддерживаемыми миллиардами долларов инвестиций в безопасность.

Работает даже офлайн

После загрузки страницы PDFSub многие операции работают, даже если вы отключитесь от интернета. Код обработки уже находится в вашем браузере. Файл уже в памяти. Для объединения PDF, сжатия документа или извлечения текста не требуется подключение к сети.

Загрузите PDFSub, включите режим полета и обработайте файл. Это работает — потому что файл все равно не собирались загружать.

Когда необходима серверная обработка

Прозрачность важна, поэтому будем откровенны: не все операции могут выполняться в вашем браузере. Некоторые задачи требуют возможностей, которых нет у браузеров, и для них PDFSub использует серверную обработку.

Вот конкретные сценарии:

Сканированные PDF-файлы, требующие OCR

Когда PDF-файл является сканированным изображением — фотографией печатного документа — ваш браузер видит пиксели, но не может прочитать текст. Извлечение текста из изображений требует оптического распознавания символов (OCR), что, в свою очередь, требует моделей ИИ, которые слишком велики и вычислительно интенсивны для запуска в браузере.

Для сканированных документов PDF-файл отправляется на сервер PDFSub, где OCR на базе ИИ считывает текст с изображения, извлекает данные и возвращает результат.

Функции на базе ИИ

Функции, такие как ИИ-суммирование, ИИ-перевод, ИИ-извлечение данных и ИИ-чат о документах, требуют больших языковых моделей, работающих на специализированном оборудовании. Эти функции в настоящее время не могут работать в браузере — моделям требуются значительные вычислительные ресурсы, превышающие возможности потребительских устройств.

Когда вы используете функцию ИИ, соответствующее содержимое документа отправляется на сервер для обработки.

Сложный серверный парсинг

Некоторые PDF-файлы имеют необычное кодирование, поврежденную структуру или граничные форматы, которые парсер браузера не может обработать. В этих случаях PDFSub использует резервный серверный парсер, имеющий доступ к более надежным инструментам парсинга.

Что происходит во время серверной обработки

Когда требуется серверная обработка, вот что происходит:

Зашифрованная передача — ваш файл отправляется через TLS (то же шифрование, что используется в онлайн-банкинге) на серверы PDFSub.
Обработка в памяти — файл обрабатывается немедленно. Он хранится в памяти сервера во время обработки, а не записывается в постоянное хранилище.
Возврат результата — обработанный результат отправляется обратно в ваш браузер.
Немедленное удаление — исходный файл и любые промежуточные данные удаляются из памяти сервера сразу после завершения обработки.
Отсутствие хранения — PDFSub не хранит ваши файлы, не записывает содержимое файлов и не сохраняет никаких данных документов после обработки.
Отсутствие обучения ИИ — ваши документы никогда не используются для обучения моделей ИИ. Содержимое файлов обрабатывается и отбрасывается.

Ключевое отличие от других инструментов: PDFSub использует серверную обработку только тогда, когда это технически необходимо, и только для конкретных операций, которые этого требуют. Большинство инструментов отправляют каждый файл на свои серверы независимо от того, нужно ли это.

Что это значит для ваших документов

Различные типы документов имеют разные пути обработки. Вот практический обзор:

Банковские выписки (цифровые PDF)

Если вы скачиваете банковскую выписку из своего онлайн-банкинга, это цифровой PDF — текст является фактическим текстом, а не сканированным изображением. Для этих документов механизм извлечения PDFSub работает полностью в вашем браузере.

Даты транзакций, описания, суммы и балансы анализируются и структурируются локально. Результат — будь то Excel, CSV, QBO, OFX или любой другой формат — генерируется на вашем устройстве. Ваша банковская выписка с номерами счетов, историей транзакций и балансами никогда не покидает ваш компьютер.

Это наиболее распространенный сценарий для преобразования банковских выписок, поскольку подавляющее большинство банковских выписок сегодня скачиваются в цифровом виде.

Банковские выписки (сканированные)

Если вы работаете с физической выпиской, которая была сфотографирована или отсканирована, PDF-файл содержит изображения, а не текст. Для их чтения требуется серверный ИИ для распознавания текста с изображения. Файл отправляется на сервер, обрабатывается и немедленно удаляется после этого.

Счета и квитанции

Извлечение текста из цифровых счетов и квитанций происходит в вашем браузере. Если вам нужен анализ на базе ИИ — автоматическое определение названий поставщиков, позиций, сумм налогов и итогов — это требует серверной обработки ИИ.

Контракты и юридические документы

Объединение контрактов, сжатие юридических документов, извлечение определенных страниц, добавление водяных знаков, редактирование контента и большинство других операций с PDF выполняются полностью в вашем браузере. Документ на протяжении всего процесса остается на вашем устройстве.

Финансовые отчеты

Преобразование таблиц финансового отчета в Excel для цифровых PDF-файлов выполняется в браузере. Анализ на базе ИИ — генерация сводок, извлечение ключевых показателей или ответы на вопросы по содержанию — требует серверной обработки.

Общее правило

Если операция структурная (объединение, разделение, сжатие, поворот, извлечение страниц, преобразование форматов, добавление водяных знаков) — она выполняется в вашем браузере.

Если операция требует понимания ИИ (суммирование, перевод, извлечение данных из сложных или сканированных документов, ответы на вопросы) — она требует серверной обработки.

PDFSub предлагает 84+ инструмента. Большинство из них — это операции в браузере, которые никогда не касаются сервера.

Для регулируемых отраслей

Если вы работаете в отрасли со строгими требованиями к обработке данных, различие между обработкой в браузере и на сервере имеет реальные последствия для соответствия требованиям.

Здравоохранение (HIPAA)

HIPAA требует, чтобы охватываемые организации и бизнес-партнеры защищали информацию о здоровье пациента (PHI). Когда вы используете облачный инструмент для обработки документа, содержащего PHI, поставщик этого инструмента становится бизнес-партнером — требуется подписанное соглашение о бизнес-партнерстве (BAA), документированные меры безопасности и обязательства по уведомлению о нарушениях.

Когда вы обрабатываете PDF-файл, содержащий PHI, с помощью браузерных инструментов PDFSub, документ никогда не покидает ваше устройство. PHI не передается, поэтому для этих операций BAA не требуется. Это упрощает соблюдение требований и устраняет категорию рисков, связанных с поставщиками.

Для функций на базе ИИ, требующих серверной обработки, применяются стандартные процедуры оценки поставщиков HIPAA.

Финансовые услуги

Банки, инвестиционные фирмы, страховые компании и финансовые консультанты обрабатывают данные, регулируемые Законом Грэмма-Лича-Блайли, правилами SEC, требованиями FINRA и законодательством отдельных штатов. Это требует документированных процедур обработки данных, оценки рисков поставщиков и ограничений на передачу данных клиентов третьим сторонам.

Обработка в браузере означает, что финансовые данные клиента остаются на месте для операций, не требующих ИИ. Это сокращает количество сторонних обработчиков данных в вашей документации по соответствию требованиям и упрощает оценку рисков поставщиков.

Юриспруденция

Адвокаты работают с документами, защищенными адвокатской тайной. Загрузка привилегированного документа на сторонний сервер создает риск того, что привилегия может быть оспорена, если документ будет получен, скомпрометирован или истребован у поставщика.

Для базовых операций с PDF с привилегированными документами — объединения файлов обнаружения, сжатия доказательств, извлечения страниц — обработка в браузере означает, что документ никогда не покидает устройство адвоката. Привилегия сохраняется без вопросов.

Бухгалтерия и налоговая отчетность

Налоговая служба США требует, чтобы все налоговые специалисты имели письменный план информационной безопасности (WISP). AICPA ограничивает раскрытие конфиденциальной информации клиентов третьим сторонам. Использование облачных инструментов для клиентских финансовых документов создает обязательства по соблюдению требований.

Обработка в браузере устраняет эти обязательства для операций, не требующих серверного ИИ. Ваш WISP становится проще, ваш список рисков поставщиков короче, а ваша позиция по соответствию требованиям — сильнее.

Как проверить это самостоятельно

Вам не нужно верить PDFSub на слово. Архитектура, работающая в браузере, полностью проверяема с помощью инструментов, уже встроенных в ваш веб-браузер.

Шаг 1: Откройте инструменты разработчика

В любом современном браузере нажмите F12 (или щелкните правой кнопкой мыши в любом месте страницы и выберите «Проверить»). Это откроет панель инструментов разработчика.

Шаг 2: Перейдите на вкладку «Сеть»

Нажмите на вкладку Сеть. Здесь отображается каждый сетевой запрос, который делает ваш браузер — каждый загруженный файл, каждый вызов API, каждая передача данных. Ничто не может быть отправлено из вашего браузера без появления здесь.

Шаг 3: Очистите журнал

Нажмите кнопку очистки (кружок с перечеркнутой линией), чтобы начать с чистого листа.

Шаг 4: Обработайте документ

Загрузите PDF в PDFSub и выполните любую операцию, работающую в браузере — объединение, сжатие, извлечение текста, преобразование банковской выписки.

Шаг 5: Изучите сетевой журнал

Посмотрите на запросы, которые появились во время обработки. Для операций, работающих в браузере, вы увидите:

Отсутствие запроса на загрузку файла — нет запроса POST или PUT, передающего данные вашего PDF на сервер.
Отсутствие содержимого документа в любом запросе — байты файла остаются в памяти вашего браузера.
Только небольшие запросы метаданных — такие как аналитика использования (просмотры страниц, использование функций), которые не содержат данных документа.

Это та же техника, которую используют исследователи безопасности для аудита веб-приложений. Если бы PDFSub тайно загружал ваши файлы, это было бы немедленно видно.

А как насчет операций ИИ?

Если вы используете функцию, требующую серверного ИИ, вы увидите сетевой запрос на вкладке «Сеть». Это ожидаемо — содержимое должно достичь сервера для обработки ИИ. Разница в том, что PDFSub прозрачно сообщает, какие операции этого требуют, вместо того, чтобы молча загружать каждый файл.

Что PDFSub собирает, а что нет

Полная прозрачность означает конкретность в отношении того, какие данные PDFSub обрабатывает, а какие нет.

Что собирает PDFSub

Информация об учетной записи — ваш адрес электронной почты, имя и детали подписки, если вы создаете учетную запись.
Аналитика использования — какие инструменты вы используете, как часто, просмотры страниц и взаимодействие с функциями. Это стандартная веб-аналитика, которая помогает улучшить продукт.
Отчеты об ошибках — если что-то пойдет не так, анонимизированная информация об ошибках (не содержимое вашего документа) поможет диагностировать и исправить проблемы.
Платежная информация — обрабатывается платежным провайдером (не хранится непосредственно PDFSub).

Что PDFSub НЕ собирает для операций в браузере

Содержимое ваших файлов — байты вашего PDF никогда не передаются на серверы PDFSub для операций в браузере.
Извлеченный текст — описания транзакций, имена, суммы, даты — ни один из этих данных не покидает ваше устройство для локальных операций.
Метаданные документа — имена файлов, поля автора, даты создания в PDF остаются на вашем устройстве.
Обработанный результат — файл Excel, CSV, объединенный PDF или сжатый документ генерируется в вашем браузере и сохраняется на вашем устройстве.

Для серверных операций

Когда операция требует серверной обработки (функции ИИ, OCR для сканированных документов), содержимое документа отправляется на сервер для обработки и немедленно удаляется после этого. Оно не хранится, не записывается в журналы, не индексируется и не используется ни для каких целей, кроме выполнения запрошенной вами операции.

Сравнение с другими подходами

Чтобы поместить подход PDFSub в контекст, вот как он сравнивается с распространенными альтернативами:

Подход	Где происходит обработка	Требуется ли загрузка файла	Хранение данных	Уровень конфиденциальности
PDFSub (браузерные инструменты)	Ваше устройство	Нет	Нет	Наивысший — файл никогда не покидает устройство
PDFSub (функции ИИ)	Сервер PDFSub	Да (при необходимости)	Нет — удаляется немедленно	Высокий — минимальное раскрытие
Типичный облачный инструмент для PDF	Сервер провайдера	Да, всегда	От часов до дней	Средний — зависит от провайдера
Корпоративный облачный инструмент	Сервер провайдера	Да, всегда	Согласно политике хранения	Средний — документированные элементы управления
Настольное ПО	Ваше устройство	Нет	Локальные файлы	Высокий — но требует установки

Настольное ПО является наиболее близким сравнением с точки зрения конфиденциальности — оба обрабатывают локально. Преимущество браузерного подхода: не требуется установка, работает на любом устройстве с браузером, всегда обновляется и доступен с Chromebook и планшетов, которые не могут запускать настольное ПО.

Честные компромиссы

Ни один подход не идеален, и быть надежным означает быть честным в отношении ограничений.

Обработка в браузере может быть медленнее для очень больших файлов. Выделенные серверы с оптимизированным оборудованием могут быть быстрее для чрезвычайно больших документов (100+ страниц). Для обычных документов разница незаметна.

Функции ИИ требуют серверной обработки. Если вам нужно ИИ-суммирование, перевод или OCR для сканированных документов, содержимое должно достичь сервера. PDFSub минимизирует это, сначала используя локальную обработку и только при необходимости переходя к серверной.

Возможности браузера имеют ограничения. Крайние случаи — поврежденные PDF-файлы, необычные кодировки, чрезвычайно сложные макеты — могут потребовать резервного серверного решения. PDFSub обрабатывает это корректно, но в этих случаях файл покидает ваше устройство.

Философия: обрабатывать локально, когда это возможно, использовать серверную обработку только при реальной необходимости, быть прозрачным в отношении того, что есть что, и немедленно удалять все, когда серверная обработка необходима.

Почему эта архитектура важна

Тенденция в программном обеспечении заключается в увеличении серверной обработки, сбора данных, вычислений на стороне сервера. Для конфиденциальных документов — банковских выписок, налоговых деклараций, юридических контрактов, медицинских записей и финансовых отчетов — эта тенденция совершенно обратна.

Самый безопасный файл — это тот, который никогда не покидает ваше устройство. Самый безопасный сервер — это тот, который никогда не получает ваши данные. Самая надежная политика конфиденциальности — это та, которая не нуждается в существовании, потому что на стороне провайдера нечего защищать.

Браузерная архитектура PDFSub — это не маркетинговое отличие. Это фундаментальное проектное решение, которое определяет, как строится каждый инструмент. Когда новая функция может быть реализована на стороне клиента, она реализуется. Серверная обработка — это исключение, а не правило.

Для профессионалов, заботящихся о конфиденциальности, сотрудников по соблюдению нормативных требований и ИТ-менеджеров — вопрос не только в том, «есть ли у этого инструмента хорошая политика конфиденциальности?». Вопрос в том, «нужен ли этому инструменту вообще доступ к моим файлам?»

Для большей части того, что делает PDFSub, ответ — нет.

Попробуйте сами

Лучший способ оценить архитектуру конфиденциальности PDFSub — испытать ее на собственном опыте.

Начните свою 7-дневную бесплатную пробную версию — просмотрите все 84+ инструмента, обработайте документ с открытой вкладкой «Сеть» и убедитесь сами. Без загрузки файлов. Без серверной обработки. Ваш документ остается на вашем устройстве.

Для преобразования банковских выписок, объединения PDF, сжатия, извлечения текста и десятков других операций — ваши файлы никогда не покидают ваш браузер. Это не обещание. Это архитектура, которую вы можете проверить.