Как удалить конфиденциальную информацию из PDF
Рисование черного прямоугольника поверх текста в PDF не удаляет его. Текст остается, его можно выделить, найти и извлечь. Вот как правильно удалить конфиденциальную информацию из PDF, чтобы она была безвозвратно уничтожена.
У вас есть PDF-документ с номером социального страхования на странице 3, домашним адресом клиента на странице 7 и номером банковского счета, спрятанным в таблице на странице 12. Вам нужно поделиться этим документом — с противоположной стороной, регулирующим органом, деловым партнером или общественностью — но эта конфиденциальная информация должна быть удалена.
Итак, вы открываете PDF, рисуете черный прямоугольник поверх номера социального страхования, сохраняете и отправляете.
Вы только что совершили самую распространенную ошибку при удалении информации в мире. Текст все еще там. Любой, кто получит этот PDF, может выделить «удаленную» область, скопировать скрытый текст и вставить его в текстовый редактор. Номер социального страхования вашего клиента теперь находится в буфере обмена кого-то.
Это не теоретический риск. Такое случалось с Министерством юстиции США, Управлением транспортной безопасности (TSA), компаниями из списка Fortune 500 и юридическими фирмами, занимающимися громкими делами. Настоящее удаление — то, которое фактически удаляет информацию навсегда — требует особого процесса. Рисование фигур поверх текста — это не оно.
Это руководство расскажет, что такое настоящее удаление, чем оно отличается от поддельного, и три метода для его правильного выполнения — включая один, который обрабатывает ваш документ полностью в вашем браузере, так что конфиденциальное содержимое никогда не попадает на сервер.
Что на самом деле означает удаление информации
Удаление информации — это безвозвратное, необратимое удаление данных из документа. Не скрытие. Не прикрытие. Удаление.
Когда вы правильно удаляете информацию из PDF: видимый текст заменяется черным прямоугольником, нижележащие символьные данные удаляются из потока содержимого PDF, текст становится неискаемым, его невозможно восстановить путем копирования-вставки или программного извлечения, а связанная метаинформация (закладки, комментарии, поля форм) очищается. Если какое-либо из этих условий не выполнено, у вас есть визуальное наложение — а не удаление.
Как PDF хранят текст (и почему наложения не работают)
Чтобы понять, почему черные прямоугольники не работают, нужно понять, как PDF хранят текст.
Страница PDF — это поток содержимого — последовательность операторов, которые размещают отдельные символы в точных координатах x,y на холсте. Текст «SSN: 123-45-6789» хранится как команды позиционирования, которые размещают каждый символ в определенных местах. Рисование черного прямоугольника поверх этого текста добавляет новый графический элемент в поток содержимого, но исходные текстовые операторы остаются нетронутыми. Текст все еще находится в файле. Его все еще можно выделить. Его все еще можно извлечь.
Представьте, что вы заклеили кусочком черной бумаги строку в печатном документе. Чернила все еще находятся на странице под ней. Настоящее удаление — это цифровой эквивалент вырезания этой строки из страницы полностью и сжигания обрезков.
Настоящее удаление против поддельного удаления
| Настоящее удаление | Поддельное удаление | |
|---|---|---|
| Визуальный вид | Черный прямоугольник поверх содержимого | Черный прямоугольник поверх содержимого |
| Нижележащий текст | Безвозвратно удален | Присутствует в файле |
| Выделить и скопировать | Нечего выделять | Текст можно скопировать |
| Поиск текста | Нет совпадений | Совпадения найдены |
| Программное извлечение | Данные не возвращаются | Извлекается полный текст |
| Метаданные | Очищены | Не затронуты |
| Обратимо? | Нет — информация уничтожена | Да — удалите наложение |
Снаружи настоящее и поддельное удаление выглядят одинаково. Черный прямоугольник есть в обоих случаях. Разница полностью в том, что происходит под поверхностью — и эта разница вызвала некоторые из самых неловких утечек информации в недавней истории.
Известные случаи неудачного удаления информации
Это не гипотетические сценарии. В каждом из приведенных ниже случаев профессионалы из крупных организаций полагали, что они удалили конфиденциальную информацию. Это было не так.
Дело Манафорта (2019)
Адвокаты Пола Манафорта подали в Окружной суд США судебный документ, в котором намеревались удалить детали о взаимодействии их клиента с российской разведкой. «Удаленные» разделы представляли собой черные прямоугольники — но нижележащий текст был полностью нетронут. Репортеры просто скопировали и вставили скрытый текст, выяснив, что Манафорт делился данными опросов с российским сообщником. История доминировала в новостном цикле. Юридическая команда использовала функцию выделения текстового редактора (черное выделение поверх черного текста) и экспортировала в PDF, не осознавая, что текстовый слой был сохранен.
План безопасности аэропорта TSA (2009)
Управление транспортной безопасности (TSA) опубликовало отредактированную версию своего руководства по процедурам досмотра в аэропортах. Удаления представляли собой простые черные прямоугольники, нарисованные поверх текста в PDF. Исследователи безопасности удалили наложения и получили доступ к полному нередактированному документу, который содержал подробности об исключениях из досмотра, процедурах идентификации правоохранительных органов и уязвимостях контрольно-пропускных пунктов. TSA пришлось пересмотреть весь протокол досмотра.
Дело о прослушивании AT&T / NSA (2006)
В иске Electronic Frontier Foundation против AT&T по поводу несанкционированного прослушивания AT&T подала юридическое заявление с «удаленными» коммерческими тайнами. Удаления представляли собой черные прямоугольники поверх текста в PDF. Полный текст — описывающий инфраструктуру наблюдения NSA внутри объектов AT&T — был тривиально извлекаем. Документ был загружен тысячи раз, прежде чем его удалили.
Шаблон
В каждом случае сбой был идентичен: визуальный элемент был нарисован поверх текста без удаления самого текста. И люди, совершившие эти ошибки, не были небрежны — они были юристами, государственными служащими и специалистами по безопасности. Инструменты, которые они использовали (текстовые редакторы, простые редакторы PDF, функции аннотирования), просто не выполняют настоящее удаление.
Какую информацию следует удалять?
Ответ зависит от вашей нормативной среды, но следующие категории охватывают наиболее распространенные конфиденциальные данные в деловых документах.
Лично идентифицируемая информация (PII)
- Номера социального страхования (SSN) и налоговые идентификационные номера (TIN)
- Номера банковских счетов и маршрутные номера
- Номера кредитных и дебетовых карт
- Номера водительских удостоверений и паспортов
- Даты рождения
- Домашние адреса и личные номера телефонов
- Адреса электронной почты (при наличии других PII)
- Биометрические идентификаторы
Финансовая информация
- Балансы счетов и история транзакций
- Суммы заработной платы и компенсаций
- Данные налоговых деклараций
- Сведения об инвестиционных счетах
- Информация о кредитах и ипотеке
- Кредитные рейтинги и данные кредитных отчетов
Медицинская информация (HIPAA)
- Имена пациентов в сочетании с медицинскими данными
- Номера медицинских карт
- Диагнозы и детали лечения
- Информация о рецептах
- Номера полисов медицинского страхования
- Результаты лабораторных исследований и отчеты по медицинским изображениям
Юридическая и деловая информация
- Имена несовершеннолетних в судебных документах
- Личности потерпевших и свидетелей в уголовных процессах
- Адвокатско-клиентская привилегия
- Коммерческие тайны и проприетарные формулы
- Запечатанные судебные записи и материалы большого жюри
- Номера дел и информация о производстве (в некоторых юрисдикциях)
- Конфиденциальные условия урегулирования
Кадровые документы
- Номера SSN сотрудников и данные налоговых удержаний
- Размеры заработной платы и суммы премий
- Дисциплинарные записи и оценки производительности
- Сведения о медицинских отпусках
- Результаты проверки биографии
- Заметки по внутренним расследованиям
Общее правило: если информация может идентифицировать конкретного человека, раскрыть его финансовое положение, раскрыть его медицинскую историю или раскрыть конфиденциальную юридическую переписку, ее следует удалить перед тем, как документ будет передан кому-либо, кто не имеет законной необходимости его видеть.
По типу документа
Различные документы обычно скрывают конфиденциальные данные в разных местах:
- Юридические документы: Имена и адреса сторон (особенно в делах, связанных с семьей/несовершеннолетними), привилегированная переписка, личности свидетелей, условия урегулирования, SSN в финансовых приложениях, имена несовершеннолетних.
- Финансовые документы: Номера счетов и маршрутные номера, SSN/TIN, детали транзакций, балансы, данные о заработной плате.
- Медицинские записи (HIPAA): Правило конфиденциальности HIPAA определяет 18 конкретных идентификаторов, которые должны быть удалены для деидентификации, включая имена, географические данные, даты, телефоны/факсы/электронную почту, SSN, номера медицинских карт, идентификаторы планов медицинского страхования, номера счетов, номера лицензий, идентификаторы устройств, биометрические данные и фотографии. Штрафы варьируются от 100 до 50 000 долларов за нарушение.
- Кадровые документы: SSN сотрудников в налоговых формах (W-2, W-4, I-9), суммы заработной платы, дисциплинарные взыскания, сведения о медицинских отпусках, результаты проверки биографии, личная контактная информация.
Метод 1: Инструмент PDFSub для удаления информации из PDF (Рекомендуется)
Инструмент «Удалить информацию из PDF» от PDFSub выполняет настоящее удаление — текст под метками удаления безвозвратно удаляется из файла, а не просто визуально закрывается. И поскольку инструмент работает полностью в вашем браузере, документ, содержащий вашу конфиденциальную информацию, никогда не покидает ваше устройство.
Как это работает
Шаг 1: Загрузите свой PDF. Перетащите документ в инструмент «Удалить информацию из PDF» или нажмите, чтобы выбрать файл. Файл загружается непосредственно в ваш браузер — загрузка на сервер не происходит.
Шаг 2: Отметьте области для удаления. Выберите текст или области, которые вы хотите удалить. Вы можете выделить отдельные слова, предложения, целые абзацы или нарисовать прямоугольники для удаления поверх изображений и диаграмм. Инструмент показывает вам, что именно будет удалено, прежде чем вы подтвердите.
Шаг 3: Примените удаление. Нажмите, чтобы применить. Инструмент безвозвратно удаляет отмеченное содержимое из потока содержимого PDF. Текст удаляется — не скрывается, не перекрывается, а удаляется. Черный прямоугольник заполняет пространство, где находилось содержимое.
Шаг 4: Скачайте. Сохраните отредактированный PDF. Файл, который вы скачиваете, не содержит никаких следов удаленной информации. Вы можете проверить это, попытавшись выделить текст в удаленных областях (выделять нечего) или выполнив поиск текста по удаленному содержимому (совпадений не будет).
Почему этот метод лучший для конфиденциальных документов
Обработка в браузере. Весь процесс удаления происходит в вашем браузере. Ваш PDF никогда не передается через Интернет, никогда не попадает на сторонний сервер и никогда не регистрируется, не кэшируется и не сохраняется. Для рабочих процессов, чувствительных к соответствию требованиям, это не желательная функция, а требование.
Настоящее удаление, а не аннотирование. Текст фактически удаляется из внутренней структуры данных PDF, а не просто закрывается. После удаления информация не подлежит восстановлению.
Доступная цена. В отличие от Adobe Acrobat Pro за 240 долларов в год, PDFSub предлагает профессиональное удаление информации за гораздо меньшую плату. Начните с 7-дневной бесплатной пробной версии, чтобы убедиться, что инструмент соответствует вашим потребностям.
Работает на любом устройстве. Удаляйте информацию из PDF на Windows, Mac, Linux, Chromebook и планшетах — везде, где есть современный веб-браузер.
Метод 2: Adobe Acrobat Pro
Adobe Acrobat Pro включает специальный инструмент для удаления информации, который выполняет настоящее удаление. Это отраслевой стандарт для юридических и государственных рабочих процессов.
Как удалить информацию в Acrobat Pro
Шаг 1: Откройте инструмент «Удалить информацию». Перейдите в «Инструменты» > «Удалить информацию». Откроется панель инструментов удаления.
Шаг 2: Отметьте содержимое для удаления. Нажмите и перетащите, чтобы выделить текст, удалить целые страницы или используйте «Найти и удалить», чтобы найти шаблоны (например, форматы SSN) по всему документу.
Шаг 3: Примените удаление. Это критический шаг, который многие пользователи упускают. Отметка помещает красную рамку вокруг текста — она пока не удаляет его. Вы должны нажать «Применить», чтобы безвозвратно удалить содержимое.
Шаг 4: Удалите скрытую информацию. Используйте «Удалить скрытую информацию», чтобы очистить метаданные, комментарии, поля форм и встроенные файлы.
Преимущества и недостатки
Acrobat Pro является отраслевым стандартом с широким признанием в юридических и государственных кругах, предлагает пакетный поиск и удаление «Найти и удалить», а также удаляет скрытую информацию. Однако он стоит 240 долларов в год, требует установки на рабочий стол, а двухэтапный процесс (отметить, затем применить) является частым источником ошибок, когда пользователи забывают шаг применения.
Ловушка двух шагов
Это заслуживает особого внимания, поскольку вызывает реальные утечки данных: отметка содержимого для удаления — это не то же самое, что его удаление. Отметка помещает визуальный индикатор. Текст все еще находится в файле. Только применение удаляет его. Если вы сохраните и отправите документ после отметки, но до применения, вы отправили документ с поддельным удалением.
Метод 3: Preview на Mac
Приложение Preview от Apple (встроенное в macOS) имеет инструменты аннотирования, которые могут помещать черные прямоугольники поверх текста. Многие пользователи Mac полагают, что это является удалением. Это не так.
Что на самом деле делает Preview
Когда вы используете инструмент аннотирования «Прямоугольник» в Preview, чтобы закрыть текст:
- Черная фигура рисуется поверх содержимого PDF.
- Нижележащий текст остается полностью нетронутым.
- Текст по-прежнему можно выделить, щелкнув и перетащив под прямоугольником.
- Текст по-прежнему отображается в результатах поиска (Cmd+F).
- Текст может быть извлечен любым инструментом для разбора PDF.
- Аннотацию можно полностью удалить, открыв исходный текст.
ВНИМАНИЕ: Preview не выполняет настоящее удаление
Аннотации Preview не являются удалением. Это то же самое визуальное наложение, которое вызвало сбои в делах Манафорта, TSA и AT&T, описанные выше. Использование Preview для «удаления» информации из PDF и его отправка функционально эквивалентна отправке нередактированного документа.
Начиная с macOS Sequoia (2025), Preview не включает функцию настоящего удаления. Если вы используете Mac, вместо этого используйте инструмент «Удалить информацию из PDF» от PDFSub, работающий в браузере, или Adobe Acrobat Pro.
Как проверить неэффективность Preview
Попробуйте сами: откройте любой PDF в Preview, нарисуйте прямоугольник, залитый черным цветом, поверх текста, сохраните, откройте снова и нажмите Cmd+F, чтобы найти «скрытый» текст. Он будет найден. Он никогда не был удален. Этот 30-секундный тест демонстрирует, почему инструменты аннотирования опасны при использовании для удаления информации.
Лучшие практики удаления информации
Правильный выбор инструмента для удаления — это только половина дела. Процесс, окружающий удаление, имеет такое же значение.
1. Всегда проверяйте после удаления
После применения удалений протестируйте результат. Попробуйте выделить текст в удаленных областях — если вы можете выделить что-либо под черным прямоугольником, удаление не удалось. Выполните поиск (Ctrl+F / Cmd+F) по содержимому, которое должно было быть удалено. Откройте файл в другом средстве просмотра PDF, поскольку некоторые программы по-разному обрабатывают аннотации. Для критически важных удалений (судебные разбирательства, подача документов в регулирующие органы) используйте инструмент извлечения текста, чтобы извлечь весь текст и подтвердить отсутствие удаленного содержимого.
2. Удалите метаданные
Удаление видимого текста необходимо, но недостаточно. PDF содержат метаданные, которые могут раскрывать конфиденциальную информацию: свойства документа (автор, организация, дата создания), комментарии и аннотации, данные полей форм, встроенные вложения файлов, закладки, JavaScript и метаданные XMP. Тщательный рабочий процесс удаления должен устранять все это в дополнение к видимому содержимому.
3. Работайте с копией
Никогда не удаляйте информацию из исходного документа. Сделайте копию, сохраните оригинал в безопасном месте, выполните все удаления на копии, проверьте и распространяйте только отредактированную версию. Неотредактированный оригинал может понадобиться позже для юридических разбирательств, аудиторских следов или внутреннего рассмотрения.
4. Используйте единообразный внешний вид удалений
Стандартизируйте внешний вид удалений в вашей организации. Черные прямоугольники являются стандартом для юридических и государственных документов. Рассмотрите возможность добавления меток удаления (например, «УДАЛЕНО», «ПРИВИЛЕГИРОВАНО», «PII УДАЛЕНО»), чтобы читатели знали, почему содержимое было удалено.
5. Документируйте и проверяйте
В целях соблюдения юридических требований и нормативных актов ведите учет того, кто выполнил удаление, когда, какие категории информации были удалены и какой инструмент использовался. Это создает аудиторский след, если адекватность удаления когда-либо будет поставлена под сомнение.
Попросите второго человека проверить отредактированный документ перед тем, как он покинет вашу организацию. Свежий взгляд позволяет обнаружить пропущенные удаления, неполное удаление и контекстные подсказки, которые могут позволить читателю сделать вывод о удаленном содержимом из окружающего текста. Двухсторонний просмотр является стандартной практикой в отделах FOIA государственных учреждений.
Пакетное удаление: поиск и удаление шаблонов
Когда вам нужно удалить один и тот же тип информации в большом документе, ручной выбор становится непрактичным. Пакетное удаление автоматизирует процесс, ища шаблоны и отмечая все совпадения одновременно.
Распространенные шаблоны для пакетного удаления:
| Тип данных | Форматы шаблонов |
|---|---|
| Номера социального страхования | XXX-XX-XXXX, XXX XX XXXX, XXXXXXXXX |
| Адреса электронной почты | [email protected] |
| Номера телефонов | (XXX) XXX-XXXX, XXX-XXX-XXXX, +1XXXXXXXXXX |
| Номера кредитных карт | Последовательности из 13-19 цифр, часто группами по четыре |
| Номера счетов | Последовательности из 8-17 цифр после «Account #» или «Acct» |
| Даты рождения | MM/DD/YYYY, Month DD, YYYY, DD-MM-YYYY |
Рабочий процесс: определите свои шаблоны, выполните поиск по всем страницам, просмотрите каждое совпадение (не каждое совпадение шаблона является действительно конфиденциальным), примените все сразу, а затем выполните ручной обзор содержимого, которое не соответствовало вашим шаблонам. Имена, адреса и описания в свободной форме редко соответствуют простым шаблонам и требуют человеческого рассмотрения.
Юридические требования к удалению информации
Удаление информации — это не просто лучшая практика. Во многих контекстах это юридическое требование.
FOIA (Закон о свободе информации). Федеральные агентства, отвечающие на запросы FOIA, должны раскрывать документы, но обязаны удалять информацию, подпадающую под девять конкретных исключений — включая информацию, касающуюся национальной безопасности, коммерческие тайны, личную конфиденциальность и записи правоохранительных органов. Государственные законы об открытых записях налагают аналогичные требования. Неправильное удаление может привести к судебным искам, судебным приказам и санкциям в отношении агентств.
GDPR. В соответствии с Общим регламентом ЕС по защите данных организации, отвечающие на запросы субъектов данных (Статья 15), должны удалять любые персональные данные третьих лиц в тех же документах. «Право на забвение» (Статья 17) также может потребовать удаления персональных данных из документов, которые организация должна иным образом хранить. Нарушения могут привести к штрафам до 20 миллионов евро или 4% годового мирового дохода.
HIPAA. Защищенная медицинская информация должна быть деидентифицирована перед раскрытием для целей, отличных от лечения. Метод «Safe Harbor» требует удаления всех 18 категорий идентификаторов, перечисленных ранее. Штрафы варьируются от 100 до 50 000 долларов за нарушение.
Судебные приказы. Суды регулярно предписывают удаление имен несовершеннолетних, коммерческих тайн, личностей информаторов и запечатанных материалов из публичных документов. Несоблюдение может привести к санкциям за неуважение к суду, прекращению дела или дисциплинарным взысканиям в отношении адвокатов.
Законы штатов о конфиденциальности. CCPA/CPRA Калифорнии, CDPA Вирджинии, CPA Колорадо и аналогичные законы штатов налагают обязательства, аналогичные GDPR. Организации, отвечающие на запросы данных потребителей, должны удалять информацию третьих лиц перед раскрытием.
Часто задаваемые вопросы
Можно ли восстановить удаленный текст?
Если удаление было выполнено правильно с использованием настоящего инструмента удаления — нет. Данные символов безвозвратно удаляются. Нет скрытого слоя, нет зашифрованной резервной копии, нет пути для криминалистического восстановления. Если «удаление» было просто фигурой, нарисованной поверх текста (поддельное удаление), то да — любой может выделить, скопировать и вставить скрытый текст с помощью простого средства просмотра PDF.
Могу ли я удалить информацию из изображений в PDF?
Да. Инструменты удаления могут помещать прямоугольники поверх областей встроенных изображений, растрируя затронутую область сплошной заливкой, чтобы исходные пиксели были уничтожены. Это важно для отсканированных документов, где текст существует как часть изображения, а не как выбираемые символы.
Что насчет удаления полей форм?
Поля форм PDF хранят данные отдельно от видимого содержимого страницы. Прямоугольник удаления поверх видимого расположения поля формы не обязательно удаляет сохраненные данные. Тщательное удаление также должно сглаживать или удалять поля форм и связанные с ними данные.
Меняет ли удаление макет страницы?
Нет. Удаленные области заменяются сплошными цветными прямоугольниками, которые занимают то же пространство, что и удаленное содержимое. Окружающий текст и макет остаются на своих первоначальных позициях.
Могу ли я отменить удаление?
Нет — в этом и суть. Удаление является постоянным и необратимым. Именно поэтому вы всегда должны работать с копией и хранить нередактированный оригинал в безопасном месте.
Чем удаление отличается от шифрования?
Шифрование ограничивает доступ к документу в целом. Удаление ограничивает видимое содержимое в документе, к которому может получить доступ любой.
Является ли печать в PDF после закрытия текста допустимым методом удаления?
Ненадежно. Некоторые драйверы печати в PDF сглаживают визуальный слой и удаляют нижележащий текст. Некоторые сохраняют его. Этот метод никогда не следует использовать для конфиденциальных удалений. Используйте специальный инструмент для удаления.
Могу ли я удалить PDF, защищенный паролем?
Перед удалением вам нужно разблокировать PDF. Если у PDF есть пароль владельца (ограничивающий редактирование) или пароль пользователя (ограничивающий открытие), вам сначала нужен этот пароль. После разблокировки процесс удаления такой же, как и для любого незащищенного PDF.
Заключение
Документ, который выглядит отредактированным, но на самом деле не отредактирован, хуже, чем неотредактированный документ — он создает ложное чувство безопасности, которое заставляет людей делиться конфиденциальной информацией, которую они в противном случае защитили бы.
Три вывода:
- Используйте настоящий инструмент для удаления информации. Рисование фигур поверх текста ничего не удаляет. Текст остается в файле. Используйте инструмент, который удаляет нижележащее содержимое.
- Проверяйте каждый раз. Попробуйте выделить текст в удаленных областях, найдите удаленное содержимое и протестируйте во втором приложении.
- Защищайте документ во время обработки. Если ваш инструмент загружает ваш PDF на сервер, ваш конфиденциальный документ теперь находится на стороннем сервере. Инструмент PDFSub для удаления информации из PDF обрабатывает документы в вашем браузере — файл никогда не покидает ваше устройство.
Стоимость неправильного удаления — это раскрытые номера SSN, утечки медицинских записей, раскрытые коммерческие тайны и штрафы, достигающие миллионов. Стоимость правильного выполнения — это несколько минут вашего времени.
Попробуйте бесплатную 7-дневную пробную версию инструмента PDFSub для удаления информации из PDF и убедитесь сами, что конфиденциальное содержимое безвозвратно удалено.