Понякога не се нуждаете от шрифтове, оформление, цветове или изображения. Нуждаете се само от думите. Конвертирането на PDF в обикновен текст премахва всичко визуално и ви дава суров текст – параграфи, заглавия и данни в най-простата им форма.

Това е една от най-честите операции с PDF файлове и една от най-неразбраните. Хората очакват да получат перфектен текст от всеки PDF файл, но реалността зависи от начина, по който е създаден PDF файлът. Дигиталните PDF файлове с реално текстово съдържание дават отлични резултати. Сканираните документи без вграден текст не дават нищо – защото няма текст за извличане.

Това ръководство обхваща кога извличането на текст работи, кога не работи и най-добрите инструменти за целта.

How to convert PDF to text - extract all text

Защо да извличате текст от PDF?

Анализ на данни

Имате PDF отчет с числа, които трябва да анализирате в електронна таблица или скрипт. Извличането на текста ви дава сурови данни, които можете да обработите, филтрирате и анализирате. Изследователи, анализатори и специалисти по данни често извличат текст от PDF статии и отчети като първа стъпка в работния си процес.

Обработка на естествен език (NLP)

Ако изграждате или обучавате NLP модел, обработвате обратна връзка от клиенти или извършвате анализ на настроенията, се нуждаете от входни данни в обикновен текст. PDF е често срещан формат за документи, но NLP конвейерите се нуждаят от .txt файлове. Извличането на текст запълва празнината.

Миграция на съдържание

Преместването на съдържание от една система в друга – CMS, база знания, база данни – често започва с извличане на текст от съществуващи PDF файлове. Не се нуждаете от оформлението; нуждаете се от думите във формат, който целевата система може да импортира.

Търсене и индексиране

Изграждането на търсимо хранилище на PDF документи изисква извличане на текстовото съдържание. Търсачките и системите за пълнотекстово търсене индексират обикновен текст. Извличането на текст от вашите PDF файлове ги прави търсими, без да се налага да отваряте всеки файл поотделно.

Достъпност

Конвертирането на PDF в обикновен текст може да направи съдържанието по-достъпно. Екраните четци работят надеждно с обикновен текст. Брайлови дисплеи директно визуализират обикновен текст. За работни процеси, свързани с достъпност, премахването на визуалните бариери чрез свеждане на документа до неговото текстово съдържание е от полза.

Бързо копиране и поставяне

Понякога просто искате да вземете няколко параграфа от PDF файл и да ги поставите в имейл, документ или чат съобщение. Извличането на текст ви дава чист текст без форматиращи артефакти, които често се получават при копиране директно от PDF четец.

Метод 1: Конвертиране онлайн с PDFSub (Препоръчително)

Качете PDF файл, изтеглете .txt файл с целия извлечен текст.

Стъпка по стъпка:

Отидете на инструмента PDF към Текст на PDFSub
Качете вашия PDF файл – плъзнете и пуснете или кликнете, за да изберете
Файлът се обработва от PDFSub Engine в сигурна, изолирана среда
Изтеглете файла с извлечения текст

Какво да очаквате:

Извлича се цялото текстово съдържание от всяка страница
Прекъсванията между страниците са обозначени с нови редове или маркери за страници
Текстът следва реда на четене на PDF файла
Таблиците се извличат като стойности, разделени с табулация или интервал
Изображенията се пропускат (без алтернативен текст или описания)
Заглавията и долните колонтитули са включени в изхода

Най-добър за: Бързо извличане, когато се нуждаете от целия текст от PDF файл, без да инсталирате софтуер.

Метод 2: Копиране от вашия PDF четец

Най-простият подход за малки количества текст.

Стъпка по стъпка:

Отворете PDF файла във всеки PDF четец (браузър, Preview, Adobe Reader)
Изберете текста, който искате (кликнете и плъзнете, или Ctrl/Cmd+A за целия текст)
Копирайте (Ctrl/Cmd+C)
Поставете в текстовия си редактор

Ограничения:

Многоколонни оформления водят до объркан текст (колоните се преплитат)
Таблиците се копират като неструктуриран текст
Заглавията и долните колонтитули се смесват с основния текст
Специални символи може да не се копират правилно
Не работи със сканирани/изобразителни PDF файлове

Най-добър за: Вземане на параграф или два от прост, едноколоннен PDF файл.

Метод 3: Използване на инструменти от командния ред

За разработчици и технически потребители, които трябва да извличат текст програмно или в пакетен режим.

Опции:

На macOS или Linux, различни инструменти за PDF от командния ред могат да извличат текст
Python скриптове с библиотеки за обработка на PDF
Shell скриптове за пакетна обработка

Най-добър за: Разработчици, които вграждат извличане на текст в автоматизирани работни процеси.

Дигитални PDF файлове срещу сканирани PDF файлове

Това е критичното разграничение за извличане на текст.

Дигитални (текстови) PDF файлове

Това са PDF файлове, създадени от дигитални източници – експортирани от Word, генерирани от софтуер, запазени от уеб страница. Текстът в тези PDF файлове се съхранява като действителни данни за символи. Можете да го избирате, търсите и извличате.

Как да разберете: Отворете PDF файла и опитайте да кликнете и плъзнете, за да изберете текст. Ако текстът се маркира и можете да го копирате, това е дигитален PDF. Извличането на текст ще работи перфектно.

Сканирани (изобразителни) PDF файлове

Това са PDF файлове, създадени чрез сканиране на хартиени документи. Всяка страница е снимка на хартията – изображение, а не текст. Няма символи за извличане, защото PDF файлът съдържа само пикселни данни.

Как да разберете: Опитайте да изберете текст. Ако нищо не се маркира, или ако кликването маркира цялата страница като изображение, това е сканиран PDF. Стандартното извличане на текст ще даде празен файл.

Ами сканираните PDF файлове?

За да получите текст от сканирани PDF файлове, се нуждаете от OCR (оптично разпознаване на символи). OCR анализира изображението, идентифицира формите на буквите и ги конвертира в текстови символи. Това е отделен процес от извличането на текст – и въвежда възможност за грешки, тъй като софтуерът интерпретира изображения, вместо да чете съхранени текстови данни.

Извличането на текст от PDFSub обработва дигитални PDF файлове. За сканирани документи, които се нуждаят от OCR, потърсете инструменти, специално проектирани за OCR обработка.

Качество на извличане на текст

Качеството на извлечения текст зависи от няколко фактора.

Ред на четене

PDF файловете не съхраняват текст в ред на четене. Текстовите елементи са позиционирани на специфични координати – четецът ги сглобява визуално. Извличащият инструмент трябва да реконструира реда на четене от пространствените позиции. Прости едноколонни документи се реконструират лесно. Многоколонни оформления, странични ленти и текстови полета могат да доведат до объркващ изход.

Таблици

Таблиците в PDF са колекция от независимо позиционирани текстови елементи – не семантични таблични структури. Извличащият инструмент се опитва да разпознае таблични модели и да раздели колоните с табулации или интервали. Прости таблици работят добре. Сложни таблици със слети клетки, завъртян текст или вложени структури може да доведат до разхвърлян изход.

Специални символи

Математически символи, диакритични знаци, лигатури и нелатински скриптове може да се извличат правилно или не, в зависимост от това как PDF файлът ги кодира. Добре структурирани PDF файлове с правилни Unicode съответствия дават чист изход. PDF файлове с персонализирани кодировки на шрифтове може да дадат грешни символи.

Тирета

PDF файловете често разделят думите с тире на края на реда. Някои извличащи инструменти съединяват обратно думите с тире; други запазват тирето и прекъсването на реда. Ако обработвате текста програмно, може да се наложи да се справите със съединяването на думи с тире във вашия конвейер.

Съвети за най-добри резултати

Тествайте първо с малък PDF файл. Извлечете текст от няколко страници и проверете качеството, преди да обработите документ от 500 страници.
Проверете за сканирано съдържание. Ако вашият PDF файл е смес от дигитален текст и сканирани страници, извличането ще даде текст от дигиталните страници и празен изход от сканираните страници.
Последваща обработка на изхода. За анализ на данни или работа с NLP, почистете извлечения текст – премахнете заглавия/долни колонтитули, коригирайте тиретата, справяйте се с проблеми с кодирането.
Използвайте правилния инструмент за задачата. Ако се нуждаете от структурирани данни от таблици, помислете за инструмент за извличане на таблици, вместо за извличане на обикновен текст. Ако се нуждаете от текст от сканирани документи, използвайте OCR.

ЧЗВ

Каква е разликата между PDF към Текст и OCR?

PDF към Текст извлича текст, който вече е съхранен като данни за символи в PDF файла. Той чете това, което е там. OCR разглежда изображения на текст и ги интерпретира като символи. Ако вашият PDF файл има избираем текст, вие се нуждаете от извличане на текст. Ако вашият PDF файл е сканирани изображения, вие се нуждаете от OCR.

Мога ли да извлека текст от PDF файл, защитен с парола?

Ако PDF файлът има парола за разрешения, която ограничава копирането (но позволява преглед), някои инструменти все още могат да извличат текст. Ако PDF файлът има отваряща парола, която напълно забранява прегледа, първо ще трябва да въведете паролата.

Запазва ли извличането на текст форматирането?

Не – в това е смисълът. Извличането на обикновен текст ви дава думите без форматиране. Ако искате да запазите форматирането, конвертирайте в DOCX или RTF вместо това. Извличането на текст е специално за случаите, когато искате сурово, неформатирано съдържание.

Как да се справя с многоколонни PDF файлове?

Многоколонните PDF файлове са най-трудният случай за извличане на текст. Извличащият инструмент може да преплита колоните или да ги обработва правилно – зависи от инструмента и вътрешната структура на PDF файла. Ако получите объркан изход, опитайте различен инструмент за извличане или конвертирайте във формат, който обработва колоните по-добре (като DOCX).

Мога ли да извлека текст само от конкретни страници?

Някои инструменти ви позволяват да посочите диапазон от страници за извличане. Ако инструментът не поддържа избор на страници, извлечете целия текст и след това изрежете изхода до нужните страници. Маркерите за страници в изхода помагат да се идентифицира началото на всяка страница.

Заключение

Извличането на текст от PDF е бързо, лесно и полезно за широк спектър от работни процеси – анализ на данни, NLP, миграция на съдържание, индексиране за търсене и обикновено копиране и поставяне. Ключът е да започнете с дигитален PDF файл, който има реално текстово съдържание.

За сканирани документи се нуждаете от OCR. За дигитални PDF файлове, извличането на текст ви дава чист изход за секунди.

Опитайте инструмента PDF към Текст на PDFSub – качете вашия PDF файл и изтеглете извлечения текст незабавно.

How to convert PDF to text - extract all text

Защо да извличате текст от PDF?

Анализ на данни

Обработка на естествен език (NLP)

Миграция на съдържание

Търсене и индексиране

Достъпност

Бързо копиране и поставяне

Метод 1: Конвертиране онлайн с PDFSub (Препоръчително)

Качете PDF файл, изтеглете .txt файл с целия извлечен текст.

Стъпка по стъпка:

Отидете на инструмента PDF към Текст на PDFSub
Качете вашия PDF файл – плъзнете и пуснете или кликнете, за да изберете
Файлът се обработва от PDFSub Engine в сигурна, изолирана среда
Изтеглете файла с извлечения текст

Какво да очаквате:

Извлича се цялото текстово съдържание от всяка страница
Прекъсванията между страниците са обозначени с нови редове или маркери за страници
Текстът следва реда на четене на PDF файла
Таблиците се извличат като стойности, разделени с табулация или интервал
Изображенията се пропускат (без алтернативен текст или описания)
Заглавията и долните колонтитули са включени в изхода

Най-добър за: Бързо извличане, когато се нуждаете от целия текст от PDF файл, без да инсталирате софтуер.

Метод 2: Копиране от вашия PDF четец

Най-простият подход за малки количества текст.

Стъпка по стъпка:

Отворете PDF файла във всеки PDF четец (браузър, Preview, Adobe Reader)
Изберете текста, който искате (кликнете и плъзнете, или Ctrl/Cmd+A за целия текст)
Копирайте (Ctrl/Cmd+C)
Поставете в текстовия си редактор

Ограничения:

Многоколонни оформления водят до объркан текст (колоните се преплитат)
Таблиците се копират като неструктуриран текст
Заглавията и долните колонтитули се смесват с основния текст
Специални символи може да не се копират правилно
Не работи със сканирани/изобразителни PDF файлове

Най-добър за: Вземане на параграф или два от прост, едноколоннен PDF файл.

Метод 3: Използване на инструменти от командния ред

За разработчици и технически потребители, които трябва да извличат текст програмно или в пакетен режим.

Опции:

На macOS или Linux, различни инструменти за PDF от командния ред могат да извличат текст
Python скриптове с библиотеки за обработка на PDF
Shell скриптове за пакетна обработка

Най-добър за: Разработчици, които вграждат извличане на текст в автоматизирани работни процеси.

Тествайте първо с малък PDF файл. Извлечете текст от няколко страници и проверете качеството, преди да обработите документ от 500 страници.
Проверете за сканирано съдържание. Ако вашият PDF файл е смес от дигитален текст и сканирани страници, извличането ще даде текст от дигиталните страници и празен изход от сканираните страници.
Последваща обработка на изхода. За анализ на данни или работа с NLP, почистете извлечения текст – премахнете заглавия/долни колонтитули, коригирайте тиретата, справяйте се с проблеми с кодирането.
Използвайте правилния инструмент за задачата. Ако се нуждаете от структурирани данни от таблици, помислете за инструмент за извличане на таблици, вместо за извличане на обикновен текст. Ако се нуждаете от текст от сканирани документи, използвайте OCR.