Извлечение текста из PDF в Python | Средство извлечения текста из PDF на Python
Вам, как программисту, может понадобиться обработать кучу PDF-файлов и извлечь из них текст. Извлечение текста из PDF может потребоваться для различных целей, таких как анализ текста. В этой статье мы собираемся продемонстрировать, как легко извлечь текст из файла PDF в Python. Кроме того, вы узнаете, как извлечь текст и сохранить его в файл TXT.
- Библиотека Python для извлечения текста из файлов PDF
- Как извлечь текст из PDF
- Извлечение текста из PDF в Python
Aspose.Words for Python — замечательная библиотека, позволяющая легко создавать и обрабатывать текстовые документы. Вы можете работать с документами популярных форматов, таких как DOC, DOCX и PDF. Мы собираемся использовать эту библиотеку для извлечения текста из наших файлов PDF. Вы можете установить библиотеку из PyPI с помощью следующей команды pip.
> pip install aspose-words
Aspose.
Words for Python сделал извлечение текста PDF чрезвычайно простым, скрыв сложные операции от пользователя. Вам нужно только загрузить файл PDF и сохранить извлеченный текст. Следующие шаги демонстрируют, как извлечь текст из PDF-файла с помощью Aspose.Words for Python.
- Загрузите файл PDF из нужного места.
- Извлеките и сохраните текст в файл .txt.
И это все. Затем вы можете обработать файл .txt и манипулировать простым текстом, извлеченным из PDF.
Давайте теперь посмотрим, как программно извлечь текст из PDF в Python.
Ниже приведены шаги, а также классы и методы для извлечения текста PDF в Python.
- Загрузите файл PDF, используя класс Document.
- Извлеките текст из PDF в файл .txt, используя метод Document.save(fileName).
В следующем примере кода показано извлечение текста из файла PDF в Python.
# Импорт Aspose.Words для модуля Python
import aspose.words as aw
# Загрузить PDF-файл
pdf = aw.Document("file.pdf")
# Извлечение и сохранение текста в файле TXT
pdf.
save("extracted-text.txt")
На следующем снимке экрана показан входной файл PDF, который мы использовали для извлечения текста.
На следующем снимке экрана показан извлеченный текст в файле TXT.
PDF Text Extractor для Python — получите бесплатную лицензию
Вы можете получить бесплатную временную лицензию для извлечения текста из PDF без ограничений пробной версии.
Вывод
В этой статье вы узнали, как извлекать текст из файлов PDF в Python. Вы видели, как легко и быстро можно извлечь текст из PDF и сохранить его в файле TXT программными средствами. Теперь вы можете реализовать извлечение текста для пакета PDF-файлов в своих приложениях Python.
Вы можете изучить другие функции Aspose.Words for Python, используя документацию. Если у вас возникнут какие-либо вопросы, дайте нам знать через наш форум.
Смотрите также
- Создавайте документы MS Word с помощью Python
- Преобразование документа Word в HTML с помощью Python
- Преобразование документов Word в PNG, JPEG или BMP в Python
- Документы Word в Markdown с использованием Python
- Сравните два документа Word в Python
Импорт данных из PDF в Excel через Power Query
27006
01.
Задача переноса данных из таблицы в PDF-файле на лист Microsoft Excel – это всегда “весело”. Особенно если у вас нет дорогих программ распознавания типа FineReader или чего-то подобного. Прямое копирование обычно ни к чему хорошему не приводит, т.к. после вставки скопированных данных на лист, они, скорее всего, “слипнутся” в один столбец. Так что их потом придется кропотливо разделять с помощью инструмента Текст по столбцам с вкладки
И само-собой, копирование возможно только для тех PDF-файлов, где есть текстовый слой, т.е. с только что отсканированным с бумаги в PDF документом это не сработает в принципе.
Но все не так грустно, на самом деле :)
Если у вас Office 2013 или 2016, то за пару минут без дополнительных программ вполне можно реализовать перенос данных из PDF в Microsoft Excel.
А помогут нам в этом Word и Power Query.
Для примера, давайте возьмем вот такой PDF-отчет с кучей текста, формул и таблиц с сайта Европейской Экономической Комиссии:
… и попробуем вытащить из него в Excel, скажем первую таблицу:
Поехали!
Шаг 1. Открываем PDF в Word
Почему-то мало кто знает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совершенно стандартным образом: открываем Word, жмем Файл – Открыть (File – Open) и уточняем PDF-формат в выпадающем списке в правом нижнем углу окна.
Затем выбираем нужный нам PDF-файл и жмем Открыть (Open). Word сообщает нам, что собирается запустить распознавание этого документа в текст:
Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:
Само-собой, у документа частично слетит дизайн, стили, шрифты, колонтитулы и т.
п., но для нас это не важно – нам нужны только данные из таблиц. В принципе, на этом этапе уже возникает соблазн дальше просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Иногда это срабатывает, но чаще приводит ко всевозможным искажениям данных – например числа могут превратиться в даты или остаться текстом, как в нашем случае, т.к. в PDF используется не российские разделители:
Так что давайте не будем срезать углы, а сделаем все чуть сложнее, но правильно.
Этап 2. Сохраняем документ как веб-страницу
Чтобы потом загрузить полученные данные в Excel (через Power Query), наш документ в Word нужно сохранить в формате веб-страницы – этот формат является, в данном случае, неким общим знаменателем между Word’ом и Excel’ем.
Для этого идем в меню Файл – Сохранить как (File – Save As) или жмем клавишу F12 на клавиатуре и в открывшемся окне выбираем тип файла Веб-страница в одном файле (Webpage – Single file):
После сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).
Этап 3. Загружаем файл в Excel через Power Query
Можно открыть созданный MHTML-файл в Excel напрямую, но тогда мы получим, во-первых сразу все содержимое PDF вместе текстом и кучей ненужных таблиц, а, во-вторых, опять потеряем данные из-за неправильных разделителей. Поэтому импорт в Excel мы будем делать через надстройку Power Query. Это совершенно бесплатная надстройка, с помощью которой можно загружать в Excel данные практически из любых источников (файлов, папок, баз данных, ERP-систем) и всячески затем полученные данные трансформировать, придавая им нужную форму.
Если у вас Excel 2010-2013, то скачать Power Query можно с официального сайта Microsoft – после установки у вас появится вкладка Power Query. Если у вас Excel 2016 или новее, то качать ничего не нужно – весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и преобразовать (Get & Transform).
Так что идем либо на вкладку Данные, либо на вкладку Power Query и выбираем команду Получить данные или Создать запрос – Из файла – Из XML.
Обратите внимание, что импорт успешно не завершится, т.к. Power Query ждет от нас XML, а у нас, на самом деле, HTML-формат. Поэтому в следующем появившемся окне нужно будет щелкнуть правой кнопкой мыши по непонятному для Power Query файлу и уточнить его формат:
После этого файл будет корректно распознан и мы увидим список всех таблиц, которые в нем есть:
Посмотреть содержимое таблиц можно, если щелкать левой кнопкой мыши в белый фон (не в слово Table!) ячеек в столбце Data.
Когда нужная таблица определена, щелкните по зеленому слову Table – и вы “провалитесь” в её содержимое:
Останется проделать несколько простых действий, чтобы “причесать” ее содержимое, а именно:
- удалить ненужные столбцы (правой кнопкой мыши по заголовку столбца – Удалить)
- заменить точки на запятые (выделить столбцы, щелкнуть правой – Замена значений)
- удалить знаки равно в шапке (выделить столбцы, щелкнуть правой – Замена значений)
- удалить верхнюю строку (Главная – Удалить строки – Удаление верхних строк)
удалить пустые строки (Главная – Удалить строки – Удаление пустых строк)- поднять первую строку в шапку таблицы (Главная – Использовать первую строку в качестве заголовков)
- отфильтровать лишние данные с помощью фильтра
Когда таблица будет приведена в нормальный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке.
И мы получим вот такую красоту, с которой уже можно работать:
Ссылки по теме
- Трансформация столбца в таблицу с помощью Power Query
- Разделение слипшегося текста по столбцам
6 способов извлечения текста из файлов PDF
РЕКОМЕНДУЕТСЯ:
Загрузите инструмент восстановления ПК, чтобы быстро находить и автоматически исправлять ошибки Windows.
При работе с файлами PDF или Portable Document Format иногда может потребоваться извлечь весь текст из файла PDF . В этом руководстве мы покажем, как легко извлекать текст из файлов PDF или преобразовывать файлы PDF в текстовые файлы в Windows с помощью онлайн-инструментов или без них.
Самый простой и быстрый способ извлечь текст из PDF-файлов — воспользоваться бесплатными онлайн-сервисами. Эти онлайн-сервисы не требуют дополнительного программного обеспечения, а это означает, что вы можете выполнять свою работу, не устанавливая дополнительное программное обеспечение на свой компьютер.
Если указанные ниже онлайн-сервисы не дают желаемых результатов или вы хотите извлечь текст из конфиденциального документа, который вы не хотите загружать на удаленный сервер, вы можете воспользоваться бесплатным программным обеспечением для Windows, упомянутым в методах 3–5. Также прочитайте наше руководство по 6 способам сжатия PDF-файлов.
Метод 1 из 6
ExtractPDF
ExtractPDF — это бесплатный онлайн-сервис для полного извлечения текста и изображений из файлов PDF. Сервис предлагает простой для понимания макет. После открытия страницы ExtractPDF в веб-браузере нажмите кнопку «Обзор», чтобы выбрать файл PDF, нажмите кнопку «Загрузить», чтобы загрузить выбранный файл на сервер ExtractPDF и начать извлечение.
После завершения задания вы увидите варианты загрузки текстового контекста, шрифтов и изображений из загруженного PDF-файла. Чтобы загрузить извлеченный текст в виде файла .txt (чтобы открыть его в Блокноте или Word), перейдите на вкладку «Текст» и нажмите кнопку «Загрузить результат как файл».
Как видно на картинке выше, сервис не поддерживает файлы размером более 12 МБ. Это ограничение не должно быть программным, так как размер большинства PDF-файлов не превышает 12 МБ.
Во время нашего теста мы заметили, что для некоторых PDF-файлов служба не дает желаемого результата. Если у вас возникли проблемы с этой службой, проверьте следующую.
Способ 2 из 6
OCR в сети
OCR в сети — это онлайн-инструмент, который поможет вам извлечь текст из PDF-файлов размером менее 5 МБ. Сервис конвертирует PDF-файлы в редактируемые файлы Microsoft Word (.docx) или текстовые (.txt).
Метод 3 из 6
STDU Viewer
По сути, STDU Viewer — это бесплатное программное обеспечение, предназначенное для открытия и просмотра файлов различных форматов. Кроме того, бесплатная версия STDU Viewer поддерживает экспорт текстового содержимого из файлов PDF.
Чтобы экспортировать текстовое содержимое файла PDF, откройте файл PDF с помощью STDU Viewer, выберите меню «Файл», нажмите «Экспорт», нажмите «В текст», выберите место для сохранения нового текстового файла и нажмите кнопку «ОК».
Параметр экспорта позволяет извлекать текст с одной, нескольких или всех страниц. Размер загрузки STDU Viewer составляет менее 3 МБ. Бесплатная версия STDU Viewer предназначена только для личного и некоммерческого использования.
Метод 4 из 6
PDF2Text Пилот
PDF2Text Pilot — это бесплатное программное обеспечение для Windows, позволяющее конвертировать PDF-файлы в текстовые файлы одним щелчком мыши. После установки и запуска программного обеспечения вам просто нужно выбрать файлы PDF, которые вы хотите видеть в виде текстовых файлов, а затем нажать кнопку «Преобразовать». Ваши преобразованные файлы будут готовы через пару секунд.
Сильной стороной PDF2Text Pilot является его простой интерфейс и возможность одновременного преобразования нескольких PDF-файлов.
Метод 5 из 6
A-PDF Text Extractor A-PDF Text Extractor — еще одно программное обеспечение Windows, предназначенное для извлечения текста из файлов PDF.
Программа абсолютно бесплатна как для личного, так и для коммерческого использования.
После установки A-PDF Text Extractor (размер установщика менее 1 МБ) запустите A-PDF Text Extractor. Нажмите кнопку «Открыть», чтобы открыть файл PDF, а затем нажмите кнопку «Извлечь текст», чтобы начать извлечение текста из него.
Метод 6 из 6
Gaaiho PDF ReaderGaaiho PDF Reader — отличная программа для работы с PDF-файлами. Это бесплатное программное обеспечение предлагает множество функций, которые вы не найдете в других бесплатных программах для чтения PDF. Одной из функций является возможность легкого извлечения текста из файлов PDF.
Чтобы сохранить PDF-файл как текстовый файл, после открытия PDF-файла в Gaaiho Reader щелкните меню «Файл», нажмите «Сохранить как», а затем выберите параметр «PDF в текст» в раскрывающемся меню рядом с «Сохранить как тип».
Что вы думаете об этих инструментах? Знаете ли вы лучший бесплатный инструмент для той же работы? Дайте нам знать в комментариях.
Два самых простых метода извлечения текста из PDF в Mac OS X Хотя PDF имеет свой собственный набор преимуществ, включая повышение безопасности, ему не хватает гибкости. Редактирование документа PDF может быть сложным и запутанным. Если вы хотите извлечь текст из PDF, весь процесс покажется вам сложным. Это может быть связано с наличием графики, а также с макетом PDF-файла. Не беспокойтесь, так как в этой статье вы найдете два простых и быстрых способа
извлеките нужный текст из PDF-файла с помощью PDFelement Pro на Mac (включая 10.15 Catalina).ПОПРОБУЙТЕ БЕСПЛАТНО
Часть 1. Экстрактор текста PDF, который вам нужен
Для пользователей Mac нет лучшего инструмента, чем PDFelement Pro. С его помощью вы сможете легко извлечь любой текст из PDF. Он имеет множество функций, с помощью которых вы можете легко редактировать любой PDF-документ. Некоторые из его основных предложений:
- Вы можете редактировать PDF как текстовый документ.
Вы можете легко добавлять, удалять, вырезать и заменять такие элементы, как текст, изображения, водяные знаки и т. д. - Вы можете легко преобразовать документ в документ Word, если у вас будет больше свободного редактирования. Структура и макет файла будут такими же, как и в документе Word.
- Вы можете объединить несколько PDF-файлов в один и разделить один на несколько. Это может пригодиться несколько раз.
- Легко извлекайте текст и изображения из любой части документа и экспортируйте их в любой документ любого другого формата.
После загрузки PDFelement Pro для Mac (включая 10.15 Catalina) вам необходимо скопировать значок в папку «Приложения». Просто перетащите значок в «Приложения», а затем следуйте инструкциям ниже, чтобы начать копирование нужного текста из документа PDF.
Шаг 1. Откройте документ PDF в программе
Запустите программу и нажмите кнопку «Открыть файл», чтобы импортировать PDF-файлы в программу.
После загрузки документа вы можете перейти к следующему шагу.
Шаг 2. Извлеките нужный текст
Нажмите кнопку «Изменить» на верхней панели инструментов, затем выберите нужный текст, а затем щелкните правой кнопкой мыши, чтобы выбрать параметр «Копировать». Теперь вы скопировали текст.
Шаг 3. Вставьте текст туда, куда хотите
Следующий шаг тоже прост. Просто откройте другой документ, в который вы хотите извлечь текст, и вставьте его в нужное место. Здесь я использовал Pages для Mac для простого изображения. Вы можете вставить текст, открыв любой другой новый документ Word — это довольно просто.
Часть 2. Как конвертировать PDF в Word для извлечения текста
Вы можете извлечь текст после преобразования файлов PDF в формат MS Word с помощью PDFelement Pro. Некоторые пользователи говорят, что это лучший вариант, поскольку текстовый процессор может упростить вам задачу, если вы все равно собираетесь управлять текстом.![]()
ПОПРОБУЙТЕ БЕСПЛАТНО
Шаг 1. Откройте документ PDF
Запустите программу, нажмите «Открыть файл» и найдите файл, из которого вы хотите извлечь изображение. Вы можете добавить несколько файлов для извлечения. Все файлы изображений будут открываться в формате PDF.
Шаг 2. Откройте инструмент преобразования
Перейдите на панель инструментов и найдите кнопку «Конвертировать». Нажмите на нее, чтобы открыть новое окно, в котором вы можете установить диапазон страниц для вашего документа.
Шаг 3. Установите параметры
В новом окне вы можете добавить файлы для преобразования, настроить диапазон страниц, а затем нажать «Преобразовать», чтобы начать процесс. После преобразования вы можете легко копировать и вставлять текст из текстового процессора.
Используя это программное обеспечение, вы можете максимально использовать весь потенциал любого PDF-документа. Это может очень пригодиться. Например, предположим, что вы просматриваете все счета за месяц, чтобы создать электронную таблицу с общими расходами.

save("extracted-text.txt")
Вы можете легко добавлять, удалять, вырезать и заменять такие элементы, как текст, изображения, водяные знаки и т. д.