Лучшие бесплатные OCR-сервисы для распознавания и конвертации PDF / Информационная безопасность, Законы, Программы, ПО, сайты / iXBT Live
Привет всем! Я расскажу о сервисах для распознавания текста или OCR. Считайте это небольшим рейтингом лучших OCR-утилит.
Обложка поста сгенерирована нейросетьюОптическое распознавание символов (OCR – Optical Character Recognition) – механизм электронного или механического конвертирования изображения или печатного текста, например, с отсканированного документа, фотографии и т.д.
Я испытаю следующие программы и сервисы:
- PDF – Adobe Acrobat Pro – эталон всех распознавателей.
- PDF24 tools – богатый инструментарий для работы с PDF-документами, включает OCR.
- NewOCR – заявляют себя как сервис конвертации в текст форматов: JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu.
- Img2txt – сервис отличается красивым интерфейсом, но спасёт ли его это?
- Free Online OCR – простецкий онлайн-сервис для распознавания.
Чтобы результат был наглядным и достоверным, нужно протестировать. Для этого я подготовил специальные документы:
- Фрагмент статьи “8 бесплатных аналогов платных программ для переводчиков”. Текст был написан в ворде, затем переведён в PDF. Сложность может представлять надпись нестандартным шрифтом, мелкие буквы, а также текст на эмблеме, но в целом документ простой и имеет текстовый слой.
- Тот же фрагмент, но без текстового слоя – скрин, завёрнутый в PDF. Базовые сложности те же, только к ним ещё добавляется необходимость распознавания всего остального текста и необходимость сохранить форматирование.
- Рекламная брошюра масел. Сложное и разное форматирование, местами текстовый слой есть, местами его нет. Отнюдь не простой документ. Посмотрим, справятся ли конкурсанты.
Я попробую сравнить качество распознавания при конвертировании в редактируемый формат между бесплатными сервисами и эталоном – Adobe Acrobat DC.
Adobe Acrobat DC идёт первым как эталон, созданный для одной задачи – для работы с pdf-файлами.
Простой файл с текстовым слоем:
Ожидаемо. Никаких трудностей. Полная конвертация в редактируемый формат. Изображение по центре осталось нетронутым, но это невеликая проблема, можно подписать или обработать в Paint.
Простой файл без текстового слоя:
Нестандартный шрифт не распознался, но мелкий шрифт под звёздочкой распознался достаточно хорошо. Ещё пару букв пропустил, но допустимая погрешность для последующего ручного редактирования.
Сложный файл с непостоянным текстовым слоем:
Как сказать. Результат ожидаемо плохой, потому что файл очень сложный. Впрочем, отредактировать всё равно можно, лучше, чем ничего.
Почему я не взял на тест больше программ для ПК? А их нет. Существует несколько простых программ, которые распознают только изображения или устанавливают на компьютер мусор. Я пробовал: Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR.
Итак, перейдём к онлайн-сервисам.
PDF24 tools – многогранный сервис. Он может распознать текст в PDF, но в результате всё равно выдаст PDF. На наше счастье среди утилит этого сайта есть и конвертер в Word. Они даже расположены рядом.
Простой файл с текстовым слоем:
Получилось очень плохо, но текст типа сохранён полностью. Изображение вырезано и половина страницы пустая. Ладно, сочтём, что так и должно быть.
Простой файл без текстового слоя:
С задачей сервис не справился. После распознавания и конвертации в ворд, я увидел пустой лист.
Сложный файл с непостоянным текстовым слоем:
Результат оказался таким же – пустой лист. Но сервис предлагает три режима конвертации:
Я попробовал все три, лучший результат выдал третий режим “только текст”:
Распознался даже сложный шрифт!
Брошюра тоже распозналась, но легче мне от этого не стало:
Вердикт:
Спорный сервис. Конвертирует и распознаёт быстро и удобно, много разных утилит. Пусть будет, конечно, на крайняк покатит.
NewOCR – нашёл в одной из статей про лучшие сервисы распознавания символов на просторах интернета. Говорят, что сервис хороший.
Простой файл с текстовым слоем:
Текст распозанёт хорошо, но предлагает выбрать только формат .txt, не распознаёт картинку и даже не пытается сохранить форматирование.
Простой файл без текстового слоя:
Неплохо распознал основной язык – русский, но ужасно справился с английским. Вся латиница превратилась в какую-то кашу. С другой стороны распознать получилось даже нестандартный шрифт с картинки. Не без ошибок, нор всё же. А ещё удалось получить формат Word. От чего это зависит – не знаю.
Сложный файл с непостоянным текстовым слоем:

Вердикт:
Сервис неплохо справляется с распознаванием текста, но что-нибудь сложнее, чем абзацы текста ему не под силу. Если в тексте встречается несколько языков, то один из них обязательно будет воспринят неправильно. Даже если указать два языка в поле перед распознанием. Про форматирование можно забыть, его здесь не будет. А ещё мне не понравилось, что каждую страницу многостраничного документа придётся распознавать и скачивать отдельно. Документ на 50 страниц? Простите, но придётся выкачивать по одной странице за раз. А ещё придётся подождать 5 секунд перед распознанием очередной страницы. Не больше ни меньше. Если попытаетесь распознать быстрее, получите ошибку. А ещё не всегда с первого раза точно прицеливается в страницу, иногда выхватывает маленький фрагмент страницы и пытается его распознать.
Сервис Img2txt. Нашёл его где-то на просторах интернета в комментариях к статье о лучших сервисах.
Простой файл с текстовым слоем:
Крупный текст распознал, мелкий превратил в кашу.
Простой файл без текстового слоя:
Не сказать, что плохо, но и не сказать, что хорошо. Некоторые буквы перепутал, латиницу не распознал. Но по крайней мере можно скачать в вордовском формате.
Сложный файл с непостоянным текстовым слоем:
Слева оригинал, справа результат распознанияКуцый результат. Распозналось плохо, большая часть текста пропущена, слова в кашу превратились. Получилась бесполезная белиберда.
Вердикт:
Ещё один сервис, который распознаёт неплохо простые документы с большими абзацами текста. Раздражает, что сначала нужно загрузить файл, выбрать для него язык, потом файл обработается сервером, нужно снова выбрать для него язык и запустить распознавание. Я как-то ожидал, что загружая я уже достаточно чётко выражаю намерение распознать файл.
Ещё одна беда – это постраничное распознавание. Как и в случае с NewOCR каждая страница распознаётся отдельно, скачивается отдельным документом. Только тут ещё необходимо для каждой новой страницы повторно выбирать язык.
А ещё это единственный сервис с ограничением размера файла. Максимум – 8 мб.
Online OCR – сервис с самым непримечательным названием. Я упоминал этот сервис в статье про 8 бесплатных аналогов платных программ.
Простой файл с текстовым слоем:
Ого. Результат удивляет. Почти идеальный. Мало того, что распознание прошло почти мгновенно, так ещё и латиница распозналась там, где надо. Даже мои опечатки были распознаны правильно. То что текст вокруг картинки – это ерунда. Чуть-чуть не дотянул до уровня Adobe.
Простой файл без текстового слоя:
Снова в яблочко! В этот раз побольше промахов, но результат достойный. Хотя бы картинка сохранилась и часть мелкого текста с неё удалось распознать.
Сложный файл с непостоянным текстовым слоем:
Ух ты! Сервис справился с распознаванием и этого документа! Удивительно, но факт. Есть некоторые недочёты, но это очень хороший результат. С редактированием такого файла в ворде придётся очень сильно помучиться, зато распознаны все таблички, большинство надписей. Если в ваши обязанности не входит вёрстка, то это именно то, что нужно.
Я бы назвал это самым большим успехом. Даже Adobe по сравнению с этим меркнет:
Adobe слева, Online OCR справаВердикт:
Это лучший сервис! К сожалению, без регистрации он не даст распознать PDF больше 15 страниц, большие изображения, ZIP-архивы и ещё что-то. Но после регистрации сервис даёт только 50 бесплатных страниц.
Я слышу слово “абьюз” или мне кажется? Раскрою секрет, как сделать сервис абсолютно бесплатным. Создатели сайта не придумали подтверждение почты при регистрации. Можно указать любой вымышленный адрес. Как только заканчиваются страницы, переезжаем на новый аккаунт и пользуемся 50 бесплатными. Забавно получается.
Читайте другие статьи переводческого цикла:
Аналоги (a9t9) Free OCR Software
Аналоги (a9t9) Free OCR Software – 6 похожих программ и сервисов для замены109
ABBYY FineReader
ABBYY FineReader – это программа для распознавания текста с непревзойденной точностью.
- Платная
- Windows
- Mac OS
- Онлайн сервис
ABBYY FineReader – это программное обеспечение для оптического распознавания символов (OCR), которое обеспечивает непревзойденную точность распознавания текста и возможности преобразования, без перепечатывания и переформатирования документов.
73
Tesseract
Чистая библиотека JavaScript OCR.
- Бесплатная
- Windows
- Mac OS
Tesseract.js – это библиотека javascript, которая распознает слова практически любого языка из изображений.
34
FreeOCR
FreeOCR – программа сканирования и распознавания.
- Бесплатная
- Windows
FreeOCR – это программа для сканирования и распознавания, включающая в себя движок Tesseract free ocr, также известный как графический интерфейс Tesseract.
22
Online OCR
Free Online OCR – это программа, которая позволяет конвертировать отсканированные PDF и изображения в редактируемые форматы.
- Бесплатная
- Онлайн сервис
Free Online OCR – это программа, которая позволяет конвертировать отсканированные PDF и изображения в редактируемые форматы: Word, Text, Excel.
6
Easy Screen OCR
Easy Screen OCR помогает пользователям делать снимки экрана, и снимать текст с изображений.
- Платная
- Windows
Вы можете использовать Easy Screen OCR, чтобы сделать снимок, и запустить процесс OCR. Эта программа обнаружит текст с изображения и немедленно начнет процесс распознавания текста. Вы можете извлечь текст для копирования и вставки в считанные секунды.
OCR Online — редактируйте любой документ онлайн с помощью PDFSimpli
Перетащите PDF сюда
- PDFSimple
- Редактор PDF
- OCR онлайн
Максимизируйте свою производительность с неограниченным доступом к нашим инструментам PDF
Как распознать PDF?
Просто и быстро редактируйте свои файлы онлайн:
1
Нажмите «Загрузить PDF» или выберите и перетащите файл в «Перетащите PDF-файлы сюда».2
Внесите любые изменения или изменения, которые могут потребоваться в вашем документе.3
Нажмите «Конвертировать» и выберите нужный формат.4
Скачайте конвертированный файл или поделитесь им с кем угодно!
Ярость вокруг нас.
Вот что говорят люди:
Norma
Мне нужно было сэкономить время и повысить производительность. Я решила попробовать, и это было действительно потрясающе! Действительно очень прост в использовании даже для тех, у кого нет большого технического опыта, потому что вам не нужны загрузки или установки. Настоятельно рекомендуется!
Тэмми
Каждую неделю я экономлю кучу часов, просто используя PDFSimpli. Больше не нужно подписывать и печатать по-старому.
Мохаммед
Это оправдало мои ожидания. Большой продукт!
Сэм
Нужно было позвонить в службу поддержки клиентов, и они были очень полезны. Спасибо!
Robert
PDFSimpli — классный и очень простой в использовании продукт. Шаблоны действительно профессиональные.
Джон
Я должен сказать, что весь опыт использования этого продукта был отличным, и мне нравится, что теперь у меня больше свободного времени.
Выберите лучший онлайн-инструмент OCR
Редактируйте в любом месте и в любое время
Создавайте файлы OCR онлайн со своего мобильного или настольного компьютера! Работает с Google Диском, Dropbox и Microsoft OneDrive. Совместимость со всеми веб-браузерами, а также с Mac и Windows.
Нет необходимости в загрузке или установке
Нет необходимости в надстройках или расширениях. Наш редактор и конвертер PDF работает полностью онлайн. Все, что вам нужно, это подключение к Интернету.
100% безопасность и надежность
Мы не храним вашу информацию и не храним ваши данные в файлах. Так что вы можете быть спокойны, зная, что ваши личные документы и конфиденциальность защищены.
Бесплатный онлайн-редактор и функции подписи
Получите бесплатный доступ к нашему полному набору функций! Редактируйте, стирайте и добавляйте текст с легкостью. Вставляйте изображения и делитесь своей электронной подписью.
Быстрое и простое онлайн-преобразование
Превратите отсканированные и цифровые документы из PDF в Word всего за два клика. Это очень просто и работает за считанные секунды.
Никаких технических знаний не требуется
Нулевых навыков не требуется. Любой может мгновенно преобразовать свой документ PDF в документ Word.
Есть вопросы об онлайн-распознавании символов?
Мы вас прикроем.
OCR расшифровывается как «Оптическое распознавание символов», этот инструмент распознает текст в цифровом изображении. Он обычно используется для распознавания текста в отсканированных документах и изображениях. PDFSimpli использует новейшие технологии, чтобы помочь вам редактировать любое изображение с помощью программного обеспечения OCR.
PDFSimpli предлагает лучшее на рынке средство оптического распознавания текста, позволяющее пользователям редактировать изображения и PDF-файлы с помощью этой инновационной технологии. Наш 100% онлайн-редактор поможет вам редактировать изображения с помощью нашего инструмента OCR без загрузки или установки, и вы даже можете добавлять электронные подписи к своим файлам всего за несколько кликов.
Вы можете использовать инструмент OCR с Windows или Mac, следуя простым пошаговым инструкциям PDFSimpli. PDFSimpli предлагает лучший на рынке инструмент OCR, который позволяет пользователям редактировать изображения и PDF-файлы с помощью этой инновационной технологии в Windows несколькими щелчками мыши.
С помощью инструмента оптического распознавания текста PDFSimpli вы можете редактировать PDF-файл, используя новейшую доступную на рынке технологию оптического распознавания текста. Просто выберите PDF-файл, который хотите отредактировать, и следуйте простым инструкциям, чтобы изменить или отредактировать файл за считанные минуты!
Найдите здесь все, что вам нужно.

Если у вас есть вопросы, у нас есть ответы.
Как сэкономить время при редактировании документов
В современном мире, который становится все более цифровым, каждому из нас необходимо хотя бы раз в жизни отредактировать PDF-файл. Программное обеспечение и встроенные возможности устройства упрощают редактирование документов.
Узнать больше
Как печатать в PDF за 5 простых шагов
Некоторые люди не знают, что вы можете печатать прямо в форме PDF, но это возможно. Фактически, весь процесс может быть очень простым с помощью бесплатных инструментов PDFSimpli для редактирования PDF.
Узнать больше
Как добавить электронную цифровую подпись PDF бесплатно
Контракты играют огромную роль в бизнесе. Независимо от того, продаете ли вы товары или что-то покупаете, вам нужно правильное соглашение.
Узнать больше
Как добавлять изображения в PDF-файлы
Быстро добавьте изображение в PDF-файл онлайн и бесплатно. PDF — это отличный вариант для обмена документами, которым пользуются многие люди.
Узнать больше
Как сжимать PDF-файлы
Размер файла имеет огромное значение для онлайн-документов. Например, если вы хотите добавить потрясающую инфографику в формате PDF, файл должен быть как можно меньше.
Узнать больше
Как сохранить в формате PDF за 5 простых шагов
PDF — один из самых полезных форматов документов. Его использование и функции многочисленны, но иногда может быть сложно сохранить его в формате PDF.
Узнать больше
Показать больше
Преобразование PDF-файлов или любых файлов
Наше программное обеспечение позволяет быстро преобразовать файлы в PDF-файлы.
Просто загрузите PDF-файл или другой документ, чтобы начать!
Приступим! Неверный формат. Попробуйте выбрать допустимый ### для преобразования.
Командная строка преобразователя PDF в текст OCR
Командная строка конвертера PDF в текст OCR может распознавать текст из отсканированных документов с помощью технологии оптического распознавания символов. Он может извлекать текст из отсканированного PDF-файла и даже изображения. В качестве инструмента командной строки пользователи могут реализовать пакетный процесс с помощью пакетных сценариев.
Примечание об обновлении командной строки конвертера VeryPDF PDF в текст OCR.
Системные требования
- Windows 2000/XP/Server 2003/Vista/Server 2008/7/8 , как 32-битные, так и 64-битные системы.
Основные характеристики
Распознавание символов из отсканированных PDF-файлов
- Многие документы хранятся в отсканированных PDF-файлах, которые на самом деле имеют формат изображения.
Эти документы нелегко архивировать или индексировать. Конвертер PDF в текст OCR с командной строкой — хороший помощник для распознавания слов и текста в отсканированном PDF.
Извлечение текста из изображения в текстовый документ
- Копирование или редактирование текста в документах, созданных со сканера, или даже фотографий всегда занимает много времени. Это приложение может распознавать текст на изображениях с помощью технологии OCR, что сэкономит вам много времени при работе с текстовыми сообщениями на изображениях.
Простая работа с командной строкой и пакетный процесс
- Это приложение командной строки, которое удобно для реализации пакетного процесса со сценарием. Приложение командной строки также обеспечивает удобство ручного управления с эффективными опциями. С командами, пакетным и ручным управлением все просто.
Функции командной строки преобразователя PDF в текст OCR
- Поддержка операций командной строки, что полезно для пакетного процесса.
- Преобразование отсканированных PDF-файлов в редактируемые текстовые файлы.
- Распознавание символов изображений, таких как TIFF, BMP, PNG, JPG, PCX и TGA.
- Преобразование указанных страниц исходных файлов.
- Нет необходимости в стороннем приложении для чтения PDF.
- Поддержка более десяти языков (скачайте языковые пакеты здесь).
- Преобразование текстового PDF в обычный текстовый файл.
- Извлечь текст из зашифрованного PDF.
- Возможность сохранять исходные макеты исходных файлов PDF (физический макет).
- Возможность конвертировать PDF в текст с раскладкой порядка чтения (Reading Layout).
- Возможность вставлять или удалять символы разрыва страницы (0x0C) между страницами в текстовых файлах.
- Возможность добавлять дополнительную информацию, например номер страницы, в конец каждой текстовой страницы.