Распознать текст с фото: Распознать текст онлайн с картинки, pdf или фото

Содержание

простой способ распознать текст на изображении

Развитие темы

Категории

Книга “OneNote-мастер” на ЛитРес

Кирилл Карпенко

Проще всего извлечь текст из картинки с помощью бесплатной программы OneNote. Если вы не знаете, что это такое, то ознакомьтесь с основной статьёй про OneNote.

Записные книжки OneNote хранятся в OneDrive. Данные OneNote либо автоматически отправляются на сервер Майкрософт, либо их можно отправить вручную, выполнив команду “Синхронизация – Синхронизировать эту”, или нажав сочетание клавиш CTRL+S. На сервере текст на изображении будет распознан.

Команда “Синхронизация” записной книжки OneNote.

В обычной ситуации запускать синхронизацию вручную не требуется, потому что в настройках программы можно установить автоматическую синхронизацию всех записных книжек. Но если нужно немедленно, то можно синхронизировать вручную.

Обычно 5 минут достаточно для распознавания текста на сервере Майкрософт. После этого можно опять запустить синхронизацию для получения слоя распознанного текста.

После того как текст распознан и синхронизирован в контекстном меню изображений OneNote появляется ещё один пункт “Копировать текст из рисунка”. При клике на него текст из картинки помещается в буфер обмена и его можно вставить на этой же странице OneNote или в любую другую программу.

Команда “Копировать текст из рисунка”.

Также распознанный текст можно увидеть через контекстное меню “Рисунок – Замещающий текст”. В окне “Описание” мы видим слой распознанного текста, который можно здесь же редактировать.

Команда “Замещающий текст”.

И ещё один важный момент. Поиск OneNote осуществляется в том числе по тексту внутри изображений. В результатах поиска показываются все страницы, где есть совпадения с поисковым запросом. Поскольку текст на всех изображениях внутри OneNote автоматически распознаётся, имеет смысл хранить в OneNote любые изображения с текстом. Здесь их можно легко найти через текстовый поиск.

Если эта информация оказалась для вас интересной, то рекомендую познакомиться ещё с книгой “OneNote-мастер”. В ней вы найдёте описание множества других интересных возможностей программы OneNote.

В видео показано, как быстро, бесплатно, безлимитно и качественно распознавать текст на изображениях в программе OneNote.

Простой способ распознать текст.

Обновлено: 20 января 2022

Новые статьи

❄️ “Снежок” раздражения 03 февраля 2023
Квадрат настроения 🟦🟥🟨🟩 24 января 2023
Притча о волшебстве детского психолога 20 января 2023
Кирилл Карпенко. Записки школьного психолога: для родителей 27 декабря 2022
Земля: Жизнь без людей / Aftermath: Population Zero (Кристофер Роули, 2008) 🌏 27 декабря 2022
Всенаука – бесплатные книги 📚 24 декабря 2022

Доисторическая планета / Prehistoric Planet (Энди Джонс, Адам Валдез, 2022) 🦖 08 августа 2022

Как распознать текст с фото: новые возможности фреймворка Vision

Теперь фреймворк Vision умеет распознавать текст по-настоящему, а не как раньше. С нетерпением ждём, когда сможем применить это в Dodo IS. А пока перевод статьи о распознавании карточек из настольной игры Magic The Gathering и извлечении из них текстовой информации.

Впервые фреймворк Vision был представлен широкой общественности на WWDC в 2017 году, вместе с iOS 11.

Vision был создан, чтобы помочь разработчикам классифицировать и идентифицировать объекты, горизонтальные плоскости, штрих-коды, выражения лица и текст.

Однако с распознаванием текста была проблема: Vision мог найти место, где находится текст, но фактического распознавания текста не происходило. Конечно, было приятно видеть ограничивающую рамку вокруг отдельных фрагментов текста, но затем их нужно было вытаскивать и распознавать самостоятельно.

Эту проблему решили в обновлении Vision, которое вошло в iOS 13. Теперь Vision framework предоставляет истинное распознавание текста.

Чтобы проверить это, я создал очень простое приложение, которое может распознать карточку из настольной игры Magic The Gathering и извлекать из нее текстовую информацию:

имя карты;
код выпуска;
коллекционный номер (он же индекс).

Вот пример карты и выделенного текста, который я хотел бы получить.

Глядя на карточку вы можете подумать: «Этот текст довольно мелкий, плюс на карточке есть много другого текста, который может помешать». Но для Vision это не проблема.

Для начала нам нужно создать VNRecognizeTextRequest. По сути, это описание того, что мы надеемся распознать, плюс настройка языка распознавания и уровень точности:

let request = VNRecognizeTextRequest(completionHandler: self.handleDetectedText)
request.  recognitionLevel = .accurate
request.recognitionLanguages = ["en_GB"]

Блок завершения имеет вид handleDetectedText(request: VNRequest?, error: Error?). Мы передаём его в конструктор VNRecognizeTextRequest и затем устанавливаем оставшиеся свойства.

Доступно два уровня точности распознавания: .fast и .accurate. Поскольку на нашей карточке довольно маленький текст в нижней части, я выбрал более высокую точность. Быстрый же вариант скорее лучше подойдет для больших объемов текста.

Я ограничил распознавание британским английским, так как все мои карты именно на нём.Вы можете указать несколько языков, но при этом нужно понимать, что сканирование и распознавание может занять немного больше времени для каждого дополнительного языка.

Есть еще два свойства, которые стоит упомянуть:

customWords: вы можете добавить массив строк, которые будут использоваться поверх встроенного лексикона. Это полезно, если в вашем тексте есть какие-нибудь необычные слова. Я не применял опцию для этого проекта. Но если бы я делал коммерческое приложение-распознавалку для карточек Magic The Gathering, то добавил бы некоторые из наиболее сложных карт (например, Fblthp, the Lost), чтобы избежать проблем.

minimumTextHeight: это float-значение. Оно обозначает размер относительно высоты изображения, при котором текст больше не должен быть распознан. Если бы я создавал этот сканер, чтобы просто получить имя карты, это было бы полезно для удаления всего другого текста, который не нужен. Но мне нужны самые маленькие кусочки текста, поэтому пока я проигнорировал это свойство. Очевидно, при игнорировании мелких текстов скорость распознавания будет выше.

Теперь, когда у нас есть наш запрос, его вместе с картинкой надо передать обработчику запросов:

let requests = [textDetectionRequest]
let imageRequestHandler = VNImageRequestHandler(cgImage: cgImage, orientation: . right, options: [:])
DispatchQueue.global(qos: .userInitiated).async {
    do {
        try imageRequestHandler.perform(requests)
    } catch let error {
        print("Error: \(error)")
    }
}

Я использую изображение прямо с камеры, преобразовав его из UIImage в CGImage. Это используется в VNImageRequestHandler вместе с флагом ориентации, чтобы помочь обработчику понять, какой текст он должен распознавать.

В рамках этого демо я использую телефон только в портретной ориентации. Поэтому, естественно, я добавляю ориентацию .right. Так, падажжи!

Оказывается, ориентация камеры на вашем устройстве полностью отделена от вращения устройства и всегда считается слева (как по умолчанию было принято в 2009 году, что для съемки фотографий нужно держать телефон в альбомной ориентации). Конечно, времена изменились, и мы в основном снимаем фотографии и видео в формате портретной ориентации, но камера по-прежнему выровнена слева.

Как только наш обработчик настроен, мы переходим в поток с приоритетом .userInitiated и пытаемся выполнить наши запросы. Вы можете заметить, что это массив запросов. Так происходит, потому что вы можете попытаться вытащить несколько фрагментов данных за один проход (т. е. идентифицировать лица и текст из одного и того же изображения). Если ошибок нет, обратный вызов, созданный с помощью нашего запроса, будет вызван после обнаружения текста:

func handleDetectedText(request: VNRequest?, error: Error?) {
    if let error = error {
        print("ERROR: \(error)")
        return
    }
    guard let results = request?.results, results.count > 0 else {
        print("No text found")
        return
    }
    for result in results {
        if let observation = result as? VNRecognizedTextObservation {
            for text in observation.topCandidates(1) {
                print(text.string)
                print(text.confidence)
                print(observation.boundingBox)
                print("\n")
            }
        }
    }
}

Наш обработчик возвращает наш запрос, который теперь имеет свойство results. Каждый результат является VNRecognizedTextObservation, у которого для нас есть сразу несколько вариантов результата (далее — кандидаты).

Вы можете получить до 10 кандидатов на каждую единицу распознанного текста, и они сортируются в порядке убывания уверенности. Это может быть полезным, если у вас есть определенная терминология, которую синтаксический анализатор неправильно распознает с первой попытки. Но определяет правильно позже, даже если он менее уверен в правильности результата.

В этом примере нам нужен только первый результат, поэтому мы проходимся циклом по observation.topCandidates(1) и извлекаем как текст, так и уверенность. В то время как сам кандидат имеет различный текст и уверенность, .boundingBox остается той же. .boundingBox использует нормализованную систему координат с началом координат в левом нижнем углу, поэтому, если она в дальшнейем будет использоваться в UIKit, для вашего же удобства её надо преобразовать.

Это почти всё, что нужно. Если я прогоню фотографию карты через это, я получу следующий результат чуть менее чем за 0,5 секунд на iPhone XS Max:

Carnage Tyrant
1.0
(0.2654155572255453, 0.6955686092376709, 0.18710780143737793, 0.019915008544921786)
Creature
1.0
(0.26317582130432127, 0.423814058303833, 0.09479101498921716, 0.013565015792846635)
Dinosaur
1.0
(0.3883238156636556, 0.42648010253906254, 0.10021591186523438, 0.014479541778564364)
Carnage Tyrant can't be countered.
1.0
(0.26538230578104655, 0.3742666244506836, 0.4300231456756592, 0.024643898010253906)
Trample, hexproof
0.5
(0.2610074838002523, 0.34864263534545903, 0.23053167661031088, 0.022259855270385653)
Sun Empire commanders are well versed
1.0
(0.2619712670644124, 0.31746063232421873, 0.45549616813659666, 0.022649812698364302)
in advanced martial strategy. Still, the
1.0
(0.2623249689737956, 0.29798884391784664, 0.4314465204874674, 0.021180248260498136)
correct maneuver is usually to deploy the
1.0
(0.2620727062225342, 0. 2772137641906738, 0.4592740217844645, 0.02083740234375009)
giant, implacable death lizard.
1.0
(0.2610833962758382, 0.252408218383789, 0.3502468903859457, 0.023736238479614258)
7/6
0.5
(0.6693102518717448, 0.23347826004028316, 0.04697717030843107, 0.018937730789184593)
179/279 M
1.0
(0.24829587936401368, 0.21893787384033203, 0.08339192072550453, 0.011646795272827193)
XLN: EN N YEONG-HAO HAN
0.5
(0.246867307027181, 0.20903720855712893, 0.19095951716105145, 0.012227916717529319)
TN & 0 2017 Wizards of the Coast
1.0
(0.5428387324015299, 0.21133480072021482, 0.19361832936604817, 0.011657810211181618)

Это невероятно! Каждый фрагмент текста был распознан, помещен в его собственную ограничивающую рамку и возвращен в результате с рейтингом доверия 1.0.

Даже очень маленький копирайт в основном корректен. Все это было сделано на изображении 3024×4032 весом в 3,1 МБ. Процесс был бы еще быстрее, если бы я сначала уменьшил изображение. Также стоит отметить, что этот процесс намного быстрее на новых бионических чипах A12, которые имеют специальный нейронный движок.

Когда текст распознан, последнее, что нужно сделать, это вытащить нужную мне информацию. Я не буду помещать весь код здесь, но ключевая логика состоит в том, чтобы перебирая каждую .boundingBox определять местоположение, чтобы я мог выбрать текст в нижнем левом углу и в верхнем левом углу, игнорируя что-либо дальше справа.

Конечным результатом получилось приложение сканирующее карточку и возвращающее мне результат менее, чем за одну секунду.

P.S. На самом деле мне нужен только код выпуска и коллекционный номер (он же индекс). Затем их можно использованы в API сервиса Scryfall для получения всей возможной информации об этой карте, включая правила игры и стоимость.

Пример приложения доступен на GitHub.

macOS: как использовать Live Text для копирования и обмена текстом в изображениях на вашем Mac Посмотрите и в других местах, что позволяет легко копировать или делиться ими.

Например, если у вас есть изображение витрины магазина в приложении «Фотографии», на котором отображается номер телефона, вы можете зафиксировать этот номер, чтобы добавить его в свои контакты. Это невероятно простая и полезная функция, и вот как она работает в самой простой форме.

Найдите изображение, содержащее текст, с помощью «Фото», «Просмотр» или «Быстрый просмотр» или загрузите его из Интернета с помощью Safari.
Наведите курсор на часть изображения, где находится текст, и курсор примет форму инструмента выделения текста. Выделите текст, с которым хотите что-то сделать, перетащив по нему курсор.
Затем щелкните правой кнопкой мыши выделенный текст и выберите действие в появившемся контекстном меню. Варианты должны включать Искать , Перевести , Поиск в Google , Копировать и Поделиться .
Если вы скопировали текст, переключитесь на приложение, поддерживающее ввод текста, затем щелкните правой кнопкой мыши окно редактирования и выберите Вставить .

Знаете ли вы, что Live Text также поддерживает оптическое распознавание символов? Это означает, что если на ваших фотографиях есть изображение рукописной заметки, вы все равно можете скопировать его, а затем вставить как цифровой текст.

Если вы не считаете Live Text полезным на Mac, вы можете отключить эту функцию. Для получения информации об использовании Live Text на iPhone и iPad обязательно ознакомьтесь со специальными практическими рекомендациями.

Тег: Live Text

iOS 16.3 теперь доступна для вашего iPhone с этими 4 новыми функциями тестирование. Обновление программного обеспечения доступно для iPhone 8 и новее, и, хотя это относительно небольшое обновление, оно по-прежнему включает в себя несколько новых функций, изменений и исправлений ошибок. Ниже мы кратко описали новые функции iOS 16.3, в том числе поддержку физических ключей безопасности в качестве варианта двухфакторной аутентификации для…

Предложения: M1 iPad Air по рекордно низким ценам на TigerDirect, начиная с 313,99 долларов США (скидка 48%) Air в нескольких цветах, предлагая базовую конфигурацию 64 ГБ всего за 313,99 долларов США в фиолетовом и розовом цветах.

Примечание. MacRumors является аффилированным партнером TigerDirect. Когда вы переходите по ссылке и совершаете покупку, мы можем получить небольшой платеж, который помогает нам поддерживать работу сайта. Это экономия 48% по сравнению с обычными 59 долларами Apple.9.00…

Следующим большим кремниевым устройством Apple может быть не Mac или iPad Согласно последним сообщениям, это iPad, а скорее усовершенствованный внешний дисплей. Ожидается, что дисплей, который, по слухам, появится в этом году, будет находиться где-то между Studio Display за 1599 долларов и Pro Display XDR за 4999 долларов, но более точная информация о позиционировании и цене устройства пока неизвестна. Пока…

Гурман: Apple рассматривает возможность выпуска нового высококачественного iPhone наряду с Pro и Pro Max и модели Pro Max не раньше 2024 года, по словам Марка Гурмана из Bloomberg. В зависимости от этого периода устройство будет частью линейки iPhone 16 или более поздней версии. В выпуске своего еженедельного информационного бюллетеня «Power On» за сентябрь 2022 года Гурман сказал, что у iPhone 15 Ultra есть «потенциал» для замены iPhone 15 Pro…

Apple объясняет, почему снова был выпущен HomePod, ограничение Wi-Fi 4 и многое другое с Men’s Journal и TechCrunch о новом HomePod второго поколения в обширных интервью об умной колонке.

Apple прекратила выпуск оригинального полноразмерного HomePod в марте 2021 года после того, как в нескольких отчетах указывалось, что продажи динамика были низкими, но Чан сказал Men’s …

Google работает над браузером для iOS, который нарушил бы правила Apple App Store

Суббота, 4 февраля 2023 г., 1:30 по тихоокеанскому стандартному времени, Хартли Чарльтон ограничений, сообщает The Register. Экспериментальный браузер, над которым активно работают разработчики, использует движок Google Blink. Тем не менее, если Google попытается выпустить его в App Store, оно не пройдет процесс проверки приложений Apple. Правила Apple App Store диктуют…

Apple готовит обновление iOS 16.3.1 для iPhone, поскольку ожидание бета-версии iOS 16.4 продолжается на основе данных о программном обеспечении в журналах аналитики нашего веб-сайта на этой неделе. Пока неясно, когда будет выпущено обновление, но, скорее всего, оно будет доступно где-то в феврале. Те же журналы точно предвещали выпуск нескольких предыдущих обновлений, в том числе iOS 16.

0.3 и iOS 16.1.1 совсем недавно, поэтому они…

Практическое занятие с HomePod второго поколения от Apple

Пятница, 3 февраля 2023 г., 13:28 по тихоокеанскому стандартному времени, Джули Кловер

Сегодня официальный день запуска HomePod второго поколения, который был представлен в январе, и мы выбрали один из них. чтобы сравнить его с оригинальным HomePod, выпуск которого Apple прекратила в 2021 году. Подпишитесь на канал MacRumors на YouTube, чтобы увидеть больше видео. С точки зрения дизайна, HomePod второго поколения очень похож на модель первого поколения, с тем же закругленным дизайном и акустической сеткой…

преобразование изображения в текст · Темы GitHub · GitHub

Вот 107 публичных репозиториев соответствует этой теме…

тиагоалессио / tesseract-ocr-для-php

Спонсор Звезда 2,5к

просветление / CoCa-pytorch

Спонсор Звезда 600

полноч / узел-tesseract-ocr

Звезда 247

критерий17 / image_text_reader

Звезда 118

tgiсуббота / L-стих

Звезда 102

натешмбхат / карт-сканер-флаттер

Звезда 84

нетрикс / им2латекс

Звезда 65

Фарханчоудхари / PAN_Card_OCR_Project

Звезда 63

чжанмин8 / Данго-окр

Звезда 39

affjljoo3581 / Инверсный DALL-E для оптического распознавания символов

Звезда 38

глами / глами-1м

Звезда 36

Бенсонруан / Тессеракт-OCR

Звезда 36

амит-y11 / the_ocr_bot

Звезда 33

Карлеск / Изображение в текст

Звезда 31

цздонхао / im2txt2im

Звезда 30

DS2BRAIN / дс2