Андрей Смирнов
Время чтения: ~5 мин.
Просмотров: 0

Project Naptha — распознавание текста в картинках при помощи расширения

Live Demo: http://projectnaptha.com/

Project Naptha automatically applies state-of-the-art computer vision algorithms on every image you see while browsing the web. The result is a seamless and intuitive experience, where you can highlight as well as copy and paste and even edit and translate the text formerly trapped within an image.

Words on the web exist in two forms: there’s the text of articles, emails, tweets, chats and blogs— which can be copied, searched, translated, edited and selected— and then there’s the text which is shackled to images, found in comics, document scans, photographs, posters, charts, diagrams, screenshots and memes. Interaction with this second type of text has always been a second class experience, the only way to search or copy a sentence from an image would be to do as the ancient monks did, manually transcribing regions of interest.

You can watch as moving your cursor over a block of words changes it into the little I-beam. You can drag over a few lines and watch as a semitransparent blue box highlights the text, helping you keep track of where you are and what you’re reading. Hit Ctrl+C to copy the text, where you can paste it into a search bar, a Word document, an email or a chat window. Right-click and you can erase the words from an image, edit the words, or even translate it into a different language.

Права доступа

Снимок экрана

Добавить в Opera
0bfe1a46fbb5f61ab5c1ad06725445de.jpg

Отзывы пользователей

Предлагаю вашему вниманию расширение Project Naptha, которое позволяет извлекать из картинок, выделять и переводить текст. Звучит интересно, но как же все это работает?
Идея создания такого плагина родилась как-то у одного студента Массачусетского института. Расширение Project Naptha работает в автоматическом режиме. От вас требуется всего лишь навести курсор мышки на текст и приступить к его редактированию, копированию, переводу и удалению (Erase Text). В последнем случае, место удаленного текста заполняется цветом близлежащих пикселей. Иногда это выглядит неплохо, а иногда слишком явно бросается в глаза. Кстати, алгоритм распознавания основан на  Stroke Width Transform, созданном в недрах лабораторий Microsoft Research, а также на открытом движке оптического распознавания текстов Tesseract от компании Google.
Screenshot+2014-04-26+at+16.39.17.png
В общем, установите это расширение, найдите картинку с текстом, щелкните по последнему правой кнопкой мышки и начните экспериментировать. Но сразу предупрежу, что корректно Project Naptha работает лишь с английским текстом, а вот наш великий и могучий порой не переваривает.
Screenshot+2014-04-26+at+16.42.50.png
На этом скрине четко видно, что скопированное слово «граффити» превратилось после его копирования в «I’PAНо это лишь на первый взгляд. На самом же деле нужно всего лишь в разделе Language выставить русский язык, чтобы без проблем копировать русские буквы. Помните об этом! 
Вы также можете попробовать отредактировать текст на картинке. Для этого нужно пройти в Language → Reprint Text, а затем выбрать пункт Modify Text
Скачать Project Naptha
На hh/gt не нашел ни единого упоминания о этом замечательном расширении для Google Chrome. Хочу поделиться им с сообществом, потому как в последнее время оно помогает мне каждодневно экономить минут 10 — уж очень много скриншотов из социальных сетей на разных языках которые с помощью этого плагина переводятся в два клика. Встречайте — Project Naptha (Chrome webstore).1cd4e48c13c74262b6f7f125bde77c64.png Список возможностей:
  • копировать текст с картинки
  • выделить весь текст
  • гуглить выделенный текст
  • переводить выделенное (бета)
  • проговорить (TTS) выделенное

Проект был создан Kevin Kwok и представляет собой систему OCR (Optical character recognition), реализованную в JavaScript в виде браузерного расширения. Project Naptha, несмотря на простоту для конечного пользователя, довольно сложный внутри. Прежде всего, перед тем как непосредственно распознавание текста началось, нужно определить где собственно находятся блоки с текстом на картинке. Довольно нетривиальная задача, учитывая то, что текст может располагаться поверх совершенно разных фонов и сам по себе иметь разные цвета. Для реализации этого механизма Naptha использует проект Майкрософта Stroke Width Transform (SWT) — эффективный алгоритм, который отталкивается от того, что шрифты обычно имеют примерно равномерную толщину линий (font-weight) и, следовательно, легко отделить блоки текста от остального шума на картинке. Оригинал:86c5f291ece74fc1b18d7ce99eeb9c50.png После SWT:cbe91bf6ba8f4f8a8759a03e92173278.png Naptha конечно же не распознает каждую картинку на открытой странице — это бы было крайне расточительно по отношению к ресурсам. Вместо этого начинает распознавание расположения блоков текста только после… нет, не наведения мыши на картинку (mouseover) как вы могли подумать, а предположения о том, что курсор будет над картинкой, основываясь на его движении. Дальше Web Workers (мультипоточность в фоне) работают над распознаванием расположения текста на картинке без какого-либо ощутимого торможения браузера. Когда вы выбрали блок текста и клинкули “Copy Text” (Ctrl+C), он посылается на сервер с Ocrad OCR — движком с открытым кодом для распознавания текста. Ocrad попытается распознать кусок растровой картинки в текст, что может занять пару секунд, и после завершения вернет распознанный текст, который можно будет вставить обычным образом куда угодно (Ctrl+V). Функция перевода пока что в бете, для того чтобы ее попробовать нужно отправить запрос на их электронный адрес. Предполагается что она будет работать схоже c уже работающим аналогом в Google Translate на мобильных устройствах: Проект все еще находится в стадии тестирования, но даже на текущий момент он достаточно хорош чтобы использовать его в работе. Можно конечно придираться к деталям и возможным тормозам, но этот продукт, насколько я знаю, единственный в своем роде и он уже экономит мое время.

Рейтинг автора
5
Подборку подготовил
Илья Коновалов
Программист и опытный пользователь интернета
Написано статей
179
Ссылка на основную публикацию
Похожие публикации