«Яндекс.Диск» научился искать изображения по надписям на них

3dnews.ru

Компания «Яндекс» реализовала технологию компьютерного зрения в облачном хранилище данных «Яндекс.Диск»: отныне сервис позволяет искать изображения, содержащие текст поискового запроса.

В основе поиска надписей на изображениях лежит технология оптического распознавания символов. Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор (глубокая нейронная сеть) отбирает из всех доступных изображений те, на которых присутствует текст. Использование машинного обучения позволяет добиться высокого качества распознавания, поскольку алгоритм опирается не на какие-то определённые правила, а на опыт анализа миллионов разных файлов.

Когда изображения с текстом отобраны, система находит на них линии, предположительно содержащие текст, — различать их помогает ещё одна нейронная сеть. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен. Далее модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа определяется несколько наиболее вероятных вариантов распознавания.

Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга.

После этого в дело вступает языковая модель — система принимает решение, какой из символов-кандидатов подходит лучше всего. Данный инструмент опирается на словари и учитывает не только сходство символов с теми, которые знает система, но и контекст, то есть соседние символы. Если из нескольких вероятных символов складывается известное системе слово, то она может принять решение, что на картинке написано именно оно.

В настоящее время сервис позволяет искать по тексту изображения форматов JPEG, GIF и PNG. В результатах поиска выводятся не только картинки, соответствующие введённому запросу, но и файлы и папки, в названиях и описаниях которых есть указанное слово.

Система способна распознавать текст на изображениях, разных по виду, содержанию и качеству. Точность распознавания текстов на русском языке составляет около 80 % для отсканированных документов, примерно 63 % для фотографий с надписями и почти 100 % для скриншотов. Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений превышает 70 %.

Новости по теме

Новости других СМИ