Создано ПО для извлечения текстов из видео

Группа учёных из Национального университета Сингапура (National University of Singapore) при поддержке коллег из Исследовательского института A*STAR, разработала программное обеспечение, способное распознавать и извлекать текст непосредственно из видео.

Технология записи видео становится более доступной. Качество улучшается, а устройства для съёмки – дешевеют. Как следствие, у пользователь увеличивается количество отснятого видеоматериала, которое нужно архивировать и структурировать.

И возникла необходимость быстро производить поиск, выискивая определённые кадры, а также возможность выделять отдельные кадры на основе запечатлённых на нём текстовых сообщений. Ведь в любом видео содержится какое то количество текста. Это дорожные знаки, надписи на рекламных плакатах, номера автомобилей, корешки книг и многое другое.

Но традиционные технологии распознавания текста в отсканированных документах тут не годятся, поскольку в видео символы могут находиться под самыми неудобными углами, ориентированы в любом направлении, быть смазанными или частично закрыты другими объектами. К тому же, в отличие от документов, текст на видео может иметь очень низкую контрастность по отношению к фону.

Поэтому первое, что должна делать программа — удостовериться, что рассматриваемый ей объект действительно является символом. И именно эта задача была самой трудной для решения. Но разработчикам удалось решить её, повышая контрастность изображения, а затем используя алгоритм, относящийся к классу, известному как «байесовский классификатор». Достоинство этого метода состоит в нетребовательности к большому количеству данных для обучения, необходимых для оценки параметров. Такой подход позволяет не слишком усложнить задачу, обеспечив при этом достаточно высокую эффективность её решения.

Далее необходимо определить, как выявленный символ соотносится со своими соседями по строке. Найдя один символ, программа начинает сканировать его окрестности, стараясь найти остальные. Тут вступает в действие набор геометрических правил, которым соответствует любой текст. Это позволяет отбросить ложные срабатывания.

По словам самих разработчиков, созданное ими ПО уже способно распознавать не менее 67-75% имеющегося в видео текста. Цель же — достичь, как минимум, результата в 90%. Этого можно будет добиться за счёт использования различных дополнительных фильтров, специально созданных для текстов, написанных не по горизонтали.