Як технології комп’ютерного зору застосовуються в ритейлі

Як показують дослідження, роздрібна та гуртова торгівля – це одна з чотирьох галузей, де розвиток та застосування рішень у галузі комп’ютерного зору (Computer Vision, CV) виглядає найперспективнішим у найближчі кілька років. У поєднанні з алгоритмами машинного навчання CV дає відмінні можливості для аналізу споживчої поведінки та, як наслідок, дозволяє приймати правильні рішення щодо трансформації клієнтського досвіду.

Прогресивна технологія

Як відомо, комп’ютерний зір – це технологія створення машин та систем, які можуть проводити виявлення, відстеження та класифікацію об’єктів, отримуючи інформацію із зображень. Відеодані можуть бути представлені безліччю форм, у тому числі зображеннями з різних камер або тривимірними даними. Найбільша потреба таких технологій, зрозуміло, знаходиться у сфері відеоспостереження та безпеки, а також у медицині та промисловому виробництві. Проте комп’ютерний зір разом з алгоритмами машинного навчання знаходить своє застосування й у ритейлі, дозволяючи проводити онлайн-аналіз споживчої поведінки у торговому залі без безпосередньої ідентифікації особистості покупця.

Наприклад, компанія Amazon пропонує своїм клієнтам технологію Just Walk Out, яка працює з камерами торгового залу, мітками товарів та алгоритмами комп’ютерного зору для відстеження покупок. Переміщаючись по магазину, покупці можуть покласти товари у свої сумки для покупок або повернути їх на полиці. Товари при цьому автоматично будуть додані або видалені з кошика покупця, а при виході з магазину – оплачені. Отже, взаємодія покупця і касира повністю усувається з допомогою застосування технології «розумного» комп’ютерного зору зокрема.

Важка задача

Визначення дій людей в обмеженому приміщенні з відеокамерами – це непросте завдання. Однак її рішення дозволяє алгоритмам відстежувати відвідувачів, не торкаючись їх персональних даних. Крім безпосередньо відстеження покупок, технологія комп’ютерного зору в ритейлі може бути використана для:

оцінки асортименту товарів у торговому залі та інтенсивності їх вибуття;
аудиту коректності розкладки товарних позицій на полиці;
аналізу цілісності групового пакування товарів на палетах та ін.

У загальному випадку, спрощений підхід до створення CV-рішення може виглядати так: отримання відеоінформації, розпізнавання об’єктів (покупців та товарів), розпізнавання дій, видача вихідних даних на основі порівняння об’єктів та дій із навчальними даними.

Для забезпечення можливості впровадження рішення необхідно вирішити низку завдань, пов’язаних із:

якістю даних;
відтворюваністю результатів моделей;
зміщенням даних;
відмовостійкістю рішення.

Робочі інструменти

За останнє десятиліття великі ритейлери нагромадили величезні масиви даних, у тому числі архіви відеозаписів із торгових залів. Для підготовки наборів даних для навчання моделей штучного інтелекту потрібна участь інженера, проте його робота вже частково автоматизована, наприклад, такими доступними інструментами, як Roboflow Annotate. Вони прискорюють цикл підготовки навчального набору даних під час контролю якості.

Зазвичай моделі штучного інтелекту починають навчання з випадкових величин і коригуються відповідно до даних навчального набору. Але випадковість – це не те, що потрібне бізнесу у реальному світі. Тому для відтворюваності результатів у машинному навчанні використовують ряд стандартних підходів, таких як фіксація випадкового початкового числа (random_state). Грубо кажучи, коли генеровані псевдовипадкові величини матимуть одні й самі значення при кожному виклику.

Однак для перенесення навченої моделі в середовище експлуатації потрібно роздільне зберігання вхідних даних, їх перетворень та ознак, отриманих із даних. Адже проблема полягає в тому, що змінні, що надходять на вхід моделі, не є ознаками, які вона використовує у своїх обчисленнях.

Наприклад, дата може бути поділена на день тижня, місяць та ознаку вихідного дня. Чітке структурування та збереження послідовності вичленення ознак із вхідних даних дозволять повторювати дії з даними та отримувати очікувані результати.

Альтернативний підхід

Також хорошим підходом для створення промислових систем машинного навчання є побудова наскрізного конвеєра, що відтворюється для всіх етапів побудови CV-рішення, до яких можна віднести:

підготовку даних;
побудова моделі;
тренування та оцінку моделі;
розгортання навченої моделі у промисловому середовищі.

Кроки конвеєра описуються за допомогою таких рішень, як, наприклад, Kubeflow Pipelines, MLFlow та інших.

При цьому потрібно стежити за тим, щоб дані, що надходять у модель, не змістилися щодо тих характеристик, які були спочатку при навчанні моделі. Адже модель ШІ лише відтворює виявлені у початковому наборі даних закономірності нових даних. Цей процес (зміщення даних – data drift) піддається постійному моніторингу та своєчасно сповіщає фахівців за даними для аналізу конкретної нестандартної ситуації.

По суті, модель розгортають для створення передбачень на основі даних, які вона (модель) не бачила у процесі навчання. При цьому логічно, що модель повинна бути стійкою до відмов у своїй роботі й не потребувати постійного обслуговування.

Проблеми верифікації

Стосовно CV хорошою практикою є верифікація вхідного відеопотоку на предмет пропущених кадрів, щоб модель детектування, або, наприклад, класифікації гарантовано мала вхідні дані. Також можлива побудова змішаних архітектур рішень (лямбда-архітектур), які можуть обробляти як відеопотік у режимі реального часу, так і відео/зображення з тимчасовою затримкою, тим самим знижуючи ризик втрати інтернет-з’єднання, а також навантаження на обчислювальні потужності в пікові періоди.

Наявні технічні рішення в галузі комп’ютерного зору та машинного навчання можуть забезпечити задоволення актуальних бізнес-завдань ритейлу в частині автоматизації взаємодії з клієнтом, дотримуючись при цьому базових умов ведення бізнесу, таких як масштабованість, відтворюваність рішень, стабільність сервісу.

БІЛЬШЕ ЦІКАВОГО: