Як машинне навчання допомагає виявити контрафакт

Машинне навчання (machine learning) — це вміння алгоритму працювати з великими масивами даних, знаходити в них закономірності та постійно навчатися. Сьогодні такі технології — невіддільна частина рішень щодо захисту бренду. Наприклад, за допомогою машинного навчання можна швидко обробити сто тисяч оголошень про продаж товарів і автоматично виявити в них контрафакт. Як це працює? Розповімо нижче.

Що таке машинне навчання в боротьбі з контрафактом

Раніше з підробками в інтернеті боролися вручну. Спеціаліст сидів за комп’ютером і переглядав оголошення. Він шукав невідповідності: кросівки відомого бренду, а ціна на них нижча у декілька разів. Швидше за все, це контрафакт. Щоб регулярно переглядати всі оголошення, наприклад, на Alibaba, знадобилося б кілька сотень співробітників. Це дуже затратно, тому оголошення перевіряли вибірково.

Це повільна робота, а охоплення завжди менше, ніж обсяг контрафакту в інтернеті. Фахівці з виявлення контрафакту не працюватимуть швидше, якість їх рішень теж залишається приблизно на одному рівні.

Машинне навчання — спосіб робити ту ж роботу ефективніше. Нейромережа вчиться кожен раз, коли людина говорить йому: «це правильно» або «ні, тут ти помилився». Обсяг автоматизованої роботи не обмежений: сьогодні за допомогою машинного навчання можна перевіряти 100 тис. оголошень, а через місяць можливо буде перевіряти вже мільйон.

Дві тисячі оголошень в день в середньому розмічає людина, 300 тисяч оголошень в день в середньому розмічає алгоритм на основі машинного навчання.

Як це працює на прикладах

Щоб визначити контрафакт, алгоритм на базі machine learning враховує безліч маркерів. Є кілька основних.

Ціна

Справжні кросівки вартістю умовно $1000 долларів від відомого бренду не можуть коштувати $100 і алгоритм зверне на це увагу. Ще він вчиться зіставляти вартість і тип товару. Кросівки за $100 — швидше підробка, бейсболка за $100 — оригінал.

При цьому алгоритм повинен розуміти, що кросівки можуть бути уживаними, тоді $100 — прийнятна ціна.

Здається, що вичленувати ціну з оголошення просто, але це не так. Буває, що в одному оголошенні багато цін: вартість товару, доставки, ціна зі знижкою і без знижки, ціна за два або три товари, а ще є оптова ціна.

Друга проблема — валюта. Долари можуть бути не тільки американськими, але й австралійськими. Значок долара використовують в Бразилії для позначення бразильського реала. Алгоритм повинен розуміти, в якій країні продається товар.

Зображення

Алгоритму на базі машинного навчання простіше працювати, якщо в оголошенні продавець залишив докладний опис товару. Але, наприклад, в соцмережах часто викладені лише фотографія товару і його ціна.

Однак і по фотографії можна визначити категорію товару та бренд. Творці підробок часто копіюють дизайни продуктів, але вони можуть помилитися, наприклад, у відтінках кольорів. Алгоритм вчиться визначати це. Після підтвердження людиною декількох збігів як ознак контрафакту будуть створені нові критерії, і алгоритм буде сам приймати рішення.

Опис

Нейромережа аналізує ключові слова в описах товарів. Наприклад, відомому бренду не треба писати фрази «відмінну якість» і «безпосередньо з заводу». Це само собою зрозуміло. Якщо зустрічаються дві цих фрази в одному оголошенні, алгоритм позначить таке оголошення як «проблемне».

Навчання і точність алгоритму

Для початку роботи алгоритму дається розмічена вручну вибірка оголошень. Починається навчання. Коли алгоритм знаходить потенційне порушення прав інтелектуальної власності, але не знає, що з ним робити, він сигналізує оператору. Аналітики помічають дані та повертають їх для перенавчання системи.

Чим довше алгоритм працює з продуктом або брендом, тим ефективнішим він стає.

У сфері інтелектуальної власності дуже велику увагу приділяють точності алгоритмів на базі machine learning. Наступний етап після їх роботи — автоматичне видалення оголошень. Неправильне видалення загрожує юридичними наслідками. Навіть якщо алгоритм помиляється в 1% випадків, то на 100 млн оголошень він дасть один мільйон помилкових рішень. Це неприпустимо, тому що буде заважати легальній торгівлі.

Тому коли алгоритм відправляє спірний випадок на перевірку людині, робиться так зване перекриття: сумнівні випадки показується мінімум двом людям, тому що людина теж може помилитися. Якщо збігається рішення двох людей, то все нормально. Якщо воно різне, то показується ще трьом-п’ятьом людям, і тільки потім дається «відповідь» системі.

Ще потрібно врахувати, що виробники контрафакту прагнуть обдурити програми. Наприклад, змінюють літери в описі, пишуть символи в різних розкладках, пропускають букви, пишуть частину слова різними мовами. Алгоритм, заснований на механічному пошуку ключових слів і формальних правилах, з такими випадками не впорається. Алгоритм на базі машинного навчання виявить ці хитрощі.

Оскільки зображення розпізнається складніше, то назва бренду часто фігурує не в тексті, а вказується на зображенні. Іноді ціна вказується прямо на фотографії, тому що витягти її звідти набагато складніше, ніж взяти з тексту. Нейромережа вчиться все це бачити та розуміти. Це як вічна боротьба.

Майбутнє machine learning

Великі закордонні маркетплейси сьогодні самі працюють проти контрафакту. Внутрішні відділи, що запобігають публікації явних підробок, є у Amazon і Alibaba. Але в цих відділах зазвичай немає експертів з ідентифікації продуктів. Вони можуть оцінити якість, але не можуть визначити, оригінал це чи ні. Навіть якщо вони сумніваються, вони не будуть порушувати права своїх клієнтів, що розміщують оголошення, тому чекають, коли бренд сам знайде контрафакт.

Платформи не можуть технічно відфільтрувати весь потік оголошень. Сайти оголошень, де люди самі продають товари, — це мільйони пропозицій.

Але є приклади, коли маркетплейси рухаються в потрібному напрямку. Метод великих даних використовують на платформі Alibaba. Їх нейромережа створена ще у 2017 році. Алгоритми сканують близько 10 млн товарів в день. Перші результати використання технології показали зниження кількості запитів на видалення на 25%. За рік завдяки технології з платформи видаляють близько 380 млн фейкових оголошень і блокують приблизно 180 тисяч недобросовісних продавців.

У 2019 з’явилася технологія Entrupy, що розпізнає підроблені моделі сумок відомих преміумбрендів. Entrupy порівнює фотографії та робить висновки за станом шкіри сумки, текстури. Точність 99,1%.

Це майбутнє. Наступний рівень розвитку цих систем, коли вони зможуть просто по картинці відрізняти оригінал від контрафакту. Якщо людина, дивлячись на зображення, може визначити підробку, то й алгоритм можна навчити це робити.

БІЛЬШЕ ЦІКАВОГО:

Як машинне навчання допомагає виявити контрафакт

Що таке машинне навчання в боротьбі з контрафактом

Як це працює на прикладах

Навчання і точність алгоритму

Майбутнє machine learning

Читайте также: