Алгоритми машинного навчання: гордість і упередження

Протягом останніх двох десятиліть, з появою потужних комп’ютерів, інтернету та масового оцифровування інформації, машинне навчання переживає справжній бум. Сам же термін використовується у науці вже більше, ніж півстоліття, для описання запрограмованого розпізнавання образів. Концепція – ще старша, математики вперше почали говорити про такі процеси на початку ХІХ століття. Аналітики компанії McKinsey розмірковують над перевагами використання алгоритмів машинного навчання у бізнесі та над ризиками, пов’язаними з ним. Детальніше – в адаптованому перекладі матеріалу.

41_gears

Міф про досконалий інтелект

Машинне навчання у сфері штучного інтелекту дедалі частіше стосується процесу прийняття рішень за допомогою комп’ютера, що ґрунтується на статистичних алгоритмах. Серед найбільш очевидних застосувань – моделі прогнозування, які широко використовуються у відомих бізнес-додатках, наприклад, для автоматичного надання рекомендацій клієнтам чи для процесу схвалення кредитів. В автоматизованих бізнес-процесах алгоритми машинного навчання приймають рішення швидше і дешевше, ніж люди. Машинне навчання також обіцяє покращити якість прийняття рішень унаслідок передбачуваної відсутності людських упереджень.

Однак, погляньмо правді у вічі: штучний інтелект так само схильний до упередженості, як і люди. Наприклад, при оцінці кредитоспроможності клієнти, у багаторічній історії кредитного обслуговування яких не спостерігається правопорушень, зазвичай визначаються, як клієнти з низьким ризиком. Але уявіть, що іпотечні кредити цих клієнтів оплачувалися протягом багатьох років коштом суттєвих податкових пільг, які більше не надаються. Ступінь ризику змінюється, проте, якщо програма про це «не знає», вона не може дати адекватну оцінку. Ба більше, машинне навчання може увічнювати й навіть посилювати поведінкові упередження людей. Ми всі стикаємося з цією проблемою у соціальних мережах: фільтрування стрічки новин базується на користувацьких уподобаннях, тим самим підсилюючи природне упередження читачів. Сайт може навіть систематично запобігати появі доказів протилежної точки зору.

Упередження алгоритмів – один з найбільших ризиків, адже для бізнесу він може стати причиною дорогих помилок, скеровуючи проекти та й цілі організації у хибному напрямку. Хороша новина полягає в тому, що за умови усвідомлення цієї проблеми, упередження в алгоритмах можна виявляти та виправляти.

Вирішення проблеми упередженості на трьох рівнях

Можна вживати заходів для усунення упередженості або захисту від її руйнівних наслідків. Для цього користувачі алгоритмів машинного навчання, по-перше, повинні розуміти недоліки алгоритму, яким вони послуговуються, та утримуватися від питань, відповіді на які будуть однозначно хибними через упередження алгоритму. Використання моделей машинного навчання більше схоже на їзду на автомобілі, а не на ліфті. Щоб дістатися від точки A до точки B, користувачі не можуть просто натиснути кнопку; вони повинні спочатку дізнатись про робочі процедури, правила дорожнього руху та практику безпеки.

По-друге, фахівці з обробки даних, які розробляють алгоритми, повинні формувати зразки даних таким чином, щоб можливість виникнення упередження була мінімізована. Цей крок є важливою і складною частиною процесу. На даний момент зауважмо, що доступні історичні дані часто є недостатніми для цієї мети, а свіжі, об’єктивні дані повинні бути сформовані за допомогою контрольованого експерименту.

По-третє, керівники компаній повинні знати, коли використовувати, а коли не використовувати алгоритми машинного навчання. Вони повинні розуміти справжні цінності, пов’язані з компромісом: алгоритми пропонують швидкість і зручність, тоді як моделі, розроблені вручну (як от традиційні «дерева рішень» або логістична регресія), є більш гнучкими та прозорими.

Що у вашому чорному ящику?

Розгляньмо детальніше роль користувачів. З точки зору користувача, алгоритми машинного навчання – це чорні ящики. Вони пропонують швидкі та прості рішення для тих, хто знає мало чи взагалі нічого про те, що знаходиться всередині. Їх використовують на власний розсуд. Але розсуд повинен ґрунтуватися на знаннях. Бізнес-користувачі, які прагнуть уникнути шкідливих застосувань алгоритмів, дещо схожі на споживачів, які прагнуть їсти здорову їжу: таким споживачам необхідно вивчити літературу про харчування та читати етикетки, щоб уникнути надлишкових калорій, шкідливих добавок або небезпечних алергенів. Користувачі також повинні вивчати алгоритми, якими вони користуються у ході провадження своєї діяльності.

Наприклад, при оцінці кредитоспроможності вбудоване упередження стабільності перешкоджає алгоритмам машинного навчання враховувати певні швидкі поведінкові зміни заявників на отримання кредиту. Предметом, який часто стає ознакою ризику в цьому контексті, є строк кредитування. Клієнти з вищим ступенем ризику, як правило, віддають перевагу тривалішим за строками кредитам, зважаючи на можливі труднощі у поверненні коштів. Багато клієнтів з низьким рівнем ризику, навпаки, прагнуть мінімізувати витрати на відсотки, обираючи кредити з коротшим строком виплат. Алгоритм машинного навчання ухопиться за таку модель, надаючи заявкам на отримання кредиту з тривалішим строком вищу оцінку ризику. Однак, якщо клієнт, саме з метою уникнення отримання високої оцінки ризику, обере кредит з коротшим строком, а потім не зможе виконати свої зобов’язання через високу суму щомісячного платежу (через короткий строк кредиту), система не зможе відреагувати на таку поведінку, що спричинить зростання кредитних збитків.

Роль організацій-користувачів

Установа, що розглядає можливість використання алгоритму для вирішення бізнес-проблеми, повинна керуватися прагненням досягти компромісу у питанні витрат і переваг. При виборі алгоритмів машинного навчання варто звернути увагу на такі питання:

Як швидко нам потрібне рішення? Фактор часу часто має першорядне значення для вирішення бізнес-завдань. Оптимальна статистична модель може бути застарілою до моменту завершення. Коли ділове середовище швидко змінюється, алгоритм машинного навчання, розроблений протягом ночі, може значно перевершити традиційні моделі, на розробку яких витрачаються місяці. З цієї причини алгоритми машинного навчання є кращими для боротьби з шахрайством.

Яка наша аналітична картина? Робота алгоритмів залежить від даних. Якщо кількість вхідних даних недостатня, часто краще залучити консультанта, щоб допомогти організації розробити їх.

Які проблеми варто вирішити? Однією з обіцянок машинного навчання є те, що воно може вирішувати проблеми, які колись не визнавалися або вважалися занадто дорогими для вирішення за допомогою ручних моделей. Вирішуючи такі завдання, установи повинні визначити ті, що суттєво впливають на господарську діяльність, і залучити найкращих фахівців з обробки даних для їх вирішення.

Реалізація

Як компанія може реалізувати ці рекомендації? Критично важливими є такі аспекти:

Бізнес-стандарти для затвердження машинного навчання

Необхідно розробити шаблон для документації моделей, що стандартизує процес прийняття заявок на моделювання. Він повинен включати бізнес-контекст і швидкі запити з конкретними питаннями про бізнес-вплив, дані та компроміси щодо витрат і видатків. Такий процес передбачає активну участь користувачів для пошуку найбільш прийнятного рішення бізнес-проблеми (зверніть увагу, що пасивні контрольні списки або настанови, як правило, ігноруються). Необхідно визначити ключові параметри моделі, включно зі стандартним набором аналізів, які будуть виконуватися на вихідних даних, оброблений зразок та результати моделювання. Модель необхідно обговорити з бізнес-користувачами.

Професійна перевірка алгоритмів машинного навчання

Необхідний чіткий процес для перевірки та затвердження алгоритмів машинного навчання. Залежно від галузі та бізнес-контексту, особливо економічних наслідків помилок, він може бути не таким же жорстким, як формальна перевірка моделей ризиків банків, проте, процес повинен створити стандарти перевірки та постійну програму моніторингу нової моделі. Стандарти повинні враховувати характеристики моделей машинного навчання, наприклад, автоматичні оновлення алгоритму при появі нових даних. Якщо алгоритми оновлюються наприклад, щотижня, то процедури перевірки повинні бути завершені протягом кількох годин чи днів, а не тижнів чи місяців.

Культура постійного розвитку знань

Організації повинні інвестувати у розробку та поширення знань у галузі інформаційних технологій та бізнес-додатків. Необхідно постійно стежити за новими ідеями та найкращими практиками у галузі застосування машинного навчання, аби створити культуру покращення знань та з метою інформування про труднощі та переваги, які виникають при використанні таких програм.

БІЛЬШЕ ЦІКАВОГО:

Війна за шифр — чи зможе штучний інтелект прочитати стародавні тексти

Німецький автопром об’єднується із штучним інтелектом Facebook

Чи зможуть комп’ютери слухати, як люди?

Джерело: McKinsey and Company, переклад підготувала Ірина Гоял, спеціально для «Блог Imena.UA»