Чому A/B-тестування — не панацея, і що потрібно знати про такі тести розробникам

Сьогодні всі продакт-менеджери знають про A/B тестування, а от чого вони не хочуть визнавати — так це того, що переважна більшість таких тестів не має ніякої практичної користі. Вони досліджують непотрібні показники, видають непереконливі результати і ніяк не впливають на робочий процес в команді, вважають у компанії Mixpanel.

Звичайно, є тестування з відповідним змістовним навантаженням та практичними результатами. Про них всі знають, на основі таких тестів пишуть огляди та аналітичні статті, складають цілі курси для майбутніх тестувальників. Проте за яскравими історіями успіху ховається непримітний «ліс» із провалених тестувань, яких значно більше. Аналіз цих кампаній може допомогти вам у розумінні того, навіщо взагалі проводити A/B-тестування.

Спочатку — трохи статистики

Як свідчать дані компанії AppSumo, лише 1 з 8 тестів видає продуктивний результат. Дослідження від Kaiser Fung свідчать, що від 80% до 90% їхніх A/B-тестів демонструють статистично незначимі показники, які неможливо використати на практиці у подальшій роботі.

Але нові й нові команди тестувальників запускають A/B-тести для програм і розраховують швидко та легко отримати бажаний результат. Сповнені рішучого оптимізму, вони проводять кілька тестів, щоби моментально визначити кращий колір для текстового блоку, оптимальне розміщення кнопки чи дизайн кошика замовлень на сайті (адже це допоможе збільшити продажі на сайті в декілька разів, упевнені вони).

Однак після запуску тестів для додатку чи сайту на них чекає сувора реальність: результати неточні та узагальнені, під час проведення тестування не було виявлено жодного справді важливого для оптимізації сайту показника. Команда здивована та розчарована: де ж обіцяне покращення?

Все аж так погано?

Не варто одразу повністю відмовлятись від тестувань. Як було сказано вище, кожні 7 тестів з кожної вісімки невдалі та ні на що не придатні, але про це мало хто говорить. Перед запуском A/B-тестів слід детальніше ознайомитись зі статистикою та засвоїти, що більшість тестів таки виявляються проваленими. Але не менш важливо пам’ятати, що той 8-й, чи радше — перший і єдиний корисний — тест надасть розробникам потрібну інформацію.

Насправді співвідношення успішності тестів 1 до 8 не таке вже й погане, однак незадовільний результат майже завжди стає несподіванкою для замовників. Мало хто з фахівців присвячує свій час написанню статті про те, як він займався A/B тестами, що не принесли користі. Та факти річ уперта: більшість тестів видають настільки незначний статистичний результат, що його не можна застосовувати для побудови висновків. Одразу ж виникає питання: як можна покращити систему тестів, щоб виявити закономірності для диференціації тих самих A і B?

Експеримент із монеткою

Уявіть, що є монета A і монета B, ви підкинули їх обидві в гору по 20 разів і перша впала цифрою догори 12 разів, а друга — 9 разів. Це ж не дає вам приводу заявляти, що ви знайшли монету, яка на 33% якісніше падає гербом донизу, правильно? Тому що всі розуміють: приземлення цілковито залежить від випадку. Результати ваших маніпуляцій з монетами не можна вважати статистично достовірними.

А потім ви вирішили ще трохи побавитись з дрібними грошима — і підкинули монети не по 20, а по 200 разів. Цього разу монета А показала вам цифру догори 120 разів, а монета В — 90. Тепер у порівнянні з першою серією підкидань ми помічаємо певну закономірність. Але ж ми напевне знаємо, що у випадку з монетами така ситуація просто неможлива: на 200 підкидань не випаде однакова кількість приземлень певною стороною (наші уявні 120 та 90 разів), що дасть нам право на побудову певного висновку. Тому весь цей приклад може здатись безглуздим, однак він як раз і демонструє проблему, що виникає у більшості A/B-тестів.

Ми витрачаємо безліч часу на віртуальне підкидання монетки, пересуваємо по інтерфейсу кнопку, змінюємо колір — і врешті отримуємо стос звітів з даними про такі мізерні статистичні зміни, що навіть друкувати про них цей абзац видається марною справою. Витрачено час, гроші, загублено натхнення та робочий настрій. І навряд чи в цьому винна та сама кнопка на сайті.

До речі, тест кольору кнопки покупки на сайті є своєрідним вступним словом до всього процесу A/B-тестів. Простий приклад, який чудово демонструє суть і часто використовується в навчальному процесі. Для тестів беруть дві веб-сторінки, на одній з яких кнопка покупки має червоний колір, а на іншій — зелений. Більше ніяких розбіжностей між елементами сайту немає. Завдання: виявити, яка з кнопок отримує більшу конверсію від покупців.

Деякі компанії справді отримували корисні для їхнього бізнесу результати тестування кольору кнопки, однак для більшості тест закінчується провально. Хоч він і чудово демонструє роботу A/B-тестування в теорії, на практиці рідко буває достатньо інформативним. Тестувальники продовжують вперто проводити численні A/B-тести, — бо це просте рішення (на перший погляд).

Перевірка гіпотез на практиці

Редакція блогу Mixpanel вирішила й собі провести експеримент з власними читачами. Підписникам порталу було відправлено чергову розсилку новин з двома варіантами назви листа: «Чому мобільному додатку замало 15 млн користувачів» та «Mixpanel — Чому мобільному додатку замало 15 млн користувачів». Зробили вони це, бо редактор прочитав в інтернеті, що назва компанії на початку тексту збільшує зацікавленість читачів.

Сотні тисяч користувачів отримали один з двох електронних листів — і редакція почала відстежувати переходи за посиланням та кількість переглядів матеріалу. Результат якнайкращим чином продемонстрував поняття «статистично недостатній»: листи з назвою Mixpanel мали показник переходів 22,75%, а послання без назви видання — 22,73%. Різниця становить 0,02%. Серед сотень тисяч відправлень тестова різниця склала близько 20 переглядів. Редакція, фактично, марно підкидала монетку і рахувала «цифри» і «герби».

Що треба змінити у ваших А/В-тестах

Як зробити подібні тестування більш ефективними та інформативними? Можливо, варто було змінити назву статті на більш категоричну? Можливо, провести ще кілька розсилок, щоби зібрати додаткові звіти? Насправді, тест провалився через непродуманість та відсутність стратегії. Кожен окремий тест, щоб досягти кращого результату, повинен бути частиною глобальної концепції. Так, змінити одне слово в назві розсилки було легко і просто, але і результати тесту виявились занадто легкими — і не принесли користі бізнесу.

В A/B-тестуванні, — як і в інших галузях професійної діяльності, — щоб досягти результату потрібно докласти певних зусиль. Одні тестувальники вигадують різні шляхи взаємодії користувача з веб-сторінкою і визначають найбільш ефективний з них. Інші — переписують заклик до дії та експериментують з ілюстраціями на сайті, знаходячи нові формати інтерфейсу. Обидва процеси вимагають прискіпливої сумлінної роботи, зате гарантують продуктивну A/B перевірку.

Наприклад, команда одного онлайн-магазину проводила тестування різних оновлень як інтерфейсу, так і функціональної складової. В численних A/B тестах вони не знайшли жодної характеристики, яка би суттєво вплинула на користувацьку аудиторію. Однак в процесі вони побачили кореляцію зміни окремих налаштувань і віднайшли комбінацію, яка найбільш успішно привертала увагу аудиторії. В результаті зміна яскравості фону сайту та скорочення кількості дій користувача підвищили конверсію з 55% до 76%.

Розробляючи тести, команда прагнула виявити значимі для користувача характеристики магазину: ті функції, які він використовує найчастіше. Тестувальники не мали завдання провести якомога більшу кількість перевірок, в той же час, провели їх достатньо, щоб верифікувати висновки.

Всі наведені вище приклади зайвий раз доводять: до будь-якого процесу слід ретельно готуватись, навіть якщо викладач на курсах з тестування так переконливо розповідав про тест кольору кнопок. Краще витратити свій час на підготовку ефективної стратегії A/B-тестування, ніж на «порожні» тести без користі для проекту.

Джерело: Mixpanel