Как The Washington Post тестирует заголовки с помощью алгоритмов

В The Washington Post очень внимательно относятся к качеству контента для читателей — и потому используют достижения современных технологий для улучшения своего издания. Недавно редакция поделилась деталями своей работы с инструментом для поиска оптимального заголовка статьи.

Earns Washington Post

Хьюстон, у нас «Бандиты»

Программу Bandito создали в подразделении The Washington Post, её работа основана на системе случайного подбора составляющих одного целого, названной «многорукий бандит» (multi-armed bandit, MAB) — по аналогии с игровыми автоматами, в которых применяется схожий принцип и которые известны, как «однорукие бандиты».

Чтобы понять систему работы «многорукого бандита» следует разобраться, как работают их «однорукие» коллеги — и как следует с ними играть. Представьте себе стоящие в ряд автоматы с единственным рычагом (той самой «рукой»), которые намерены отобрать у игрока его деньги. Он, в свою очередь, всё это время пытается не только сохранить средства, но и приумножить их. Каждый «однорукий бандит» имеет запрограммированное неназванное количество выигрышей. Так как у игрока ограниченное количество денег, правильнее всего будет сыграть несколько раундов на всех автоматах и попытаться оценить вероятность выигрыша на всех машинах. Этот цикл игры на всех автоматах (с целью определить наиболее подходящий для скорой победы) называется «исследование». После изучения ставок на всех автоматах игрок переходит к циклу «эксплуатация» — он переключается на игру с одним «бандитом», с которым шансы на победу максимальные, если верить результатам «исследования».

В свою очередь, работа MAB-алгоритма построена таким образом, чтобы установить баланс между циклами исследования и эксплуатации с максимальным увеличением определённого заданного критерия. Такой образец хорошо сочетается с тестированием контента, особенно для оптимизации сайтов.

Преимущества MAB-тестов

image1_jessica_027600487

Алгоритм MAB подходит для запуска быстрых веб-тестов с множественными вариациями, чтобы выявить лучшую возможную комбинацию. Один тест может иметь много разных вариантов, каждый из которых — та самая «рука бандита». На первом этапе система запускает в работу все варианты и мониторит отклики пользователей. По количеству кликов, скачиваний и прочих фидбэков на одну «руку» высчитывается степень вовлечения аудитории. Этот показатель отслеживается в режиме реального времени и позволяет вычислить ту вариацию, которая вызывает наибольший отклик у пользователей. Когда система MAB чётко зафиксирует явное преимущество определённой вариации — она замещает все другие варианты самой успешной «рукой». Весь процесс полностью автоматизирован, если только нет дополнительных сопутствующих задач, выполнение которых должен контролировать оператор.

В отличие от популярной технологии проведения A/B тестов, MAB-алгоритмы позволяют в процессе тестирования добавлять новые вариации и удалять старые, явно проигравшие версии, без необходимости останавливать всю программу и запускать её заново. В традиционной схеме A/B-тестирования такие манипуляции невозможны. Может, стоит вообще отказаться от A/B-алгоритма? Для начала, прочитайте наш материал: «Почему A/B-тестирование — не панацея».

Благодаря гибкой системе, MAB подходит для тестирования названий материалов и миниатюр фото или видео к ним, для отбора рекомендаций новых и популярных статей на сайте и т.д.

ПОЛЕЗНОЕ НА ТЕМУ КОНТЕНТ-МАРКЕТИНГА:

8 уроков The Panama Papers для контент-проектов

30 вопросов к авторам статей и колонок для вашего блога

75 инструментов для контент-маркетолога на каждый день

Как выглядит алгоритм «изнутри»

В издании назвали свой вариант «бандитской» технологии Upper Confidence Bound (UCB), выделяют два главных его преимущества. Во-первых, он гарантирует, что все вариации, даже добавленные в процессе тестирования позже, будут показаны на сайте равное количество раз с одинаковыми возможностями вызвать реакцию аудитории. Во-вторых — в UCB нет заранее оговоренного лимита трафика, как в других системах. Там определённый процесс трафика выделяется под цикл «исследования», а остальной направляется на поддержку «эксплуатации» вариантов. Зато в UCB можно отдельно фиксировать, сколько раз пользователи взаимодействовали с каждым вариантом по отдельности — и сколько раз было взаимодействие с лучшей из вариаций.

Работа алгоритма показана на примере, где «ucb score» обозначает тот вариант, который показывали пользователям в любой момент на протяжении всего тестирования. Он состоит из двух компонентов — «reward» и «bonus»:

BONUS:
total_disp : The sum of the number of times all variants in a test have been displayed.
disp[variant] : The total number of times a particular variant of a test has been displayed.

bonus[variant] = sqrt( (2 * log(total_disp)) / disp[variant])

REWARD:
n : Number of times variant has been served
reward : 1.0 (this is usually kept constant through the experiment for all variants in most traditional MAB experiments)
reward[variant] : Represents the running click through rate of a variant in a test.
reward[variant] = (((n – 1)/n)*reward[variant]) + ((1/n)*reward)

UCB Value:

ucb_score[variant] = reward[variant] + bonus[variant]

UCB высчитывает показатель ucb_score для каждого варианта в тесте — и отображает один, с наилучшим ucb_score, в любой момент теста по всем направлениям трафика, связанного с данным тестом.

Показатель ucb_score объединяет данные по двум параметрам (где «reward» — это рейтинг вариации в зависимости от количества активных кликов, а «bonus» — оценка валидности клика самим алгоритмом, в зависимости от его рейтинга данной «руки»). Количество вариантов постепенно сокращается, потому как система отсеивает самые низкие ucb_score и заменяет их более успешными, пока не останется единственная версия.

«Бандиты» в деле

image1_pb

Работа «бандита» с текстами редакции показана на схеме выше. Как только редактор добавляет новый материал в конструктор веб-страницы PageBuilder и публикует её, алгоритм по умолчанию запускает тест с новым вариантом и ещё одним, заданным по умолчанию. Публикация приводит к изменениям на сайте в онлайн. Программа начинает фиксировать всю пользовательскую активность, связанную с тестируемым материалом на сайте. Для начала, алгоритм сравнивает вовлечение читателей в новый вариант контента и в тот, что был задан по умолчанию. В любой момент времени технология может подставить тот вариант, который вызвал больше активности среди пользователей и у которого выше показатель ucb_score.

Редакция поэкспериментировала с несколькими разными заголовками на стартовой странице The Washington Post. Для теста создали 2 разных заголовка, а третий вариант специально добавили уже в процессе тестирования. В тексте речь идёт об эксперте Мари Кондо (Marie Kondo) и о том, почему её советы и организационные навыки не подходят современным родителям

Вариант №1 — 3,3%

Вариант №2 — 3,9%

Через час после публикации статьи и тестирования двух вариантов названия, редакция добавила третий вариант заголовка, которому алгоритм обеспечивает равное присутствие на сайте, несмотря на время публикации:

Вариант №3 — 4,8%

Оказалось, что позже добавленный вариант названия повысил вовлечённость читателей. Таким образом, алгоритм UCB подтверждает важность оптимизации контента для сайта, а также необходимость собирать данные и фиксировать фидбэки пользователей в режиме реального времени. Всё это стало возможным с внедрением «многорукого бандита».

ДРУГИЕ ИНТЕРЕСНЫЕ МАТЕРИАЛЫ О КОНТЕНТЕ:

Как снек-культура меняет медиа в интернете

5 онлайн-сервисов, чтобы читать по-новому

Поп-культура в эпоху интернета — эволюция или революция?

Большие планы

Как упоминалось выше, гибкость и многозадачность алгоритма позволяет использовать его для тестирования любых компонентов: заголовков, изображений к статьям, рекламных баннеров и прочих важных составляющих таких изданий, как WashingtonPost.com. В ближайшем будущем разработчики планируют приспособить UCB под тестирование позиции текста на интернет-странице.

Среди возможных обновлений: добавление истории пользовательского взаимодействия с сайтом в перечень данных, которые обрабатывает UCB; определение его местонахождения и анкетных данных для выявления закономерностей в потреблении контента и пр. Также алгоритмы тестирования можно будет связать с аналитикой социальных сетей, корпоративным сегментом и прочими базами данных.

Источник: The Washington Post