Как получить достоверные цифры при AB-тестировании. Пошаговый план

Как получить достоверные цифры при AB-тестировании. Пошаговый план

Шаг 1. Выдвинуть гипотезу

Улучшить в email-рассылках можно что угодно. Главное правило: тестировать одну идею за раз. Например, как повлияет на конверсию замена одного слова в теме письма. Можно тестировать и полностью дизайн письма. Тогда и выводы в конце нужно будет делать обо всем дизайне, а не о каком-то конкретном элементе.

Как правильно выдвинуть гипотезу

Старую версию назовем вариантом А, идею — вариантом В. Гипотеза звучит просто: «вариант В работает лучше варианта А».

Что тестируем: Гипотеза

Слово в теме письма: Слово «приз» привлекательнее для клиента, чем слово «подарок»

Другой шаблон письма:В email-поздравлении с 8 марта картинки брутальных качков привлекательнее для женщин, чем изображения цветов

Гипотезу пишем один раз и не меняем до конца теста. После эксперимента используем как вывод: вариант В работает лучше или хуже варианта А.

Вести историю эксперимента от появления идеи до результата полезно и можно делать в любом формате, например, в Google Excel таблице.

Шаг 2. Определить целевой показатель

Гипотеза описана словами, но для измерения нужен числовой показатель. E-commerce компании проводят тесты ради роста прибыли или конверсии, но измерить ее сложно. Например, цикл продажи длинный, и переход из письма на сайт не приводит к покупке сразу. Тогда ищем показатель, наиболее близкий к целевому, например, Open Rate и Click Rate.

Изначально выбрать правильную цель — важно. Ниже приводим пример теста тем email-сообщений клиента из fashion. Вариант А звучал так: «Узнайте, как сделать идеальные брови и выбрать блеск для губ». В варианте В добавили интригу: «Представляем вам новую „вкусную“ линейку от;L’Oreal Paris».

В результате получили статистически значимый рост в открытиях писем. А вот переходы на сайт по клику из письма упали. Оба показателя посчитаны от количества доставленных сообщений.

В варианте B привлекли больше клиентов, но не целевых. Люди открывали письмо, а содержание не соответствовало ожиданиям. Правильная метрика для этого теста — Click Rate.

Целевой показатель нужен для измерения результатов по окончанию теста.

Шаг 3. Рассчитать размер выборки

Размер выборки — это количество людей, которые должны поучаствовать в эксперименте. Цифра рассчитывается с помощью калькулятора АВ-тестов один раз, до запуска исследования.

Разберем на примере:

Триггер отправляет email клиентам сразу после регистрации на сайте. Маркетолог решил протестировать тему сообщения и измерить результат по Open Rate. Вариант А — старая тема, вариант В — новая.

Для расчета размера выборки используем калькулятор Mindbox.

Выбираем нужный показатель — Open Rate. Количество вариантов — 2. Дальше предположим, каким будет Open Rate вариантов А и В во время теста.

«Средний Open Rate по истории» — показатель «старого» варианта, его легко посчитать на исторических данных. Например, средний Open Rate письма А за последний месяц составил 20%.

Ожидаем, что у нового варианта В Open Rate будет выше, но пока не ясно насколько. Поэтому предположим минимальный рост, ради которого тест стоит проводить. Например, доказывать разницу между 21% и 20% — неинтересно, она слишком маленькая и слабо повлияет на бизнес. Если по итогу теста варианты покажут такие цифры, будем считать разницу случайной.

Если же Open Rate варианта В окажется 23% или больше, хотим доказать, что разница обусловлена сменой темы. «Ожидаемый прирост Open Rate» в калькуляторе — это абсолютная разница между 23% и 20%, т.е. 3%.

Чем больше разница, тем проще ее доказать — для теста нужно меньше людей и времени. Поэтому нет смысла занижать «минимальный прирост», если в этом нет необходимости.

Если исторических данных нет, подойдет любой другой способ прогнозирования Open Rate. Предполагаем значения для варианта А и В: более низкую цифру укажем в графе «средний Open Rate по истории», разницу между вариантами в поле «минимальный ожидаемый прирост».

Часто в калькуляторах встречаются еще два параметра: достоверность (или уровень значимости, который рассчитывается как 100%-достоверность) и мощность.

Если упростить, достоверность — это процент уверенности в результате, если тест покажет разницу между вариантами. Хорошая достоверность — 95%, но 90% тоже допустима. Такая настройка теста позволит говорить по окончанию: «Я на 95% уверен, что разница между вариантами есть».
Мощность — процент уверенности в результате, если тест покажет, что разницы между вариантами нет.

Если вы не знаете, какой процент показателей стоит указать, оставьте значения по умолчанию.

После ввода всех параметров вы получите результат: 10 220 человек на каждый вариант. Полученное число показывает, сколько людей должны увидеть каждый вариант, чтобы можно было доверять результату. Расчет размера выборки до запуска теста — гарантия избежать одной из ошибок:

выключить тест слишком рано, как только расчеты показали, что есть статистическая разница между откликами;
обратное: продолжить тестирование, когда нужный размер выборки уже набран, а ожидаемой разницы в откликах нет. В такие моменты кажется, что еще чуть-чуть, и разница станет значимой, но доверие к таким данным постепенно снижается.

На третьем шаге рассчитываем количество людей для теста. Отключать тест будем после достижения нужного количества людей и только по этой причине.

Шаг 4. Запустить тест

Запуск зависит от технического решения. Обязательное условие: делить людей на группы случайным образом. Это гарантирует, что в группах люди одинаковы, и их отличает только вариант полученного email. Самостоятельно контролировать параметры — неправильно, только рандомизатор справится с этой задачей.

Для чистоты исследования можно заранее провести АА-тест. Это будет полезно для проверки качества рандомизатора, если он вызывает вопросы, или при переходе на новый инструмент. Проверять однородность аудитории перед каждым запуском нет смысла.

Четвертый шаг— запуск теста с помощью инструмента, который разделит аудиторию случайным образом.

Шаг 5. Снять результат

Тест завершается, когда наберется нужный размер выборки. Людей недостаточно? Продолжайте тест. Разница между вариантами не обнаружена и хочется подержать тест подольше? Завершайте эксперимент и фиксируйте результат.

После окончания теста не спешите с выводами. Реальные Open Rate скорее всего не совпали с прогнозом, значит, уверенности в результате нет. Представьте, вы прогнозировали Open Rate 20% для варианта А, а он показал 23%. Вы ожидали, что Open Rate варианта В вырастет на 3%, а он вырос на 2.5%. Есть ли в этом случае разница?Это нужно проверить на вкладке «Итоги тестирования» калькулятора AB-тестов.

Для проверки укажем количество вариантов и Open Rate каждого из них: сколько людей открыли письмо из тех, кому оно было доставлено. Достоверность планировали 95%. Вывод теста: мы на 95% уверены, что разница между вариантами есть, и вариант В лучше варианта А.

Поздравляем. Исследование завершено, победитель выявлен, и можно применять лучший вариант на 100% аудитории.

Честный АВ-тест состоит из 5 шагов:

Выдвинуть гипотезу.
Определить целевой показатель для измерения результата.
Рассчитать размер выборки с помощью калькулятора.
Запустить тест (клиенты должны попадать в группы рандомно).
Выключить тест строго после набора нужного количества людей и проверить результат тестирования.

Источник: mindbox.ru

proCRMmarketing

Как получить достоверные цифры при AB-тестировании. Пошаговый план

Шаг 1. Выдвинуть гипотезу

Как правильно выдвинуть гипотезу

Шаг 2. Определить целевой показатель

Шаг 3. Рассчитать размер выборки

Шаг 4. Запустить тест

Шаг 5. Снять результат

Честный АВ-тест состоит из 5 шагов:

Понравилось это:

Похожее

Оставьте первый комментарий

Добавить комментарий Отменить ответ

Шаг 1. Выдвинуть гипотезу

Как правильно выдвинуть гипотезу

Шаг 2. Определить целевой показатель

Шаг 3. Рассчитать размер выборки

Шаг 4. Запустить тест

Шаг 5. Снять результат

Честный АВ-тест состоит из 5 шагов:

Share this:

Понравилось это:

Похожее

Оставьте первый комментарий

Добавить комментарий Отменить ответ