
А/В-тестирование — это хороший метод, чтобы понять, сработала гипотеза или нет. Поэтому у кейсов, где результаты подтверждены А/В-тестированием, больше кредит доверия. Бывает, что в кейсе не описывают методологию тестов и статические выкладки. Это может говорить о том, что автор пытается слишком вольно интерпретировать результаты теста.
Чек-лист хорошей статьи об A/B-тестах
Во время чтения любой статьи про А/В-тест мысленно проверьте ее по чек-листу. Если по итогу несколько пунктов не выполнено — это признак возможной манипуляции и некачественно проведенного исследования.
Итак, в хорошем исследовании:
1. Явно указан показатель, который измеряли в А/В-тесте
Разные показатели измеряются по-разному. Конверсию сравнить в двух группах — просто, средний чек и выручку — сложнее. Чем более явно в статье указано, что именно измеряли, тем больше ей доверия. Если речь идет о конверсии, указано из чего и куда эта конверсия.
2. Указан уровень доверия для каждого показателя, относительно которого делается вывод А/В-теста
Уровень доверия в результате — важнейший показатель теста; он показывает, на сколько мы можем доверять результату. Как правило, больше 95% — круто, больше 90% — достаточно. Если уровень доверия вообще не указан, возможно что-то не так.
Например, уровень доверия 95% говорит о том, что в 95% экспериментов (если бы мы делали не 1, а 1000 тестов) мы правильно обнаружим, что разница есть, соответственно в 5% случаях мы решим что разница есть, и ошибемся.
3. Если вариантов теста больше 2х, то они сравнены попарно
А/В-тесты с тремя и более вариантами — это правда сложно, с точки зрения организации и подведения итогов. Для таких тестов нужна большая выборка, и в результате каждый вариант должен быть сравнен с каждым — A c B, B c C, C c A в случае трех вариантов. Такие тесты могут позволить себе компании с очень большим трафиком.
4. Общий вывод статьи касается только проведенных А/В-тестов
Если в статье есть обобщения на основании небольшого количества тестов — скорее всего что-то приукрашено.
Как использовать чек-лист
А теперь на примерах разберем, как применять чек-лист (откройте любую аналитическую статью с А/В-тестами и сделайте то же самое).
Пример 1. “В магазине косметики письмо с блоком преимуществ в виде списка увеличивает click rate”
Описание
Уральский интернет-магазин косметики провел мультивариантный тест шаблона email для посетителей сайта за последний месяц:
- Вариант А: стандартный шаблон
- Вариант B: стандартный с добавлением блока преимуществ списком
- Вариант C: стандартный с добавлением блока преимуществ плиткой
- Вариант D: стандартный с добавлением блока преимуществ списком + кнопка
- Вариант E: стандартный с добавлением блока преимуществ плиткой + кнопка
Тест показал, что по показателю Click rate победил вариант D с уровнем доверия в 95%.
Общий вывод статьи — “теперь в нашем письме мы используем блок преимуществ списком и добавляем кнопку. Использовать мультивариантный тест оказалось очень удобно, т.к. можем сравнить сразу много вариантов”
Проверим чек-листом
1. Явно указан показатель, который измеряли в А/В-тесте — «+»
Показатель указан, это Click rate. В идеале, стоит еще указывать, каким образом рассчитывался показатель.
2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста — «+»
Уровень доверия обозначен, 95%.
3. Если вариантов теста больше 2х, то они сравнены попарно — «–»
Аналитики не описали, как сравнивали варианты между собой. Это вызывает первое сомнение в корректности теста. Действительно ли вариант Е настолько хорош, что оказался значимо лучше в сравнении со всеми остальными вариантами?
Есть и второе сомнение. Посмотрите, сколько человек потребуется для проведения А/В-теста с 2 вариантами и мультивариативного теста на 5 вариантов (рассчитано с помощью калькулятора А/В-тестов):


в 5 раз больше на каждый вариант!
Такие тесты могут позволить себе только компании с большим трафиком. Если вы подозреваете, что в кейсе описан не такой бизнес или выборка явна узкая, возможно исследование проведено неверно.
4. Общий вывод статьи касается только проведенных А/В-тестов — «+»
Общий вывод статьи касается только проведенного теста. Все в порядке.
Итог:
Несмотря на то, что 3 пункта чек-листа из 4 выполнены, корректность исследования вызывает сомнения. Выборка для теста кажется не очень большой (только посетители сайта за последний месяц для интернет-магазина косметики) — достаточна ли она для проведения теста или аналитик совершил распространенную ошибку при снятии результата теста? Также в статье нет попарного сравнения вариантов.
Пример 2. «Хиты продаж снижают выручку рассылок»
Описание
Мы провели тест email-рассылки Next best offer (следующее лучшее предложение покупки).
- Вариант А: отправили хиты продаж
- Вариант B: отправили персональные рекомендации
- Вариант С: письмо не отправлялось. Сегмент выступал в качестве контрольной группы.
Результаты:

Общий вывод статьи: «Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%. Вместе с небольшим снижением среднего чека, это дает увеличение выручки на 4%.
Использование блока рекомендаций “Хиты продаж” приводит к снижению выручки на 20%»
Проверим чек-листом
Давайте разберем этот пример. Казалось бы, все очевидно — персональные рекомендации приводят к увеличению выручки, хиты продаж выручку уменьшают.
Сильный вывод. Посмотрим, что говорит чек-лист.
1. Явно указан показатель, который измеряли в А/В-тесте — «+/-«
Из таблицы можно сделать вывод, что измеряли сразу 3 показателя: конверсию, средний чек и выручку. По вступлению не ясно, на основе какого из показателей будет делаться вывод кейса.
2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста — «–»
В данном примере можно выделить 3 вывода о показателях:
- Персональные рекомендации увеличивают конверсию на 30,9%Показатель: конверсия в заказыУровень доверия 95%
- Хиты продаж уменьшают выручку на 20%, средний чек на 10%, конверсию на 9,1%Показатель: выручка, конверсия, средний чекУровень доверия — не указан ни для одного показателя
- Персональные рекомендации увеличивают выручку на 4% — выручка измеряется гораздо сложнее чем конверсии, и часто значимой разницы выручки не видно. В примере значимость выручки никак не исследовалась.Показатель: выручкаУровень доверия — не указано
Итого, из трех выводов кейса верить можно только первому — “Персональные рекомендации увеличивают конверсию на 30,9% с уровнем доверия 95%”. Остальные два не имеют под собой достаточных оснований.
3. Если вариантов теста больше 2х, то они сравнены попарно — «–»
В тесте исследовалось целых 3 варианта — “Хиты продаж”, “Персональные рекомендации” и “Контрольная группа”. Однако, мы видим только сравнение варианта “Персональные рекомендации” с двумя другими:
“Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%”
Вариант с хитами продаж представляется как занижающий конверсию и выручку, хотя значимость по сравнению с контрольной группой не оценивается.
Давайте представим, что мы знаем размеры каждого сегмента и количество купивших клиентов в этом кейсе, а не только % прироста:

Проверим уровень доверия разницы в конверсии между вариантами (используем калькулятор A/B-тестов):

Оказывается, что варианты B (контрольная группа) и С (хиты продаж) могут значимо не различаться!
То есть, вывод “Хиты продаж уменьшают конверсию на 9,1%” не верен. Про выручку и средний чек не говорим, так как они не проверены на значимость в кейсе вовсе.
4. Общий вывод статьи касается только проведенных А/В-тестов — «+/–»
Субъективный пункт. В данном примере основным выводом можно считать тот, который в заголовке — “Хиты продаж снижают выручку от рассылок”
Такой вывод звучит очень обобщающе. Может сложиться впечатление, что такое происходит всегда, хотя приведен пример только одного теста, который содержит неточности.
Итог:
Вывод, который можно сделать из такого теста, — “Персональные рекомендации на 30,9% лучше конвертируют получателей письма в заказы, по сравнению с контрольной группой и “Хитами продаж”. Но если верить описанию теста, то напрашивается вывод, что рекомендации “Хиты продаж” занижают выручку, что не подтверждается.
Заключение
A/B-тесты — лучший из известных нам инструментов оценки эффективности маркетинговых механик. Их нужно делать как можно больше, проверять гипотезы и анализировать результаты. Но обратная сторона A/B-тестов — требования к соблюдению определенных правил и методологии, чтобы их результатам можно было доверять.
Наверное, любой аналитик или маркетолог хотя бы раз испытывал соблазн подогнать выводы теста под желаемый результат. Но мы призываем всех, и в первую очередь себя, быть честными и делать тесты прозрачно.
Надеемся, этот чек-лист позволит авторам статей улучшать качество материалов, а читателям более критично относиться к результатам и сделанным выводам.
Добавить комментарий