Не всем A/B-тестам можно доверять: чек-лист проверки с примерами

А/В-тестирование — это хороший метод, чтобы понять, сработала гипотеза или нет. Поэтому у кейсов, где результаты подтверждены А/В-тестированием, больше кредит доверия. Бывает, что в кейсе не описывают методологию тестов и статические выкладки. Это может говорить о том, что автор пытается слишком вольно интерпретировать результаты теста.

Чек-лист хорошей статьи об A/B-тестах

Во время чтения любой статьи про А/В-тест мысленно проверьте ее по чек-листу. Если по итогу несколько пунктов не выполнено — это признак возможной манипуляции и некачественно проведенного исследования.

Итак, в хорошем исследовании:

1. Явно указан показатель, который измеряли в А/В-тесте

Разные показатели измеряются по-разному. Конверсию сравнить в двух группах — просто, средний чек и выручку — сложнее. Чем более явно в статье указано, что именно измеряли, тем больше ей доверия. Если речь идет о конверсии, указано из чего и куда эта конверсия.

2. Указан уровень доверия для каждого показателя, относительно которого делается вывод А/В-теста

Уровень доверия в результате — важнейший показатель теста; он показывает, на сколько мы можем доверять результату. Как правило, больше 95% — круто, больше 90% — достаточно. Если уровень доверия вообще не указан, возможно что-то не так.

Например, уровень доверия 95% говорит о том, что в 95% экспериментов (если бы мы делали не 1, а 1000 тестов) мы правильно обнаружим, что разница есть, соответственно в 5% случаях мы решим что разница есть, и ошибемся.

3. Если вариантов теста больше 2х, то они сравнены попарно

А/В-тесты с тремя и более вариантами — это правда сложно, с точки зрения организации и подведения итогов. Для таких тестов нужна большая выборка, и в результате каждый вариант должен быть сравнен с каждым — A c B, B c C, C c A в случае трех вариантов. Такие тесты могут позволить себе компании с очень большим трафиком.

4. Общий вывод статьи касается только проведенных А/В-тестов

Если в статье есть обобщения на основании небольшого количества тестов — скорее всего что-то приукрашено.

Как использовать чек-лист

А теперь на примерах разберем, как применять чек-лист (откройте любую аналитическую статью с А/В-тестами и сделайте то же самое).

Пример 1. “В магазине косметики письмо с блоком преимуществ в виде списка увеличивает click rate”

Описание

Уральский интернет-магазин косметики провел мультивариантный тест шаблона email для посетителей сайта за последний месяц:

  • Вариант А: стандартный шаблон
  • Вариант B: стандартный с добавлением блока преимуществ списком
  • Вариант C: стандартный с добавлением блока преимуществ плиткой
  • Вариант D: стандартный с добавлением блока преимуществ списком + кнопка
  • Вариант E: стандартный с добавлением блока преимуществ плиткой + кнопка

Тест показал, что по показателю Click rate победил вариант D с уровнем доверия в 95%.

Общий вывод статьи — “теперь в нашем письме мы используем блок преимуществ списком и добавляем кнопку. Использовать мультивариантный тест оказалось очень удобно, т.к. можем сравнить сразу много вариантов”

Проверим чек-листом

1. Явно указан показатель, который измеряли в А/В-тесте — «+»

Показатель указан, это Click rate. В идеале, стоит еще указывать, каким образом рассчитывался показатель.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста — «+»

Уровень доверия обозначен, 95%.

3. Если вариантов теста больше 2х, то они сравнены попарно — «–»

Аналитики не описали, как сравнивали варианты между собой. Это вызывает первое сомнение в корректности теста. Действительно ли вариант Е настолько хорош, что оказался значимо лучше в сравнении со всеми остальными вариантами?

Есть и второе сомнение. Посмотрите, сколько человек потребуется для проведения А/В-теста с 2 вариантами и мультивариативного теста на 5 вариантов (рассчитано с помощью калькулятора А/В-тестов):

в 5 раз больше на каждый вариант!

Такие тесты могут позволить себе только компании с большим трафиком. Если вы подозреваете, что в кейсе описан не такой бизнес или выборка явна узкая, возможно исследование проведено неверно.

4. Общий вывод статьи касается только проведенных А/В-тестов — «+»

Общий вывод статьи касается только проведенного теста. Все в порядке.

Итог:

Несмотря на то, что 3 пункта чек-листа из 4 выполнены, корректность исследования вызывает сомнения. Выборка для теста кажется не очень большой (только посетители сайта за последний месяц для интернет-магазина косметики) — достаточна ли она для проведения теста или аналитик совершил распространенную ошибку при снятии результата теста? Также в статье нет попарного сравнения вариантов.

Пример 2. «Хиты продаж снижают выручку рассылок»

Описание

Мы провели тест email-рассылки Next best offer (следующее лучшее предложение покупки).

  • Вариант А: отправили хиты продаж
  • Вариант B: отправили персональные рекомендации
  • Вариант С: письмо не отправлялось. Сегмент выступал в качестве контрольной группы.

Результаты:

Общий вывод статьи: «Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%. Вместе с небольшим снижением среднего чека, это дает увеличение выручки на 4%.

Использование блока рекомендаций “Хиты продаж” приводит к снижению выручки на 20%»

Проверим чек-листом

Давайте разберем этот пример. Казалось бы, все очевидно — персональные рекомендации приводят к увеличению выручки, хиты продаж выручку уменьшают.

Сильный вывод. Посмотрим, что говорит чек-лист.

1. Явно указан показатель, который измеряли в А/В-тесте — «+/-«

Из таблицы можно сделать вывод, что измеряли сразу 3 показателя: конверсию, средний чек и выручку. По вступлению не ясно, на основе какого из показателей будет делаться вывод кейса.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста — «–»

В данном примере можно выделить 3 вывода о показателях:

  1. Персональные рекомендации увеличивают конверсию на 30,9%Показатель: конверсия в заказыУровень доверия 95%
  2. Хиты продаж уменьшают выручку на 20%, средний чек на 10%, конверсию на 9,1%Показатель: выручка, конверсия, средний чекУровень доверия — не указан ни для одного показателя
  3. Персональные рекомендации увеличивают выручку на 4% — выручка измеряется гораздо сложнее чем конверсии, и часто значимой разницы выручки не видно. В примере значимость выручки никак не исследовалась.Показатель: выручкаУровень доверия — не указано

Итого, из трех выводов кейса верить можно только первому — “Персональные рекомендации увеличивают конверсию на 30,9% с уровнем доверия 95%”. Остальные два не имеют под собой достаточных оснований.

3. Если вариантов теста больше 2х, то они сравнены попарно — «–»

В тесте исследовалось целых 3 варианта — “Хиты продаж”, “Персональные рекомендации” и “Контрольная группа”. Однако, мы видим только сравнение варианта “Персональные рекомендации” с двумя другими:

“Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%”

Вариант с хитами продаж представляется как занижающий конверсию и выручку, хотя значимость по сравнению с контрольной группой не оценивается.

Давайте представим, что мы знаем размеры каждого сегмента и количество купивших клиентов в этом кейсе, а не только % прироста:

Проверим уровень доверия разницы в конверсии между вариантами (используем калькулятор A/B-тестов):

Оказывается, что варианты B (контрольная группа) и С (хиты продаж) могут значимо не различаться!

То есть, вывод “Хиты продаж уменьшают конверсию на 9,1%” не верен. Про выручку и средний чек не говорим, так как они не проверены на значимость в кейсе вовсе.

4. Общий вывод статьи касается только проведенных А/В-тестов — «+/–»

Субъективный пункт. В данном примере основным выводом можно считать тот, который в заголовке — “Хиты продаж снижают выручку от рассылок”

Такой вывод звучит очень обобщающе. Может сложиться впечатление, что такое происходит всегда, хотя приведен пример только одного теста, который содержит неточности.

Итог:

Вывод, который можно сделать из такого теста, — “Персональные рекомендации на 30,9% лучше конвертируют получателей письма в заказы, по сравнению с контрольной группой и “Хитами продаж”. Но если верить описанию теста, то напрашивается вывод, что рекомендации “Хиты продаж” занижают выручку, что не подтверждается.

Заключение

A/B-тесты — лучший из известных нам инструментов оценки эффективности маркетинговых механик. Их нужно делать как можно больше, проверять гипотезы и анализировать результаты. Но обратная сторона A/B-тестов — требования к соблюдению определенных правил и методологии, чтобы их результатам можно было доверять.

Наверное, любой аналитик или маркетолог хотя бы раз испытывал соблазн подогнать выводы теста под желаемый результат. Но мы призываем всех, и в первую очередь себя, быть честными и делать тесты прозрачно.

Надеемся, этот чек-лист позволит авторам статей улучшать качество материалов, а читателям более критично относиться к результатам и сделанным выводам.

Источник

Оставьте первый комментарий

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.