Ваш A/B-тест показал +10%. Шанс, что это ложноположительный результат — 38%. Здравствуйте, статистика
В марте 2026 года команда Google Research опубликовала разбор 47 тысяч экспериментов из своих продуктов. Вывод: треть «успешных» тестов при повторном запуске давала нулевой или отрицательный эффект. Не погрешность. Системная ошибка.
Мы привыкли верить цифрам из Optimizely или VWO. Нажимаем «запустить», ждем p-value < 0.05, рапортуем о победе. Так устроена индустрия на миллиарды долларов. И так же она регулярно проваливается, выкатывая «улучшения», которые съедают конверсию.
Менеджеры любят говорить «тест показал». Тест не показывает. Тест предлагает вероятностную оценку в рамках десятка упрощающих допущений. Игнорировать эти допущения — гарантированно принимать неверные решения.
Ошибка 1: Подглядывание (Peeking) — наркотик для продукт-менеджеров
Самая соблазнительная ловушка. Запустили тест, через день заглянули — о, зеленая полоска! p-value 0.03! Останавливаем, выкатываем. Поздравляем, вы только что увеличили вероятность ложного открытия с 5% до 22%.
В 2025 году Microsoft провели симуляцию: если проверять результат теста каждый день, то при истинном эффекте 0% в 29% случаев вы хотя бы раз увидите «значимость» за 14 дней. Ваш мозг хочет быстрых ответов. Статистика требует терпения.
Ошибка 2: Множественные сравнения — когда тестируешь 20 кнопок, одна точно станет зеленой
Тестируете не одну гипотезу, а сразу десяток вариаций (A/B/C/D/E...). Или смотрите на 15 метрик. Каждая проверка — отдельный шанс найти случайную значимость. Это проблема family-wise error rate (FWER).
Простой пример: бросьте игральный кубик 20 раз. Вероятность, что хотя бы раз выпадет шестерка — 99.4%. Не потому что кубик волшебный. Потому что вы много раз бросили.
| Количество независимых проверок | Вероятность хотя бы одного ложного открытия (при alpha=0.05) |
|---|---|
| 1 | 5% |
| 5 | 22.6% |
| 10 | 40.1% |
| 20 | 64.2% |
Коррекция Бонферрони или Холма — must have в 2026. Или планируйте тесты как многоуровневые (hierarchical testing), где вариации группируются по смыслу. Как в случае с сетевыми эффектами на маркетплейсах, где один тест ломает метрики соседей.
Ошибка 3: Фетишизация p-value и игнорирование размера эффекта
p-value = 0.049. Ура! Но какой прирост? 0.1%? При мощности теста 80% и размере выборки в миллион пользователей вы почти гарантированно найдете статистически значимую разницу. Даже если она никому не нужна.
Погоня за значимостью вместо смысла — бич крупных компаний. Тест «успешен», но бизнес-эффект — ноль. Решение: заранее определяйте минимальный интересующий эффект (Minimum Detectable Effect - MDE). И смотрите на доверительные интервалы. Разница 2% ± 5% — это не результат. Это шум.
Ошибка 4: Слепая вера в частотную статистику, когда нужен Байес
Частотный подход (классические A/B-тесты) отвечает на вопрос: «Если бы эффекта не было, какова вероятность увидеть такие данные?». Байесовский подход: «Учитывая увиденные данные, какова вероятность, что вариант B лучше A?».
К 2026 году байесовские методы перестали быть академической экзотикой. Пакеты like `bayesAB` в Python или нативные функции в платформах тестирования позволяют получить прямую вероятность превосходства. «Вариант B лучше с вероятностью 92%» — менеджеры понимают это интуитивнее, чем «p-value = 0.04».
Важно: байесовский подход не панацея. Он требует выбора априорного распределения. Плохой prior испортит любой тест. Но для пилотных исследований или когда есть исторические данные — это мощный инструмент.
Чек-лист для достоверного эксперимента (версия 2026)
1 Доклад о намерениях (Pre-Registration)
Перед запуском зафиксируйте в документе: основную гипотезу, ключевую метрику, второстепенные метрики, минимальный интересующий эффект (MDE), план по набору данных (не по времени!). Это убережет от соблазна «подкрутить» гипотезу под красивые цифры.
2 Расчет мощности (Power Analysis) — не экономьте на сэмпле
Используйте калькуляторы (например, от Optimizely или Statsig) для определения размера выборки. Типичная мощность — 80%. Для важных решений (изменение цены, тарифа) берите 90-95%. Малый размер выборки — гарантия, что вы не увидите реальный эффект.
3 Запланируйте проверку на интерференцию и сегменты
Разбейте результаты по ключевым сегментам (новые/старые пользователи, регионы, устройства). Если эффект кардинально разный — у вас не одна победа, а несколько разных историй. Помните про сетевые эффекты и конкуренцию, которые могут исказить результаты.
4 Выберите фреймворк анализа: частотный или байесовский
Для рутинных, повторяющихся тестов с большими аудиториями — частотный подход с поправками. Для инновационных features с малыми данными или при наличии сильных априорных убеждений — байесовский. Не смешивайте.
5 План отката и пост-релизный мониторинг
Что будете делать, если через неделю после выкатки ключевая метрика просядет? Задайте пороговые значения для автоматического отката. Продолжайте мониторить не только главную, но и guardrail метрики (доход, отток, удовлетворенность) как минимум два цикла.
И последнее. Самый опасный враг достоверных экспериментов в 2026 — не сложная статистика. Это организационное давление «показать результат». Когда quarterly review на носу, а тесты «не сходятся», начинаются танцы с бубном вокруг p-value и выборочное цитирование метрик.
Спасение одно: культура, где нулевой результат — не провал, а ценная информация. Где тест, сэкономивший компании 2 миллиона на бесполезном фиче, празднуют так же, как тест, принесший 2 миллиона дохода. Таких компаний мало. Но они выигрывают.
P.S. Если ваш ML-инженер говорит, что новая модель по бенчмарку на 15% лучше, спросите его про доверительные интервалы. Ответ вас удивит.