AB-тест (5) Некоторые вопросы и ответы в ходе эксперимента

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Что делать, если результаты эксперимента несущественны?

Причины, по которым результаты эксперимента не являются значимыми

Изменение A/Btest действительно не имеет никакого эффекта.,Оба набора индикаторов практически идентичны.
Вариация A/Btest имеет эффект,Но поскольку степень изменения очень мала,Недостаточная мощность чувствительности тестера,Таким образом, никакой разницы между двумя наборами показателей обнаружено не было.

Как решить

Первая причина обычно заключается в том, чтобы отказаться от изменения и попытаться протестировать новые изменения.

По второй причине попытайтесь увеличить мощность: с помощью формулы размера выборки вы можете обнаружить, что можно увеличить размер выборки или уменьшить дисперсию.

1 Увеличение мощности за счет размера выборки

· Продлить время тестирования: количество образцов, генерируемых каждый день, является определенным, поэтому, когда время тестирования будет продлено, количество собранных образцов увеличится.

· Увеличить долю трафика тестового использования в общем трафике.

· Несколько тестов используют одну и ту же контрольную группу: на практике несколько экспериментов проводятся одновременно, и контрольные пользователи некоторых экспериментов в основном одни и те же. Предположим, что одновременно проводится 4 эксперимента, по две группы для каждого эксперимента, а доступный трафик составляет 8 Вт, тогда каждая группа может использовать только 1 Вт трафика, но если четыре эксперимента используют одну и ту же контрольную группу, эксперимент в это время становится A/B. /n, групп всего 5, полезный трафик каждой группы достигает 1,6w.

Советы из опыта: если позволяет время,Наиболее часто используетсяПродлить время тестирования,Простой и практичный. если не хватает времени,Вы можете отдать приоритет увеличению доли использования тестового потока. Если на самом деле существует несколько экспериментов с одной и той же контрольной группой,Может проводить эксперименты A/B/n.

2. Улучшите мощность за счет уменьшения дисперсии

· Сохраняйте исходный индикатор без изменений и уменьшайте дисперсию, устраняя выбросы: если в распределении гистограммы индикатора есть очевидные выбросы, вы можете установить порог ограничения (Capping Threshold). Например, выбирается только 95 % диапазона значений, а остальные 5 % выбросов удаляются. Поскольку особо активных пользователей будет очень мало, поведенческие данные, генерируемые ими, часто будут выглядеть ненормальными.

· Выбирайте индикаторы с меньшими отклонениями: индикаторы с узким диапазоном значений имеют меньшие отклонения, чем индикаторы прямых продаж с широким диапазоном значений.,Общие индикаторы вероятности имеют меньшие отклонения, чем средние индикаторы.,Средние показатели имеют меньшую дисперсию, чем количество。Например, сумма покупки>Покупки на душу населения>курс покупки

· Сопоставление оценок склонности (PSM): Постройте точки данных, похожие на контрольную группу. Чем более похожи две группы выборок, тем меньше будет дисперсия.

· Расчет индикаторов на этапе запуска: обычно происходит в бизнес-сценариях с фиксированными путями.,Например, покупки в электронной коммерции.：ВходитьAPP->Обзор продуктов->Посмотреть подробную информацию о продукте->добавить в корзину->Купить。когдаоптимизациявесь путь,Часто пользователи попадают в экспериментальную/контрольную группу при входе в приложение.,При последующем изменении страницы корзины покупок,Принять участие в эксперименте могут только пользователи, перешедшие на страницу корзины покупок, при определенных условиях.

проблема с множественным тестированием

определение

Это относится к проблеме, заключающейся в том, что при одновременном сравнении нескольких тестов коэффициент ошибок типа I α увеличится, и это повлияет на точность результатов.

Полученный результат

Когда мы проводим эксперимент, часто существует 5%-ная вероятность (ошибка I рода) того, что два набора индикаторов различны, но на самом деле эти два набора индикаторов одинаковы. Если эксперимент повторяется много раз, например 20 раз, при условии, что вероятность совершения ошибки I рода в каждом эксперименте равна 5%, то вероятность того, что хотя бы одна ошибка I рода произойдет 20 раз, равна приблизительно. Вероятность p здесь (вероятность хотя бы одной ошибки типа I) также называется FWER (частота семейных ошибок).

Как видно из рисунка выше:

По мере увеличения количества проверок FWER значительно увеличится
Когда меньший,ФВЭР будет меньше,Темпы роста также замедляются。Таким образом, сокращение становится решениемпроблема с множественным Потенциально эффективный метод обучения

производитьпроблема с множественным тестированиемпричина

Когда A/Btest имеет более одной экспериментальной группы: то есть при выполнении A/B/n,n тестов будут проводиться одновременно
Когда A/Btest имеет более одного индикатора оценки: несколько индикаторов, как правило, тестируются несколько раз.
Когда вы анализируете результаты A/Btest,При проведении анализа сегментации по разным параметрам: Иногда из-за потребностей бизнеса.,Мы углубимся в некоторые измерения, чтобы сравнить экспериментальные результаты.,Например, эксперимент включает несколько стран по всему миру.,При анализе результатов тестов для каждой страны проводится несколько тестов.
Когда выполняется A/Btest,Вы продолжаете проверять результаты эксперимента: потому что эксперимент всегда продолжается.,Накопленные образцы каждый раз разные,Каждый раз, когда вы просматриваете результаты эксперимента, это эквивалентно тесту.

Как решитьпроблема с множественным тестированием

Сохраняя постоянное значение p для каждого теста, отрегулируйте: с помощью поправки Бонферрони просто измените на . n — количество тестов. Например, при выполнении 20 тестов коррекция в это время практически такая же, как и исходная настройка. Этот метод прост и удобен в использовании, но в нем применяется универсальный подход к различным значениям p, что делает его более консервативным и более подходящим, когда количество тестов небольшое. Когда количество обнаружений велико (например, сотни раз, что часто происходит в сценариях размерного подразделения), коррекция Бонферрони значительно увеличивает частоту ошибок второго типа, поэтому значение p обычно корректируется.
Сохраняйте то же самое и корректируйте значение p для каждого теста: общий метод заключается в контроле FDR (коэффициента ложного обнаружения). Это разновидность метода, чаще используется метод БХ (процедура Беньямини-Хохберга). Метод BH будет учитывать размер каждого значения P, а затем вносить корректировки в различной степени. Общий метод корректировки заключается в сортировке значений P, рассчитанных каждым тестом, от меньшего к большему, затем корректировке различных значений P в соответствии с сортировкой и, наконец, сравнении скорректированных значений P с α.
На практике обычно используется функция Multipletests в Python. Эта функция содержит различные методы коррекции нескольких тестов, включая коррекцию Бонферрони и метод BH. Когда мы ее используем, нам нужно только ввести разные значения p и выбрать метод коррекции. Эта функция даст. Мы выводим скорректированное значение p.

Краткое описание опыта: Хотя коррекция Бонферрони очень проста,Но из-за того, что он слишком строгий и консервативный,такНа практике для коррекции значения p более рекомендуется использовать метод BH.

обучающий эффект

определение

Изменения в некоторых экспериментах очень очевидны (например, интерактивные интерфейсы, функциональные модули и т. д.). Поскольку старые клиенты в прошлом привыкли к старым интерактивным интерфейсам или функциям, потребуется некоторое время, чтобы адаптироваться и изучить новые изменения. Поэтому поведение старых пользователей на этом этапе адаптивного обучения не соответствует их обычному поведению.

Полученный результат

Эффект новизны: старые пользователи положительно реагируют на новые изменения и испытывают сильное желание их попробовать. Таким образом, показатели оценки значительно улучшатся в краткосрочной перспективе, но когда старые пользователи адаптируются к этому изменению, показатели оценки начнут возвращаться на прежний уровень.
Неприятие изменений: старые пользователи отрицательно реагируют на новые изменения и развивают сильное сопротивление. Поэтому показатели оценки значительно снизятся в краткосрочной перспективе, но когда старые пользователи адаптируются к этому изменению, показатели оценки начнут возвращаться на прежний уровень.

Как определить наличие обучающего эффекта

Отслеживать колебания показателей оценки во времени: при отсутствии обучающегося эффектслучай,Индекс оценки стабилен. Если в начале эксперимента показатель быстро улучшается,затем стабилизируется со временем,Эффект новизны наблюдается, если в начале эксперимента показатель быстро снижается;,затем стабилизируется со временем,изменить отвращение
Сравните новых пользователей в экспериментальной группе и контрольной группе: Если показатель оценки не имеет значимых результатов среди новых пользователей.,Но в целом это существенно,Указывает, что это изменение затрагивает только старых пользователей.,Поэтому высока вероятность обучающего эффекта.

Как убрать эффекты обучающего эффекта

Продлите время эксперимента и подождите, пока симптомы экспериментальной группы не исчезнут, прежде чем проводить сравнения.

Парадокс Симпсона

определение

Когда внутреннее распределение состава нескольких наборов данных неравномерно, сравнение нескольких наборов данных в целом и сравнение нескольких наборов данных отдельно в каждом сегменте может привести к противоположным выводам. Возьмем пример цен на жилье: цены на жилье в 2020 году на 7% ниже, чем в 2019 году! Фактически, цены сделок как на новые, так и на подержанные дома выросли.

	Количество сделок с новым жильем	Средняя цена сделки с новыми домами	Количество сделок с подержанным жильем	Средняя цена сделки подержанных домов	средняя цена сделки
2019 год	10w	3w	2w	1w	2.7w
2020 год	2w	5w	10w	2w	2.5w

Причина, по которой Парадокс Симпсона был доставлен в эксперимент

В процессе отклонения распределение размеров отдельных подразделений между экспериментальной и контрольной группами было непоследовательным.

Как решить Парадокс Симпсона

до начала эксперимента,Провести ААтест,Выполните тест на достоверность результатов теста с аналогичным распределением признаков.,Если вы будете продолжать проверку до тех пор, пока не возникнет проблема с определенным размером,,Вам необходимо отправить ОШИБКУ в отдел исследований и разработок для расследования и устранения.,До тех пор, пока не будет пройден тест на разумность аналогичного распределения признаков.
Если времени недостаточно или результаты уже получены, можно попробовать PSM создать аналогичную экспериментальную группу для сравнения результатов. Если разница в распределении велика и образцов для PSM недостаточно, результаты подразделений имеют преимущественную силу, а общие результаты не могут использоваться в качестве справочных.

Экспериментальная группа и контрольная группа не являются независимыми.

определение

A/B-тестирование предполагает, что экспериментальные единицы экспериментальной группы и контрольной группы должны быть независимы друг от друга. Эту предпосылку также называют SUTVA (допущение о ценности лечения стабильной единицы). На поведение каждой группы экспериментальных единиц в тесте влияет только опыт этой группы и на него не могут влиять другие группы.

проявления, которые подрывают независимость этих двух групп.

Социальные сети/коммуникационный бизнес: типично, например, WeChat., Вейбо, LinkedIn, Голосовая/видеосвязь, электронная почта и т. д. Например, пользователь А из экспериментальной группы получил контент, рекомендованный новым алгоритмом.,Смотрите больше контента, который вам нравится, и проводите больше времени, используя его.,Это также увеличивает долю пользователей и рекомендации. Случилось так, что друзей пользователя А перевели в контрольную группу.,Даже если он не получит новый алгоритм рекомендуемого контента.,Однако, если пользователь А поделится контентом, он также может провести больше времени в этом приложении. Таким образом, пользователи экспериментальной группы влияют на поведение пользователей контрольной группы посредством взаимоотношений в социальных сетях.,В результате среднее время использования на человека в обеих группах увеличилось.
Бизнес в сфере экономики совместного использования: в целом платформенный бизнес,И поставщики, и поставщики являются пользователями. Типичные примеры включают Taobao, Didi, прокат велосипедов и т. д. Поскольку отношения между спросом и предложением динамически сбалансированы,Изменения в одной партии неизбежно повлекут за собой изменения в другой партии. Например, оптимизация приложения для вызова такси понимает процесс вызова такси пользователем.,Пользователям будет проще вызвать такси. Пользователи экспериментальной группы отреагировали на процесс вызова такси после получения оптимизации.,Взять такси проще,Таким образом, в экспериментальную группу попадает больше водителей.,Но количество водителей точно,Это приводит к тому, что в контрольную группу попадает меньше водителей.,Это, в свою очередь, усложняет вызов такси пользователям контрольной группы.,Опыт еще хуже. Поэтому результаты этого эксперимента склонны переоценивать результаты экспериментальной группы.
Бизнес с общими ресурсами. Некоторые компании с общими ресурсами имеют фиксированные ресурсы или бюджеты, например, на рекламу и маркетинг. Например, при фиксированном рекламном бюджете в 1 миллион, если реклама экспериментальной группы лучше, она будет генерировать больше кликов. Поскольку текущая онлайн-реклама часто взимается за клики, затраты на рекламу экспериментальной группы будут выше. Таким образом, бюджет контрольной группы будет занят экспериментальной группой, и это, естественно, повлияет на ее экспериментальные результаты.

Как избежать разрушения независимости двух группировок

Географическая изоляция: часто используется в сценариях с оффлайн-бизнесом, например, совместные поездки/лизинг и т. д. В качестве экспериментальной/контрольной группы могут быть выбраны пользователи в двух схожих городах. Развитие города, экономика, культура, население и уровень проникновения бизнеса в городе должны быть максимально схожими.
Изоляция от ресурсов: часто используется в бизнесе с общими ресурсами, например, при фиксировании бюджетов двух групп в рекламе и маркетинге так, чтобы соотношение бюджетов между ними было одинаковым.
Изолировать от времени: часто используется для изменений, которые пользователи не сразу замечают.,Например алгоритмоптимизация. Той же группе пользователей,Их результаты тестируются в разное время. Время должно быть максимально похожим,Например, все они в середине недели, все они утром и т. д.
Изоляция посредством кластеризации: часто используется в бизнесе социальных сетей,Кластеризация на основе уровней общения пользователей,Соберите связанных пользователей в кластер,Каждый кластер случайным образом группируется как экспериментальная единица. Это может в определенной степени уменьшить вмешательство между различными группами.,Однако этот метод более сложен,Трудно реализовать,И требует алгоритма и поддержки команды инженеров.

Краткое описание опыта: Устранить вмешательство между двумя группами посредством различных форм изоляции.

Сценарии, не подходящие для A/B-тестирования

Какие сценарии не подходят для A/B-тестирования?

Никакого контроля над тестовыми переменными: некоторые переменные являются личным выбором пользователя.,Переменные, которыми может управлять команда, могут существовать только на стороне продукта/бизнеса.,Нет контроля над личным выбором пользователя. Например, я хочу узнать среднее время использования пользователями после перехода с QQ Music на NetEase Cloud.,Изменение здесь заключается в том, что пользователи меняют приложения. Такое автономное поведение пользователя невозможно контролировать.,Своевременное маркетинговое вмешательство также может привести к предвзятости.,сделать результаты теста неточными
Релизы на крупных мероприятиях: типичные дорогостоящие маркетинговые мероприятия, такие как запуск новых продуктов.,Очевидно, что это не в интересах охвата лишь небольшого числа пользователей. Другой пример — изменения товарных знаков и другие события, затрагивающие имидж компании.,Если будет проведен небольшой потоктест, на рынке одновременно будет распространяться несколько товарных знаков.,причинение беспокойства пользователю,Это не способствует построению имиджа компании.

решение

Сопоставление оценок склонности (PSM): искусственно построить две группы похожих выборок на основе исторических данных.,Провести наблюдательные исследования.
исследование пользователей · Углубленное исследование пользовательского опыта: например, исследование движения глаз, которое отслеживает процесс выбора пользователя с помощью движений глаз пользователя, или дневниковые исследования, записанные самим пользователем. · Фокус-группа: групповое обсуждение среди пользователей. · Анкета: заранее задайте вопросы и варианты, составьте анкету и раздайте ее потенциальным пользователям, а затем соберите результаты для анализа.

Рекомендация

Категории

тест данные алгоритм оптимизация поток

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

AB-тест (5) Некоторые вопросы и ответы в ходе эксперимента