AB-тест (5) Некоторые вопросы и ответы в ходе эксперимента
AB-тест (5) Некоторые вопросы и ответы в ходе эксперимента

AB-тест (5) Некоторые вопросы и ответы в ходе эксперимента

Что делать, если результаты эксперимента несущественны?

Причины, по которым результаты эксперимента не являются значимыми

  • Изменение A/Btest действительно не имеет никакого эффекта.,Оба набора индикаторов практически идентичны.
  • Вариация A/Btest имеет эффект,Но поскольку степень изменения очень мала,Недостаточная мощность чувствительности тестера,Таким образом, никакой разницы между двумя наборами показателей обнаружено не было.

Как решить

Первая причина обычно заключается в том, чтобы отказаться от изменения и попытаться протестировать новые изменения.

По второй причине попытайтесь увеличить мощность: с помощью формулы размера выборки вы можете обнаружить, что можно увеличить размер выборки или уменьшить дисперсию.

1 Увеличение мощности за счет размера выборки

· Продлить время тестирования: количество образцов, генерируемых каждый день, является определенным, поэтому, когда время тестирования будет продлено, количество собранных образцов увеличится.

· Увеличить долю трафика тестового использования в общем трафике.

· Несколько тестов используют одну и ту же контрольную группу: на практике несколько экспериментов проводятся одновременно, и контрольные пользователи некоторых экспериментов в основном одни и те же. Предположим, что одновременно проводится 4 эксперимента, по две группы для каждого эксперимента, а доступный трафик составляет 8 Вт, тогда каждая группа может использовать только 1 Вт трафика, но если четыре эксперимента используют одну и ту же контрольную группу, эксперимент в это время становится A/B. /n, групп всего 5, полезный трафик каждой группы достигает 1,6w.

Советы из опыта: если позволяет время,Наиболее часто используетсяПродлить время тестирования,Простой и практичный. если не хватает времени,Вы можете отдать приоритет увеличению доли использования тестового потока. Если на самом деле существует несколько экспериментов с одной и той же контрольной группой,Может проводить эксперименты A/B/n.

2. Улучшите мощность за счет уменьшения дисперсии

· Сохраняйте исходный индикатор без изменений и уменьшайте дисперсию, устраняя выбросы: если в распределении гистограммы индикатора есть очевидные выбросы, вы можете установить порог ограничения (Capping Threshold). Например, выбирается только 95 % диапазона значений, а остальные 5 % выбросов удаляются. Поскольку особо активных пользователей будет очень мало, поведенческие данные, генерируемые ими, часто будут выглядеть ненормальными.

· Выбирайте индикаторы с меньшими отклонениями: индикаторы с узким диапазоном значений имеют меньшие отклонения, чем индикаторы прямых продаж с широким диапазоном значений.,Общие индикаторы вероятности имеют меньшие отклонения, чем средние индикаторы.,Средние показатели имеют меньшую дисперсию, чем количество。Например, сумма покупки>Покупки на душу населения>курс покупки

· Сопоставление оценок склонности (PSM): Постройте точки данных, похожие на контрольную группу. Чем более похожи две группы выборок, тем меньше будет дисперсия.

· Расчет индикаторов на этапе запуска: обычно происходит в бизнес-сценариях с фиксированными путями.,Например, покупки в электронной коммерции.:ВходитьAPP->Обзор продуктов->Посмотреть подробную информацию о продукте->добавить в корзину->Купить。когдаоптимизациявесь путь,Часто пользователи попадают в экспериментальную/контрольную группу при входе в приложение.,При последующем изменении страницы корзины покупок,Принять участие в эксперименте могут только пользователи, перешедшие на страницу корзины покупок, при определенных условиях.

проблема с множественным тестированием

определение

Это относится к проблеме, заключающейся в том, что при одновременном сравнении нескольких тестов коэффициент ошибок типа I α увеличится, и это повлияет на точность результатов.

Полученный результат

Когда мы проводим эксперимент, часто существует 5%-ная вероятность (ошибка I рода) того, что два набора индикаторов различны, но на самом деле эти два набора индикаторов одинаковы. Если эксперимент повторяется много раз, например 20 раз, при условии, что вероятность совершения ошибки I рода в каждом эксперименте равна 5%, то вероятность того, что хотя бы одна ошибка I рода произойдет 20 раз, равна приблизительно. Вероятность p здесь (вероятность хотя бы одной ошибки типа I) также называется FWER (частота семейных ошибок).

Как видно из рисунка выше:

  • По мере увеличения количества проверок FWER значительно увеличится
  • Когда меньший,ФВЭР будет меньше,Темпы роста также замедляются。Таким образом, сокращение становится решениемпроблема с множественным Потенциально эффективный метод обучения

производитьпроблема с множественным тестированиемпричина

  • Когда A/Btest имеет более одной экспериментальной группы: то есть при выполнении A/B/n,n тестов будут проводиться одновременно
  • Когда A/Btest имеет более одного индикатора оценки: несколько индикаторов, как правило, тестируются несколько раз.
  • Когда вы анализируете результаты A/Btest,При проведении анализа сегментации по разным параметрам: Иногда из-за потребностей бизнеса.,Мы углубимся в некоторые измерения, чтобы сравнить экспериментальные результаты.,Например, эксперимент включает несколько стран по всему миру.,При анализе результатов тестов для каждой страны проводится несколько тестов.
  • Когда выполняется A/Btest,Вы продолжаете проверять результаты эксперимента: потому что эксперимент всегда продолжается.,Накопленные образцы каждый раз разные,Каждый раз, когда вы просматриваете результаты эксперимента, это эквивалентно тесту.

Как решитьпроблема с множественным тестированием

  • Сохраняя постоянное значение p для каждого теста, отрегулируйте: с помощью поправки Бонферрони просто измените на . n — количество тестов. Например, при выполнении 20 тестов коррекция в это время практически такая же, как и исходная настройка. Этот метод прост и удобен в использовании, но в нем применяется универсальный подход к различным значениям p, что делает его более консервативным и более подходящим, когда количество тестов небольшое. Когда количество обнаружений велико (например, сотни раз, что часто происходит в сценариях размерного подразделения), коррекция Бонферрони значительно увеличивает частоту ошибок второго типа, поэтому значение p обычно корректируется.
  • Сохраняйте то же самое и корректируйте значение p для каждого теста: общий метод заключается в контроле FDR (коэффициента ложного обнаружения). Это разновидность метода, чаще используется метод БХ (процедура Беньямини-Хохберга). Метод BH будет учитывать размер каждого значения P, а затем вносить корректировки в различной степени. Общий метод корректировки заключается в сортировке значений P, рассчитанных каждым тестом, от меньшего к большему, затем корректировке различных значений P в соответствии с сортировкой и, наконец, сравнении скорректированных значений P с α.
  • На практике обычно используется функция Multipletests в Python. Эта функция содержит различные методы коррекции нескольких тестов, включая коррекцию Бонферрони и метод BH. Когда мы ее используем, нам нужно только ввести разные значения p и выбрать метод коррекции. Эта функция даст. Мы выводим скорректированное значение p.

Краткое описание опыта: Хотя коррекция Бонферрони очень проста,Но из-за того, что он слишком строгий и консервативный,такНа практике для коррекции значения p более рекомендуется использовать метод BH.

обучающий эффект

определение

Изменения в некоторых экспериментах очень очевидны (например, интерактивные интерфейсы, функциональные модули и т. д.). Поскольку старые клиенты в прошлом привыкли к старым интерактивным интерфейсам или функциям, потребуется некоторое время, чтобы адаптироваться и изучить новые изменения. Поэтому поведение старых пользователей на этом этапе адаптивного обучения не соответствует их обычному поведению.

Полученный результат

  • Эффект новизны: старые пользователи положительно реагируют на новые изменения и испытывают сильное желание их попробовать. Таким образом, показатели оценки значительно улучшатся в краткосрочной перспективе, но когда старые пользователи адаптируются к этому изменению, показатели оценки начнут возвращаться на прежний уровень.
  • Неприятие изменений: старые пользователи отрицательно реагируют на новые изменения и развивают сильное сопротивление. Поэтому показатели оценки значительно снизятся в краткосрочной перспективе, но когда старые пользователи адаптируются к этому изменению, показатели оценки начнут возвращаться на прежний уровень.

Как определить наличие обучающего эффекта

  • Отслеживать колебания показателей оценки во времени: при отсутствии обучающегося эффектслучай,Индекс оценки стабилен. Если в начале эксперимента показатель быстро улучшается,затем стабилизируется со временем,Эффект новизны наблюдается, если в начале эксперимента показатель быстро снижается;,затем стабилизируется со временем,изменить отвращение
  • Сравните новых пользователей в экспериментальной группе и контрольной группе: Если показатель оценки не имеет значимых результатов среди новых пользователей.,Но в целом это существенно,Указывает, что это изменение затрагивает только старых пользователей.,Поэтому высока вероятность обучающего эффекта.

Как убрать эффекты обучающего эффекта

Продлите время эксперимента и подождите, пока симптомы экспериментальной группы не исчезнут, прежде чем проводить сравнения.

Парадокс Симпсона

определение

Когда внутреннее распределение состава нескольких наборов данных неравномерно, сравнение нескольких наборов данных в целом и сравнение нескольких наборов данных отдельно в каждом сегменте может привести к противоположным выводам. Возьмем пример цен на жилье: цены на жилье в 2020 году на 7% ниже, чем в 2019 году! Фактически, цены сделок как на новые, так и на подержанные дома выросли.

Количество сделок с новым жильем

Средняя цена сделки с новыми домами

Количество сделок с подержанным жильем

Средняя цена сделки подержанных домов

средняя цена сделки

2019 год

10w

3w

2w

1w

2.7w

2020 год

2w

5w

10w

2w

2.5w

Причина, по которой Парадокс Симпсона был доставлен в эксперимент

В процессе отклонения распределение размеров отдельных подразделений между экспериментальной и контрольной группами было непоследовательным.

Как решить Парадокс Симпсона

  • до начала эксперимента,Провести ААтест,Выполните тест на достоверность результатов теста с аналогичным распределением признаков.,Если вы будете продолжать проверку до тех пор, пока не возникнет проблема с определенным размером,,Вам необходимо отправить ОШИБКУ в отдел исследований и разработок для расследования и устранения.,До тех пор, пока не будет пройден тест на разумность аналогичного распределения признаков.
  • Если времени недостаточно или результаты уже получены, можно попробовать PSM создать аналогичную экспериментальную группу для сравнения результатов. Если разница в распределении велика и образцов для PSM недостаточно, результаты подразделений имеют преимущественную силу, а общие результаты не могут использоваться в качестве справочных.

Экспериментальная группа и контрольная группа не являются независимыми.

определение

A/B-тестирование предполагает, что экспериментальные единицы экспериментальной группы и контрольной группы должны быть независимы друг от друга. Эту предпосылку также называют SUTVA (допущение о ценности лечения стабильной единицы). На поведение каждой группы экспериментальных единиц в тесте влияет только опыт этой группы и на него не могут влиять другие группы.

проявления, которые подрывают независимость этих двух групп.

  • Социальные сети/коммуникационный бизнес: типично, например, WeChat., Вейбо, LinkedIn, Голосовая/видеосвязь, электронная почта и т. д. Например, пользователь А из экспериментальной группы получил контент, рекомендованный новым алгоритмом.,Смотрите больше контента, который вам нравится, и проводите больше времени, используя его.,Это также увеличивает долю пользователей и рекомендации. Случилось так, что друзей пользователя А перевели в контрольную группу.,Даже если он не получит новый алгоритм рекомендуемого контента.,Однако, если пользователь А поделится контентом, он также может провести больше времени в этом приложении. Таким образом, пользователи экспериментальной группы влияют на поведение пользователей контрольной группы посредством взаимоотношений в социальных сетях.,В результате среднее время использования на человека в обеих группах увеличилось.
  • Бизнес в сфере экономики совместного использования: в целом платформенный бизнес,И поставщики, и поставщики являются пользователями. Типичные примеры включают Taobao, Didi, прокат велосипедов и т. д. Поскольку отношения между спросом и предложением динамически сбалансированы,Изменения в одной партии неизбежно повлекут за собой изменения в другой партии. Например, оптимизация приложения для вызова такси понимает процесс вызова такси пользователем.,Пользователям будет проще вызвать такси. Пользователи экспериментальной группы отреагировали на процесс вызова такси после получения оптимизации.,Взять такси проще,Таким образом, в экспериментальную группу попадает больше водителей.,Но количество водителей точно,Это приводит к тому, что в контрольную группу попадает меньше водителей.,Это, в свою очередь, усложняет вызов такси пользователям контрольной группы.,Опыт еще хуже. Поэтому результаты этого эксперимента склонны переоценивать результаты экспериментальной группы.
  • Бизнес с общими ресурсами. Некоторые компании с общими ресурсами имеют фиксированные ресурсы или бюджеты, например, на рекламу и маркетинг. Например, при фиксированном рекламном бюджете в 1 миллион, если реклама экспериментальной группы лучше, она будет генерировать больше кликов. Поскольку текущая онлайн-реклама часто взимается за клики, затраты на рекламу экспериментальной группы будут выше. Таким образом, бюджет контрольной группы будет занят экспериментальной группой, и это, естественно, повлияет на ее экспериментальные результаты.

Как избежать разрушения независимости двух группировок

  • Географическая изоляция: часто используется в сценариях с оффлайн-бизнесом, например, совместные поездки/лизинг и т. д. В качестве экспериментальной/контрольной группы могут быть выбраны пользователи в двух схожих городах. Развитие города, экономика, культура, население и уровень проникновения бизнеса в городе должны быть максимально схожими.
  • Изоляция от ресурсов: часто используется в бизнесе с общими ресурсами, например, при фиксировании бюджетов двух групп в рекламе и маркетинге так, чтобы соотношение бюджетов между ними было одинаковым.
  • Изолировать от времени: часто используется для изменений, которые пользователи не сразу замечают.,Например алгоритмоптимизация. Той же группе пользователей,Их результаты тестируются в разное время. Время должно быть максимально похожим,Например, все они в середине недели, все они утром и т. д.
  • Изоляция посредством кластеризации: часто используется в бизнесе социальных сетей,Кластеризация на основе уровней общения пользователей,Соберите связанных пользователей в кластер,Каждый кластер случайным образом группируется как экспериментальная единица. Это может в определенной степени уменьшить вмешательство между различными группами.,Однако этот метод более сложен,Трудно реализовать,И требует алгоритма и поддержки команды инженеров.

Краткое описание опыта: Устранить вмешательство между двумя группами посредством различных форм изоляции.

Сценарии, не подходящие для A/B-тестирования

Какие сценарии не подходят для A/B-тестирования?

  • Никакого контроля над тестовыми переменными: некоторые переменные являются личным выбором пользователя.,Переменные, которыми может управлять команда, могут существовать только на стороне продукта/бизнеса.,Нет контроля над личным выбором пользователя. Например, я хочу узнать среднее время использования пользователями после перехода с QQ Music на NetEase Cloud.,Изменение здесь заключается в том, что пользователи меняют приложения. Такое автономное поведение пользователя невозможно контролировать.,Своевременное маркетинговое вмешательство также может привести к предвзятости.,сделать результаты теста неточными
  • Релизы на крупных мероприятиях: типичные дорогостоящие маркетинговые мероприятия, такие как запуск новых продуктов.,Очевидно, что это не в интересах охвата лишь небольшого числа пользователей. Другой пример — изменения товарных знаков и другие события, затрагивающие имидж компании.,Если будет проведен небольшой потоктест, на рынке одновременно будет распространяться несколько товарных знаков.,причинение беспокойства пользователю,Это не способствует построению имиджа компании.

решение

  • Сопоставление оценок склонности (PSM): искусственно построить две группы похожих выборок на основе исторических данных.,Провести наблюдательные исследования.
  • исследование пользователей · Углубленное исследование пользовательского опыта: например, исследование движения глаз, которое отслеживает процесс выбора пользователя с помощью движений глаз пользователя, или дневниковые исследования, записанные самим пользователем. · Фокус-группа: групповое обсуждение среди пользователей. · Анкета: заранее задайте вопросы и варианты, составьте анкету и раздайте ее потенциальным пользователям, а затем соберите результаты для анализа.
boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose