Примечания к исследованию причинно-следственной связи 3. Модель поднятия «Предлагаемая коллекция»
Примечания к исследованию причинно-следственной связи 3. Модель поднятия «Предлагаемая коллекция»

1. Модель поднятия

Применение причинного вывода в интернет-индустрии в основном основано на Uplift. модель для прогнозирования дополнительного дохода и повышения рентабельности инвестиций。UpliftМодель помогает продавцам рассчитать чувствительность крауд-маркетинга,Управляйте бюджетом моделирования доходов и формулируйте стратегию доставки,Максимизируйте эффективность маркетинга и продвижения. В то же время, как измерить и спрогнозировать «постепенное улучшение», вызванное маркетинговым вмешательством?,Вместо того, чтобы тратить маркетинговый бюджет на тех людей, которые «конвертируются»,Это становится самой важной задачей для интеллектуальных маркетинговых алгоритмов.

Например🌰: Реклама размещается как на пользователе А, так и на пользователе Б. После размещения рекламы CVR (объем конверсий/объем кликов) пользователя А составляет 5%, а CVR пользователя Б – 4%. Тогда рекламу следует разместить на пользователе А. ? Это верно только на основании результатов после рекламы. Но если CVR пользователя A составляет 4%, а CVR пользователя B составляет 2% до размещения рекламы, то мы считаем, что доход, приносимый самой рекламой, больше для B, чем для A, поэтому реклама передается пользователю. Б.

Функция модели Uplift — расчет чувствительности крауд-маркетинга. В частности, она рассчитывает прибыль каждого пользователя, а затем определяет, размещать ли рекламу на пользователя, исходя из бюджета и других ограничений, установленных рекламодателем.

  • persuadables: Люди, которые не будут покупать, пока купоны не будут выпущены, и будут покупать только тогда, когда купоны будут выпущены, то есть группы, чувствительные к купонам.
  • sure thing:Неважно, выдаются купоны или нет.,Куплю,естественная трансформация
  • lost causes:Неважно, выдаются купоны или нет.都不会购买,К такому типу пользователей действительно сложно добраться.,Откажись прямо
  • sleeping dogs:иpersuadablesНапротив,Отвращение к маркетинговой деятельности,Если купоны не выдаются, будет покупательское поведение.,Но после выдачи купона больше покупать не буду.

При моделировании в основном ориентируйтесь на толпу убеждаемых и избегайте толпы спящих собак. Если вы используете модель отклика, вам будет сложно провести различие между этими группами людей, потому что модель только предсказывает, стоит ли покупать, а доля убеждаемых пользователей, которые могут совершить конверсию, довольно мала, поэтому она не является целью маркетинга.

Модель Uplift используется для прогнозирования/оценки причинного воздействия определенного вмешательства на индивидуальное состояние/поведение. Его можно формализовать в виде следующего уравнения: τ i = p ( Y i ∣ X i , T i = 1 ) − p ( Y i ∣ X i , T i = 0 ) (1) \tau_i=p(Y_i|X_i, T_i=1)-p(Y_i|X_i, T_i=0)\tag1 τi​=p(Yi​∣Xi​,Ti​=1)−p(Yi​∣Xi​,Ti​=0)(1) в, Y i Y_i Yi представляет собой потенциальные результаты (например, коэффициент конверсии, рейтинг кликов и т. д.), X i X_i Си представляет характеристики пользователя, T i = 1 T_i=1 Ti​=1 означает вмешательство, T i = 0 T_i=0 Ti​=0 означает отсутствие вмешательства,В рекламном маркетинге приложение можно наглядно представить как поведение пользователя после рекламы.,Пользователь совершает какое-то действие(Нажмите или купите)повышенная вероятность

Обратите внимание, что для пользователя мы можем только вмешиваться или не вмешиваться, то есть мы можем наблюдать только T 1 = 1 T_1=1 T1​=1 или T 1 = 0 T_1=0 T1​=0, поэтому для человека выигрыш τ i \tau_i τi​ ненаблюдаем.

Таким образом, мы можем рассмотреть общую (подгруппу населения),Прямо сейчасИспользуйте причинный эффект группы людей, чтобы представить причинный эффект одного человека.),Эквивалентные уравнения (средняя стоимость лечения, среднее значение ATE): A T E = E ( Y я ( 1 ) - Y я ( 0 ) ) = E ( Y я ( 1 ) ) - E ( Y я ( 0 ) ) (2) . И=E(Y_i(1)-Y_i(0))=E(Y_i(1))-E(Y_i(0))\tag2 И=E(Это (1)-Это (0))=E (Да (1))−E(Да (0))(2)

Т i ∈ { 0 , 1 } T_i\in\{0, 1\} Ti​ε{ 0,1} указывает, следует ли вмешаться, тогда Y i o b s = T i Y i ( 1 ) + ( 1 − T i ) Y i ( 0 ) (3) Y_i^{obs}=T_iY_i(1)+(1 -T_i )Y_i(0)\tag3 Yiobs​=Ti​Yi​(1)+(1−Ti​)Yi​(0)(3)

здесьдетали, которые при разумных предположениях,Прямо сейчас在一个确定的特征 X i X_i Теперь пользователи случайным образом распределяются в экспериментальную группу и контрольную группу, затем ( 2 ) (2) (2) можно преобразовать в A T E = E ( Y i ∣ T i = 1 ) − E ( Y i ∣ T i = 0 ) = E ( Y i o b s ∣ X i = x , T i = 1 ) − E ( Y i o b s ∣ X i = x , T i = 0 ) (4) ATE=E(Y_i|T_i=1)-E(Y_i|T_i=0)=E(Y_i^{obs}|X_i=x,T_i=1)-E(Y_i^{obs}|X_i=x,T_i=0)\tag4 ATE=E(Yi​∣Ti​=1)−E(Yi​∣Ti​=0)=E(Yiobs​∣Xi​=x,Ti​=1)−E(Yiobs​∣Xi​=x,Ti​=0)(4)

Это позволяет вам разработать рандомизированный A/B-тест.

2. Моделирование

Намерение совершить покупку, увеличенное за счет субсидирования, τ ( X i ) = P ( Y i = 1 ∣ X i , T i = 1 ) − P ( Y i = 1 ∣ X i , T i = 0 ) \tau(X_i)=P(Y_i=1|X_i,T_i=1)-P(Y_i=1|X_i,T_i=0) τ(Xi​)=P(Yi​=1∣Xi​,Ti​=1)−P(Yi​=1∣Xi​,Ti​=0), так как мы не можем получить τ i \tau_i τi​,такНевозможно получить настоящую метку, что вызывает надзоризучатьНевозможно продолжить。в отсутствие реального τ i \tau_i В случае τi обычно существует три основные категории методов оценки. τ i \tau_i τi​:The Class Transformation Method、Meta-Learning Method、Tree-Based Method。

2.1 The Class Transformation Method

Этот метод следует отнести к метаобучению. Method,здесь Указано отдельно, чтобы избежать путаницы.。Этот метод подходит дляЛечение и результат представляют собой классификации, состоящие из двух категорий.ситуация,проходитьПреобразование цели прогнозирования в один класс,Это позволяет прогнозировать с помощью одной модели.

Сначала определите новые переменные Z я знак равно Y я о б s Т я + ( 1 - Y я о б s ) ( 1 - Т я ) (5) Z_ {i}= Y_ {i}^ {o b s} T_ {i}+\left( 1-Y_{i}^{о б s}\right)\left(1-T_{i}\right)\tag5 Zi​=Yiobs​Ti​+(1−Yiobs​)(1−Ti​)(5) Зависит от Поскольку Лечение и Результат относятся к категории II, то Y i o b s ∈ { 0 , 1 } Y_i^{o b s}\in\{0, 1\} Yiobs​ε{ 0,1}, T i ∈ { 0 , 1 } T_i\in\{0, 1\} Ti​ε{ 0,1}, поэтому, когда Y i o b s = T i = 0 Y_i^{o b s}=T_i=0 Yiobs​=Ti​=0 или Y i o b s = T i = 1 Y_i^{ob s}=T_i=1 Yiobs​= Когда Ti=1, Z i = 1 Z_i=1 Zi​=1。

Это верно Поднятие τ ( X i ) \tau(X_i) τ(Xi​) имеет τ ( X i ) = 2 P ( Z i = 1 ∣ X i ) − 1 (6) \ tau(X_i)=2 P \ влево(Z_{i}=1 \mid X_{i}\right)-1\tag6 τ(Xi​)=2P(Zi​=1∣Xi​)−1(6)

Источник: Зависит от Z я Z_i Определение Zi можно узнать п ( Z я знак равно 1 ∣ Икс я ) знак равно п ( Y я знак равно 1 , Т я знак равно 1 ∣ Икс я ) + п ( Y я знак равно 0 , Т я знак равно 0 ∣ Икс я ) P(Z_i=1|X_i)=P(Y_i=1,T_i=1|X_i)+P(Y_i=0,T_i=0|X_i) P(Zi​=1∣Xi​)=P(Yi​=1,Ti​=1∣Xi​)+P(Yi​=0,Ti​=0∣Xi​), и согласно гипотезе: P ( T я знак равно 1 ∣ Икс я ) знак равно п ( Т я знак равно 0 ∣ Икс я ) знак равно 1 2 P(T_i=1|X_i)=P(T_i=0|X_i)=\frac{1}{2} P(Ti​=1∣Xi​)=P(Ti​=0∣Xi​)=21​ ,так τ ( Икс я ) знак равно п ( Y я знак равно 1 ∣ Икс я , Т я знак равно 1 ) - п ( Y я знак равно 1 ∣ Икс я , Т я знак равно 0 ) знак равно п ( Y я знак равно 1 , Т я знак равно 1 ∣ Икс я ) п ( Т я знак равно 1 ∣ Икс я ) - п ( Y я знак равно 1 , Т я знак равно 0 ∣ Икс я ) п ( Т я знак равно 0 ∣ Икс я ) знак равно 2 [ п ( Y я знак равно 1 , Т я знак равно 1 ∣ Икс я ) - п ( Y я знак равно 1 , Т я знак равно 0 ∣ Икс я ) ] знак равно [ п ( Y я знак равно 1 , Т я знак равно 1 ∣ Икс я ) - п ( Y я знак равно 1 , Т я знак равно 0 ∣ Икс я ) ] + [ 1 2 - п ( Y я знак равно 0 , Т я знак равно 1 ∣ Икс я ) - 1 2 + п ( Y я знак равно 0 , Т я знак равно 0 ∣ Икс я ) ] знак равно п ( Z я знак равно 1 ∣ Икс я ) - п ( Z я знак равно 0 ∣ Икс я ) знак равно 2 п ( Z я знак равно 1 ∣ Икс я ) - 1 \tau(X_i)=P(Y_i =1|X_i,T_i=1)-P(Y_i=1|X_i,T_i=0)\\ =\frac{P(Y_i=1,T_i=1|X_i)}{P(T_i=1|X_i)}-\frac{P(Y_i=1,T_i=0|X_i)}{P(T_i=0 |X_i)}\\ =2[P(Y_i=1,T_i=1|X_i)-P(Y_i=1,T_i=0|X_i)]\\ =[P(Y_i=1,T_i=1|X_i)-P(Y_i= 1,T_i=0|X_i)]\\ +[\frac{1}{2}-P(Y_i=0,T_i=1|X_i)-\frac{1}{2}+P(Y_i=0,T_i=0|X_i)]\\ =P (Z_i=1|X_i)-P(Z_i=0|X_i)\\ =2P(Z_i=1|X_i)-1 τ(Xi​)=P(Yi​=1∣Xi​,Ti​=1)−P(Yi​=1∣Xi​,Ti​=0)=P(Ti​=1∣Xi​)P( Йи​=1, Ти​= 1∣Xi​)−P(Ti​=0∣Xi​)P(Yi​=1,Ti​=0∣Xi​)​=2[P(Yi​=1,Ti​=1∣Xi​ )−P(Yi​=1,T i​=0∣Xi​)]=[P(Yi​=1,Ti​=1∣Xi​)−P(Yi​=1,Ti​=0∣Xi​)]+[21​−P( Йи​=0, Ти​=1∣ Xi​)−21​+P(Yi​=0,Ti​=0∣Xi​)]=P(Zi​=1∣Xi​)−P(Zi​=0∣Xi​)=2P(Zi​ =1∣Xi​)−1 Заметил, п ( Y я знак равно 1 , Т я знак равно 1 ∣ Икс я ) знак равно п ( Т я знак равно 1 ∣ Икс я ) - п ( Y я знак равно 0 , Т я знак равно 1 ∣ Икс я ) знак равно 1 2 - п ( Y я знак равно 0 , Т я знак равно 1 ∣ Икс я ) P(Y_i=1,T_i=1|X_i)=P(T_i=1|X_i)-P(Y_i=0,T_i=1|X_i)=\frac{1}{2}-P(Y_i=0, Т_i=1|X_i) P(Yi​=1,Ti​=1∣Xi​)=P(Ti​=1∣Xi​)−P(Yi​=0,Ti​=1∣Xi​)=21​−P(Yi​ =0,Ti​=1∣Xi​),так Устанавливается предпоследний знак равенства。

Процесс обучения и тестирования показан на рисунке ниже. Пользователи с Z = 1 Z = 1 Z=1 отсеиваются из экспериментальной группы и контрольной группы как положительные образцы, а остальные используются как отрицательные образцы. Фактически, Z = 1 Z = 1 Z=1 — это пользователи, разместившие заказы в экспериментальной группе, и пользователи, не разместившие заказы в контрольной группе. Таким образом, пользователи экспериментальной группы и контрольной группы могут быть напрямую объединены и объединены. смоделировано с использованием одной модели для реализации данных. Откройте уровень и уровень модели.

2.2 Meta-Learning Method

Метод мета-обучения относится к прогнозированию Uplift на основе Meta-Learner, где Meta-Learner может быть любым существующим алгоритмом прогнозирования, например LR, SVM, RF, GBDT и т. д. В зависимости от комбинации Meta-Learner его обычно делят на: S-Learner, T-Learner, X-Learner и R-Learner.

  • преимущество:Использование предсказательной силы существующих алгоритмов прогнозирования,Удобно и легко реализовать
  • недостаток:Не смоделировано напрямуюuplift,Эффект со скидкой

2.2.1 S-Learner

S одинокий,S-Learner подразумевает использование модели для оценки подъема.,Прямо сейчасДобавьте вмешательство к выборочным характеристикам экспериментальной группы и контрольной группы. T T T-связанные характеристики: объедините характеристики выборки и метку экспериментальной группы и контрольной группы. Объединение и обучение модели。Конкретные шаги:

  1. Шаг 1: Обучите модель прогнозирования µ ( x , t ) = E ( Y o b s ∣ X = x , T = t ) на основе признаков X X=x,T=t)\tag7 µ(x,t)=E( Йобс∣X=x,T=t)(7)
  2. Шаг 2: Оцените баллы за вмешательство и отсутствие вмешательства соответственно. Разница заключается в приращении τ ^ S ( x ) = μ ^ ( x , 1 ) − μ ^ ( x , 0 ) (8) \hat\tau_S(x) =. \hat\mu(x,1)-\hat\mu(x,0)\tag8 τ^S​(x)=μ^​(x,1)−μ^​(x,0)(8)

преимущество

  1. S-Learner прост и интуитивно понятен, напрямую использует существующие алгоритмы прогнозирования.
  2. Прогнозирование опирается только на одну модель, что позволяет избежать накопления ошибок от нескольких моделей.
  3. Больше данных (использование полного объема данных для обучения модели) и разработка функций повышают точность прогнозирования.

недостаток

  1. Этот метод не моделирует непосредственно подъем
  2. Требуется дополнительная работа по проектированию признаков (поскольку модель соответствует Y Y Y, если T T T напрямую вводится как признак, он может не быть полностью использован из-за недостаточной способности прогнозирования для Y Y Y)

2.2.2 T-Learner

Т — два,T-Learner предполагает использование двух моделей для оценки подъема.,Прямо сейчасИспользуйте две модели для моделирования ситуаций вмешательства и невмешательства соответственно и примите разницу как подъем.。Конкретные шаги:

  1. Шаг 1: Обучите модель прогнозирования групповые данные соответственно)\tag9 µ0​(x)=E(Y(0)∣X=x)(9) µ 1 ( x ) = E ( Y ( 1 ) ∣ X = x ) (10) \mu_1(x)=E(Y(1)|X=x)\tag{10} µ1​(x)=E(Y(1)∣X=x)(10)
  2. Шаг 2: Оцените две модели отдельно τ ^ T ( x ) = µ ^ 1 ( x ) − µ ^ 0 ( x ) (11) \hat\tau_T(x)=\hat\mu_1(x)-\hat\mu_0 (x)\tag{11} τ^T​(x)=μ^​1​(x)−μ^​0​(x)(11)

Прогнозчас,Используйте две модели, чтобы предсказать каждого пользователя, которого нужно спрогнозировать.

преимущество

  1. T-Learner так же прост и интуитивно понятен, как и непосредственное использование существующих алгоритмов прогнозирования.
  2. Преобразуйте дополнительные эффекты в разных наборах данных в различия между моделями, не требуя слишком большой работы по проектированию функций.
  3. Этот метод удобен в качестве базового при наличии данных рандомизированных исследований.

недостаток

  1. Этот метод страдает проблемой накопления ошибок двойной модели.
  2. В то же время, если разница в данных слишком велика (например, объем данных, отклонение выборки и т. д.), это будет иметь большее влияние на точность.
  3. Приращение рассчитывается косвенно, и модель не может быть оптимизирована.

2.2.3 X-Learner

Предлагается на основе модели «Алгоритм X-Learner в двух моделях».,на основеИдея использования результатов наблюдаемых выборок для оценки результатов ненаблюдаемых выборок, аппроксимации приращения и корректировки веса тенденции результатов для достижения цели оптимизации приблизительных результатов.。Конкретные шаги:

  1. Шаг 1: Обучите модель прогнозирования групповые данные соответственно)\tag{12} µ0​(x)=E(Y(0)∣X=x)(12) µ 1 ( x ) = E ( Y ( 1 ) ∣ X = x ) (13) \mu_1(x)=E(Y(1)|X=x)\tag{13} µ1​(x)=E(Y(1)∣X=x)(13)
  2. Step2: Используйте модель группы лечения, чтобы спрогнозировать данные контрольной группы, а модель контрольной группы прогнозирует данные группы лечения.,Сделайте разницу иY соответственно, чтобы получить приблизительный прирост D 0 = µ ^ 1 ( X 0 ) − Y 0 (14) D_0=\hat\mu_1(X_0)-Y_0\tag{14} D0​=μ^​1 ​(X0​)−Y0​(14) D 1 = Y 1 − µ ^ 0 ( X 1 ) (15) D_1=Y_1-\hat\mu_0(X_1)\tag{15} D1​=Y1​−μ^​0​(X1​)(15)
  3. Используйте это как цель для обучения еще двух моделей прогнозирования и подбора подъема τ 0 ( x ) = E ( D 0 ∣ X = x ) (16) \tau_0(x)=E(D_0|X=x)\tag{16 } τ0​(x)=E(D0​∣X=x)(16) τ 1 ( x ) = E ( D 1 ∣ X = x ) (17) \tau_1(x)=E(D_1|X=x)\tag{17} τ1​(x)=E(D1​∣X=x)(17)
  4. Два приблизительных приращения прогнозируются и взвешиваются для получения результата подъема. Весовую функцию можно использовать в качестве показателя склонности. τ ^ ( x ) = g ( x ) τ ^ 0 ( x ) + ( 1 − g ( x ) ) τ ^ 1 ( x ) (18) \hat{\tau}(x)=g(x) \hat{\tau}_{0}(x)+(1-g(x)) \hat{\tau}_{1}(x)\tag{18} τ^(x)=g(x)τ^0​(x)+(1−g(x))τ^1​(x)(18) в, g ( x ) = P ( T = 1 ∣ X = x ) g(x)=P(T=1|X=x) g(x)=P(T=1|X=x), который можно рассматривать как набор выборочных данных. T = 1 T=1 Коэффициент Т=1. Итак, если T = 1 T=1 Доля Т=1 крайне мала, тогда g ( x ) g(x) g(x) очень мала, то τ ^ 1 \hat\tau_1 Вес τ^1​ больше, то есть более склонны использовать модель, обученную на данных контрольной группы.

преимущество

  1. Подходит для сценариев, когда существует большая разница в количестве образцов между экспериментальной и контрольной группой.
  2. Для получения дополнительных предварительных знаний вы можете обратиться к моделированию.,и введем весовой коэффициент,Уменьшите ошибку (на шаге 3,Получаем два приблизительных значения дельты,и моделировать его напрямую. Если мы знаем достаточно о бизнесе,Знать некоторые соответствующие предварительные знания о приращении (линейном/нелинейном и т. д.).,Затем эти предварительные знания могут участвовать в процессе моделирования и помочь нам повысить точность модели.)

недостаток

  1. Накопление ошибок, вызванных несколькими моделями
  2. Процесс относительно сложен, а стоимость расчета высока.
  3. Это не объясняет, насколько разница подходит для X-Learner. В части автономной оценки нашего реального приложения, хотя X-Learner иногда работал хорошо, он не всегда значительно превосходил другие модели.

2.2.4 R-Learner

Идея алгоритма R-Learner отличается от Two、SingleиX-Learner。Его основная идея заключается вОпределите функцию потерь с помощью преобразования Робинсона, а затем достигните цели моделирования приращения путем минимизации функции потерь.。Конкретные шаги:

  1. Шаг 1. С помощью перекрестной проверки прогнозируйте одну группу за раз, чтобы получить результат прогнозирования m ^ \hat{m} m^ и оценку склонности e ^ \hat{e} e^ e ( x ) = E [ W всех набор данных = 1 ∣ X = x ] (19) e(x)=E[W=1|X=x]\tag{19} e(x)=E[W=1∣X=x](19) м ( Икс ) знак равно E [ Y знак равно 1 ∣ X = x ] (20) m(x)=E[Y=1|X=x]\tag{20} m(x)=E[Y=1∣X=x](20)
  2. Шаг 2: Минимизируйте функцию потерь и оцените приращение, где q ( i ) q(i) q(i) представляет выборку i i К какой группе резюме я отношусь? L ^ n { τ ( ⋅ ) } = 1 n ∑ i = 1 n [ { Y i − m ^ ( − q ( i ) ) ( X i ) } − { W i − e ^ ( − q ( i ) ) ( X i ) } τ ( X i ) ] 2 (21) \widehat{L}_{n}\{\tau(\cdot)\}=\frac{1}{n} \sum_{i=1}^{n}[\{Y_{i}-\hat{m}^{(-q(i))}(X_{i})\}-\{W_{i}-\hat{e}^{(-q(i))}(X_{i})\} \tau(X_{i})]^{2}\tag{21} L n​{ τ(⋅)}=n1​i=1∑n​[{ Yi​−m^(−q(i))(Xi​)}−{ Wi​−e^(−q(i))(Xi​)}τ(Xi​)]2(21) В частности, реализуйте час и измените функцию потерь на L ^ n { τ ( ⋅ ) } = 1 n ∑ i = 1 n [ { Y i − m ^ ( − q ( i ) ) ( X i ) } { W i − e ^ ( − q ( i ) ) ( X i ) } − τ ( X i ) ] 2 ⋅ { W i − e ^ ( − q ( i ) ) ( X i ) } 2 (22) \widehat{L}_{n}\{\tau(\cdot)\}= \frac{1}{n} \sum_{i=1}^{n}[\frac{\{Y_{i}-\hat{m}^{(-q(i))}(X_{i})\}}{\{W_{i}-\hat{e}^{(-q(i))}(X_{i})\}}- \tau(X_{i})]^{2}\cdot \{W_{i}-\hat{e}^{(-q(i))}(X_{i})\}^2\tag{22} L n​{ τ(⋅)}=n1​i=1∑n​[{ Wi​−e^(−q(i))(Xi​)}{ Yi​−m^(−q(i))(Xi​)}​−τ(Xi​)]2⋅{ Wi​−e^(−q(i))(Xi​)}2(22)

преимущество:

  1. Гибкий и простой в использовании
  2. Функция потерь может быть подключена к глубокой сети и т. д.

недостаток:

  1. Точность модели зависит от точности m ^ \hat{m} m^ и e ^ \hat{e} e^

2.3 Tree-Based Method

Традиционная модель машины для изучения,Основная идея древовидной модели — разделение характерных точек.,Разделите X на подпространства одно за другим,В этом сценарии субсидирования,Идея надежды найти небольшую группу пользователей с высоким приростным ростом почти идеально совпадает с

Традиционная модель дерева классификации надеется использовать теорию информации (информационная Такие идеи, как информационная энтропия в теории), используются для решения задач классификации путем расчета прироста информации. И в подъеме tree modelсередина,Суть все равно в том, чтобы измерить разницу переменных до и после разделения, чтобы решить, стоит ли разбивать узел.,ноздесь Разница в решенияхМетод расчета больше не является получением информации, а представляет собой различные методы расчета, которые напрямую моделируют прирост, включая использование дивергенции распределения для моделирования подъема и непосредственное моделирование подъема.

Ниже представлены три древовидных алгоритма: Uplift-Tree, CausalForest и CTS.

2.3.1 Uplift-Tree

Расхождение распределения — это величина, используемая для измерения разницы между двумя распределениями вероятностей, когда два распределения одинаковы.,Два дискретных распределениярасхождениенеотрицательен и равен нулю。мы можемПоймите экспериментальную группу и контрольную группу как два распределения вероятностей, а затем используйте расхождение распределения в качестве критерия разделения нелистовых узлов, чтобы максимизировать разницу между распределениями категорий выборки экспериментальной группы и контрольной группы и уменьшить неопределенность выборки.

Вычислить расхождение распределения D ( P T ( Y ) : P C ( Y ) ) D(P^T(Y):P^C(Y)) D(PT(Y):PC(Y)), общее расхождение распределения Существуют KL дивергенция (дивергенция Кульбака-Лейблера), евклидово расстояние (евклидово расстояние в квадрате) и дивергенция хи-квадрат, соответствующие следующим трем методам: K L ( P : Q ) = ∑ я п я журнал ⁡ п я q я (23) K L(P: Q) =\sum_{i} p_{i} \log \frac{p_{i}}{q_{i}}\tag{23} KL(P:Q )=i∑​pi​logqi​pi​​(23) E ( P : Q ) = ∑ i ( p i - q i ) 2 (24) E(P: Q) =\sum_{i}\left(p_{i}-q_{i}\right)^{2}\tag{24} E(P:Q)=i∑​(pi​−qi​)2(24 ) χ 2 ( п : Q ) знак равно ∑ я ( п я - q я ) 2 q я (25) \ chi^{2}(P: Q) =\ sum_ {i} \frac{\left(p_{i}-q_{i}\right)^{2}}{q_{i}}\tag{25} χ2(P:Q)=i∑​qi​(pi​− ци​)2​(25) Среди них p p p представляет группу лечения, q q q представляет контрольную группу, i i i представляет значение. Если это проблема двух разделений, то i ∈ { 0 , 1 } i\in\{0, 1\} iε{. 0,1}

У трех вышеупомянутых расхождений распределения есть что-то общее. Когда два распределения вероятностей одинаковы, значение равно 0, когда разница между двумя распределениями вероятностей больше, значение больше; Преимущество евклидова расстояния в том, что оно симметрично и его значение более стабильно.

Дивергенция распределения также имеет особенность: из формулы можно вывести, что, когда данные контрольной группы в узле пусты, дивергенция KL вырождается в прирост информации в критерии разделения дерева решений, а дивергенция хи-квадрат вырождается; в индекс Джини. Когда данные экспериментальной группы в узле пусты, евклидово расстояние будет преобразовано в индекс Джини. Это одно из преимуществ такого типа критерия разделения.

Основной процесс построения модели заключается в следующем:

Например🌰:

обрезка

Обрезка предназначена для того, чтобы модель имела лучшую способность к обобщению. Существует множество методов сокращения стандартных деревьев решений. Самый простой из них — проверить, помогает ли это повысить точность проверочного набора до и после сокращения. Однако этот метод нелегко реализовать в инкрементальном моделировании.

В статье предлагается метод измерения — максимум class probability difference,Основная идея заключается в том,Посмотрите на разницу между группой «Лечение» и группой «Контроль» в узле. Если отдельный корневой узел больше, то обрезка.。Конкретные шаги заключаются в следующем::

  • Шаг 1. На этапе обучения для каждого узла запишите класс с наибольшей разницей (абсолютное значение), а также положительные и отрицательные знаки. y * ( t ) знак равно arg ⁡ max ⁡ y ∗ ∣ п T ( y ∗ ∣ t ) - п C ( y ∗ ∣ t ) ∣ (26) y ^ * (t) = \ arg \ max_ {y ^ *} \ left |P^{T}\left(y^{*} \mid t\right)-P^{C}\left(y^{*} \mid t\right)\right|\tag{26} y∗(t)=argy∗max​∣∣​PT(y∗∣t)−PC(y∗∣t)∣∣​(26) s * ( т ) знак равно знак ⁡ ( п Т ( y * ∣ t ) - п C ( y * ∣ t ) ) (27) s^{*}(t)=\operatorname{sgn}\left(P^{T} \left(y^{*} \mid t\right)-P^{C}\left(y^{*} \mid t\right)\right)\tag{27} s∗(t)=sgn(PT(y∗∣t)−PC(y∗∣t))(27)
  • Шаг 2: На этапе проверки используйте y ∗ y^* y∗, s ∗ s^* s∗, вычисленные на этапе 1, и значение вероятности, рассчитанное на основе данных проверки, для расчета оценки d 1 ( r ) = листовой узел и корневой узел ∑ я знак равно 1 k N ( л я ) N ( р ) s * ( л я ) ( п Т ( у * ( л я ) ∣ л я ) - п C ( у * ( л я ) ∣ л. i ) ) (28) d_{1}(r)=\sum_{i=1}^{k} \frac{N\left(l_{i}\right)}{N(r)} s^{* }\left(l_{i}\right)\left(P^{T}\left(y^{*}\left(l_{i}\right) \mid l_{i}\right)-P^{C}\left(y^{*}\left(l_{i}\right)\mid l_{i}\right)\right)\tag{28} d1​ (r)=i=1∑k​N(r)N(li​)​s∗(li​)(PT(y∗(li​)∣li​)−PC(y∗(li​)∣li ​))(28) d 2 ( р ) знак равно s * ( р ) ( п Т ( y * ( р ) ∣ р ) - п C ( y * ( р ) ∣ р ) ) (29) d_ {2} (r) = s ^ {*} (r)\left(P^{T}\left(y^{*}(r) \mid r\right)-P^{C}\left(y^{*}(r) \mid r\right)\right)\tag{29} d2​(r)=s∗(r)(PT(y∗(r)∣r)−PC(y∗(r)∣r))(29)
  • Step3: Наконец, если d 1 ( r ) ≤ d 2 ( r ) d_1(r)\le d_2(r) d1​(r)≤d2​(r), затем приступайте к обрезке

2.3.2 CausalForest

Как следует из названия, CausalForest, как и RandomForest, относится к модели леса, полученной путем слияния нескольких моделей CausalTree. Для CausalForest это может быть любой отдельный древовидный метод.

Когда слои разделены на достаточно мелкие слои, приблизительно считается, что Конфаундер устранен. Тогда Поднятие листового узла задается как. τ ^ ( x ) знак равно 1 ∣ { i : W i знак равно 1 , X i ∈ L } ∣ ∑ { я : W я знак равно 1 , Икс я ∈ L } Y я - 1 ∣ { я : W я знак равно 0 , Икс я ∈ L } ∣ ∑ { я : W я знак равно 0 , Икс я ∈ L } Y я ( 30) \hat{\tau}(x)=\frac{1}{\left|\left\{i: W_{i}=1, X_{i} \in L\right\}\right|} \sum_{\left\{i: W_{i}=1, X_{i} \in L\right\}}^{Y_{i}} -\frac{1}{\left|\left\{i: W_{i}=0, X_{i} \in L\right\}\right|} \sum_{\left\{i: W_{i}=0, X_{i} \in L\right\}}^{Y_{i}} \tag{30} τ^(x)=∣{ я: Wi​=1,Xi​L}∣1​{ i:Wi​=1,Xi​€L}∑Yi​−∣{ i:Wi​=0,Xi​€L}∣1​{ i:Wi​=0,Xi​L}∑Yi​​(30)

Обучите несколько CausalTree на основе разных подмножеств выборок и используйте среднее значение в качестве окончательного результата τ ^ ( x ) = B − 1 ∑ b = 1 B τ ^ b ( x ) (31) \hat{\tau}(x)= B^{-1} \sum_{b=1}^{B} \hat{\tau}_{b}(x)\tag{31} τ^(x)=B−1b=1∑B​τ^b​(x)(31)

2.3.3 CTS

CTS(Contextual Treatment Выборка) представляет собой Древовидное поднятие. метод моделирования,Доступно дляПроблемы с MultiTreatment и общим типом ответа (классификация или регрессия). В отличие от дивергенции распределения, в соответствии с этим стандартом мы напрямую максимизируем разницу в ожиданиях меток между экспериментальной группой и контрольной группой в каждом узле (можно понимать как значение Uplift выборки в этом узле).,И используйте это, чтобы разделить узел.

Конкретный процесс построения дерева CTS:

По сравнению с мета-обучающимся, модель дерева подъема часто моделирует подъем напрямую и использует функции для непосредственного сегментирования толпы, поэтому точность модели часто выше. Однако в практических приложениях все же необходимо обращать внимание на сходимость древовидной модели и ее обобщающую способность.

3. Оценка

Можно использовать широко используемые алгоритмы классификации и регрессии. AUC, точность и RMSE Подождите, чтобы оценить качество модели. И спасибо Аплифту Model Невозможно одновременно наблюдать за реакциями одного и того же пользователя при различных стратегиях вмешательства, то есть невозможно получить истинный прирост пользователя. Мы не можем напрямую использовать приведенные выше показатели оценки для измерения качества модели.。поэтому,Модель Uplift обычно выравнивает данные экспериментальной группы и контрольной группы, разделив их на децили для проведения косвенной оценки.。Часто используемые методы оценки Фаю Qini Кривая, AUUC ждать.

3.1 Qini curve

Кривая Кини — это один из методов измерения точности модели поднятия. Он оценивает качество модели путем расчета площади под кривой, аналогично AUC. Процесс расчета следующий:

(1) На тестовом наборе,将实验组и对照组分别按照模型прогнозируемые приращенияЗависит от Сортировка сверху вниз По соотношению количества пользователей к числу пользователей в экспериментальной группе и контрольной группе экспериментальная группа и контрольная группа делятся на десять частей соответственно. Top10%, 20%, . . . , 100%。 (2) Рассчитайте коэффициенты Qini для Top10%, 20%,...,100% и сгенерируйте данные кривой Qini (Top10%,Q(Top10%)), (…,…), (Top100%, Q(Top100%))。Qini Коэффициенты определяются следующим образом:

в, когда пользователь размещает заказ, результат вывода равен 1

Видно, что Цини Знаменатель коэффициента — общий размер выборки экспериментальной группы и контрольной группы. Если разница в количестве пользователей между экспериментальной группой и контрольной группой велика, результаты станут недостоверными.

3.2 AUUC

Процесс расчета AUUC (площадь под кривой подъема) такой же, как и для кривой Кини. Рассчитайте первые 10%, 20%, 100% индикаторы, нарисуйте кривую, а затем найдите площадь под кривой. измерить качество модели плохо. Разница в том, что метод расчета индикатора AUUC отличается от метода расчета индикатора Qini. Индикатор AUUC определяется следующим образом:

и Qini Индикаторы имеют тот же смысл, когда i Возьми 10% час, n t ( i ) n_t(i) nt​(i) означает до экспериментальной группы 10% количество пользователей, n c ( i ) n_c(i) nc​(i) представляет перед контрольной группой 10% Количество пользователей. Это можно увидеть,Метод расчета индикатора AUUC позволяет избежать проблемы ненадежных показателей, вызванной большой разницей в количестве пользователей между экспериментальной группой и контрольной группой.

Стоит отметить, что,При выполнении группирования существует большая разница между расчетным приращением граничных точек контрольной группы и расчетным значением граничных точек экспериментальной группы.,Два вышеуказанных показателя оценки представляются менее надежными.。поэтому在实际середина,Мы часто используем другой метод расчета AUUC:

3.3 Как понять автономный индикатор AUUC?

AUUC — важный и странный показатель. Это важно, поскольку это практически единственный интуитивно понятный и интерпретируемый индикатор оценки качества модели на автономном этапе модели подъема. Это странно, потому что, хотя по сути кажется, что он основан на некоторых идеях индекса оценки классификационной модели AUC, инженеры-алгоритмы, привыкшие к AUC, определенно будут немного сбиты с толку, когда впервые столкнутся с ним.

В качестве эталона при оценке классификационной модели,AUCНет необходимости слишком подробно останавливаться на превосходстве。Лучше всего то, что результаты ее оценки достаточно стабильны, чтобы их можно было установить за пределами самой модели и выборки.,Пока это проблема классификации,AUC0,5 — случайная линия,Модель 0.6 все еще нуждается в повторении, чтобы найти возможности для улучшения.,0,6-0,8 — стандарт для запуска модели.,Для моделей выше 0,9 необходимо учитывать, не является ли модель переобученной и существуют ли неизвестные функции сильной корреляции, участвующие в обучении модели. Один метод стоит десяти тысяч методов,Мы можем отложить функции,Детали построения выборки и модели непосредственно применимы к этому набору рекомендаций.

Однако для AUUC эта возможность совершенно недостижима. Формулу прохожденияAUUC можно увидеть,Абсолютное значение показателя, окончательно сформированного AUUC, зависит от размера выборки. То есть,на наборе тестовых образцов,Наша AUUC может составлять от 0 до 1 Вт.,Вместо этого я изменил набор сэмплов,Это значение может составлять от 0 до 100 Вт. Это делает невозможным оценку модели на разных тестовых выборках. Обязательным условием для каждой автономной итерации модели является то, что все модели используют один и тот же набор тестовых образцов. Когда мы закончим обучение новой модели,Закончился AUUC 400 000.,У нас нет абсолютно никакой возможности узнать, что представляет собой это значение с точки зрения точности модели.,мы можем толькоДостаньте старую модель, запустите AUUC на том же тестовом наборе и сравните ее друг с другом.。Это, несомненно, делает весь процесс итерации обучения немного более болезненным.。

Заявление об авторских правах: Содержание этой статьи добровольно предоставлено пользователями Интернета, а мнения, выраженные в этой статье, представляют собой только точку зрения автора. Данный сайт лишь предоставляет услуги по хранению информации, не имеет никаких прав собственности и не несет соответствующей юридической ответственности. Если вы обнаружите на этом сайте какое-либо подозрительное нарушение авторских прав/незаконный контент, отправьте электронное письмо, чтобы сообщить. После проверки этот сайт будет немедленно удален.

Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/234946.html Исходная ссылка: https://javaforall.cn

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose