[Отчет об анализе данных] Анализ клиентов Ctrip и прогноз оттока
[Отчет об анализе данных] Анализ клиентов Ctrip и прогноз оттока

1. Предыстория и цель проекта

Ctrip — ведущая китайская компания, предоставляющая комплексные туристические услуги.,Предоставление полного спектра туристических услуг более чем 250 миллионам участников каждый день,Таким образом, каждый день генерируется большое количество вариантов поведения пользователей.данные,Эти данные содержат богатые информационные ресурсы. кроме того,Клиенты – важный ресурс для предприятия,Это также нематериальный актив предприятия.,отток клиентов,Это означает потерю активов,Поэтому клиентыуровень оттока Это очень важный показатель для оценки эффективности бизнеса.。

Этот проект посвящен углубленному пониманию портретов и поведенческих предпочтений пользователей, поиску оптимального алгоритма и выявлению ключевых факторов, влияющих на отток пользователей. Это может улучшить дизайн продукта, улучшить взаимодействие с пользователем и предоставить персонализированные стратегии работы для разных типов пользователей.

Этот отчет можно разделить на следующие части:

  1. исследовательский анализ
  2. данные Предварительная обработка иразработка функций
  3. Прогноз оттока пользователей
  4. RFM и анализ портрета пользователя

2. Поисковый анализ

Всего официально предоставлено 2 эпизода данных.,соответственно для обучающего набораuserlostprob_train.txtитестовый наборuserlostprob_test.txt。Тренировочный набор — это2016.05.15-2016.05.21Во время недельного визитаданные,Тестовый набор - неделя посещений с 22.05.2016 по 28.05.2016.

Официальным стандартом оценки для этого проекта является максимальное значение полноты при точности ≥ 97%. Своими словами я выбираю точность и значение AUC.

Точность: (количество образцов, которые прогнозировались для оттока, которые действительно произошли)/(количество образцов, которые прогнозировались для оттока) Скорость восстановления: (количество образцов, которые, по прогнозам, будут потеряны и фактически потеряны)/(количество фактически потерянных образцов)

2.1 Предварительный просмотр индикатора данных

Просмотр каждого поля функции набора данных,в,label=1Представляет потерянных клиентов,label=0Представляет неушедших клиентов。Остальные показатели можно в основном разделить на три типа.данныеиндекс:

  • Характеристики, связанные с пользователем: продолжительность посещения, количество посещений, количество посещенных отелей, время использования, ценовые предпочтения, звездность, покупательная способность, индекс чувствительности к цене, ценность для пользователя.
  • Характеристики, связанные с отелем: количество уникальных посетителей, количество отзывов, количество отзывов, исторический коэффициент отмены, средняя цена отеля, самая низкая цена, индекс бизнес-атрибутов и т. д.
  • Функции, связанные с заказами: количество исторических заказов, частота отмены, расстояние заказа, дата посещения, дата регистрации и т. д.

2.2 Обзор данных

Язык кода:javascript
копировать
#Импортируем базовый пакет
%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")


# Решите проблему искаженных китайских иероглифов.
plt.rcParams['font.sans-serif']=['SimHei'] #Используется для нормального отображения китайских меток
plt.rcParams['axes.unicode_minus']=False #Используется для нормального отображения отрицательных знаков

#Показать все возможности
pd.set_option('display.max_columns',Никто)

#readданные
df = pd.read_csv('./data/userlostprob_train.txt',sep='\t')
df.head()

Глядя на данные, данные обычно имеют некоторые характеристики:

  • За исключением идентификатора метки и метки, всего имеется 49 функций.
  • данныеформа(689945, 51)
  • У Label 189 357 потерянных пользователей и 500 588 не потерянных пользователей. В целом потерянные пользователи составили 27,4%

Продолжить просмотр информации о данных

Язык кода:javascript
копировать
# Просмотреть каждую колонку
df.info()

# Просмотр формы данных
df.shape  # (689945, 51)

# распространение этикеток
df.label.value_counts()
# 0 500588
# 1 189357

Видно, что:

  • КромеdиarrivalОбъекты столбца являются дискретными объектами.(характер),Остальное — непрерывные числовые признаки.
  • формат времени:arrivalиdизформат времени Конвертация возможна,И добавьте производное поле, чтобы получить количество дней между
  • Соотношение положительных и отрицательных образцов составляет: 1: 2.7。Имеется небольшой дисбаланс выборки (поэтому к метрике оценки добавляется AUC).

Описательная статистика

Язык кода:javascript
копировать
df.describe()

Зависит от Описательная статистиканаблюдатьданныенаборизРасположениецентральная тенденция(среднее значение、медианное число、Режим),Дисперсия(дисперсия、стандартное отклонение、Коэффициент дисперсии、межквартильный размах),Статистическая графика распределения данных(коэффициент перекоса)。

Зависит от Описательная статистика Это можно увидеть,data имеет следующие проблемы:

  • Поле отсутствует,Столбцы функций отсутствуют в разной степени,Таким образом, количество некоторых столбцов функций не равно 689945.,нравитьсяhistoryvisit_7ordernumтолько82915полоска,Данные отсутствуют. При выполнении пропущенных значений в дальнейшем следует обратить внимание на форму распределения.
  • не должендлягрузизданные Столбец функцийЕсть отрицательное значениеиз Состояние,нравиться:delta_price1(Цена по предпочтениям пользователь - Самые просматриваемые цены на отели за 24 часа)、lowestpricedelta_price2customer_value_profit(клиентзакрыватьодин Годизценаценить),Эти отрицательные значения являются аномалиями.,Отрицательные значения необходимо обработать позже
  • данные Столбец функцийЭкстремум существуетСостояние,Разница очень большая,Такие данные необходимо обрабатывать для получения экстремальных значений.
  • Форма распределения данных искажена,Структура распределения некоторых полей искажена.,нравитьсяdecisionhabit_userвидеть Может быть правильно перекошеноизформа。лицом сзадиданныеиз Отсутствующийнаполнение、Обработка массу следует рассматривать в сочетании с условием асимметрии.

Проверьте долю пропущенных значений

Язык кода:javascript
копировать
#Проверьте долю пропущенных значений
df.isnull().mean().sort_values(ascending=False)

см. Поле отсутствует Состояниесерьезный,вhistoryvisit_7ordernumОтсутствующие значения до88%。Кромеarrival,d,h,sampleid,iforderpv_24h,sid,labelснаружи,Остальные 44 столбца полей в разной степени отсутствуют. Таким образом, следующее будет основано на отсутствующей ситуации.,В сочетании с распределением характеристик данных,Выберите подходящий метод заполнения пропущенных значений.

2.3 Распределение данных

Просмотр распределения данных поможет при проектировании функций выбрать подходящие методы обработки данных на основе распределения данных (включая пропущенные значения, обработку выбросов и непрерывную дискретизацию функций), а также поможет получить более глубокое понимание поведения пользователей.

2.3.1 Обзор распределения данных
Язык кода:javascript
копировать
# асимметрия распределения данных
df.skew().sort_values()

Когда данные распределяются симметрично слева направо,Коэффициент асимметрии равен 0. Коэффициент асимметрии больше 1 или меньше -1,рассматривается как сильно искаженное распределение;Коэффициент асимметрии0,5~1 или -1~-0,5,Распределение считается умеренно асимметричным. Коэффициент асимметрии составляет **-0,5~0 или 0~0,5**;,Считается слегка искаженным распределением.

Как видно из вышеизложенного, за исключением businessrate_pre2, businessrate_pre и customereval_pre2, остальные данные в основном имеют очень асимметричное распределение.

Язык кода:javascript
копировать
# Посмотреть карту распределения данных
df.hist(figsize=(20,20))
plt.savefig('./images/data_distribution_raw.png')
2.3.2 Дата бронирования и дата заезда
Язык кода:javascript
копировать
# Сделайте копию данных и сохраните ее.
cdf = df.copy()
# Постройте таблицу времени посещения и времени прибытия.
cdf_d = cdf.d.value_counts().to_frame().reset_index()
cdf_arrival = cdf.arrival.value_counts().to_frame().reset_index()
time_table = cdf_d.merge(cdf_arrival, how='outer', on='index')
time_table.fillna(0, inplace=True)
time_table.set_index('index',inplace=True)
time_table.sort_index(inplace=True)
# Получить поля
x = time_table.index
y1 = time_table.arrival
y2 = time_table.d
# Нарисуй картинку
plt.figure(figsize=(14,5))
plt.style.use('seaborn-colorblind')
plt.plot(x, y1, c='orange', label='количество гостей')
plt.bar(x, y2, align='center', label='забронированное количество человек')
plt.title('Посещаемость и заполняемость',fontsize=20)
plt.xticks(rotation=45,fontsize=12)
plt.yticks(fontsize=14)
plt.xlabel('дата',fontsize=14)
plt.ylabel('количество людей', fontsize=14)
plt.legend(fontsize=14)

Как видно из рисунка, количество бронирований и заполняемость постепенно увеличивались до 520, достигнув пика на 520. После 521 количество заполняемости резко упало, а затем количество заполняемости отелей стало относительно стабильным. Последнее. два пика пришлись на выходные.

2.3.3 Период времени доступа
Язык кода:javascript
копировать
plt.figure(figsize=(15,6))
plt.hist(cdf.h.dropna(), bins=48, align='mid')  # Так как это 24 часа, то они разделены на 48 ячеек так, чтобы посередине остался пробел.
plt.title('Период времени доступа',fontsize=20);
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.xlabel('Время доступа',fontsize=14); 
plt.ylabel('количество людей',fontsize=14);

Из периода посещения видно, что наименьшее количество посетителей приходится на четыре или пять часов утра, когда большинство людей спят, что соответствует графику людей. Впоследствии количество посетителей, как правило, увеличивалось в течение дня и немного снижалось между 17:00 и 19:00, поскольку это было время, когда люди добирались до работы или ужина. После этого периода количество посетителей начало расти. снова постепенно увеличиваться, достигая пика в 22:00.

2.3.4 Ценность для клиента
Язык кода:javascript
копировать
plt.figure(figsize=(12, 4))
plt.style.use('bmh')
# Посмотрите customer_value_profit и ctrip_profits Распределение обоих
plt.subplot(121)
plt.plot(cdf.index, cdf.customer_value_profit,linewidth=0.5)
plt.title('Ценность клиента за последний год')
plt.subplot(122)
plt.plot(df.index,df.ctrip_profits,linewidth=0.5)
plt.title('ценность для клиента')
plt.savefig('./images/ценность для клиента.png')
  • клиентзакрыватьодин Годизценаценитькартинаиценность для клиент Фотографии в целом очень похожи,Большинство людей распределены в диапазоне от 0 до 100. кроме того,Поскольку эти две функции очень близки по распространению,Это можно будет исправить позжеcustomer_value_profitиctrip_profitsруководитькорреляционный анализпроверять,Если коэффициент корреляции велик,Можно рассмотреть возможность уменьшения размерности PCA.
  • Не исключено, что какая-то ценность для Клиент очень велик, пик достигает 600. Этих клиентов можно наблюдать при последующем анализе, поскольку они очень «ценные». Но эти клиенты с чрезмерными пиками могут быть Точка существования слишком велика, поэтому данные необходимо обработать дальше.
  • кроме того,Это можно увидеть,Оба поля присутствуют частично. Ценность данных для клиента отрицательна.,Это выбросы,Необходимо обработать.
2.3.5 Индекс покупательной способности
Язык кода:javascript
копировать
plt.figure(figsize=(12, 4))
plt.hist(df.consuming_capacity,bins=50,edgecolor='k')
plt.xlabel('индекс покупательной способности')
plt.ylabel('количество людей')
plt.title('индекс покупательной способностикартина')
plt.savefig('./images/индекс покупательной способностикартина.png')

Мы видим, что индекс покупательной способности колеблется от 0 до 100. Значение индекса потребительской мощности в основном представляет собой нормальное распределение с наклоном вправо, со средней мощностью потребления около 30. Мы также можем видеть, что существует особенно большое количество людей с потребительской способностью около 100, достигающее более 21 000 человек. Этот момент мы можем видеть. Видно, что среди гостей отеля по-прежнему есть большая группа состоятельных людей.

2.3.6 Распределение индекса ценовой чувствительности
Язык кода:javascript
копировать
plt.figure(figsize=(12, 6))
plt.hist(df['price_sensitive'].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('индекс чувствительности цены') 
plt.ylabel('количество людей') 
plt.title('Распределение индекса ценовой чувствительности')
plt.savefig('./images/Распределение индекса ценовой чувствительности.png')
plt.show()

На диаграмме индекса чувствительности к цене имеются экстремальные значения на обоих концах, а распределение в середине обычно представляет собой нормальное распределение с наклоном вправо. Большинство людей не чувствительны к цене. Для этих пользователей цена не является самым важным. фактор, который следует учитывать. Конечно, мы также обнаружим, что людей не так много, когда индекс чувствительности к цене равен 100. Для этой группы клиентов мы можем рассмотреть возможность использования некоторых скидок для привлечения потребления.

2.3.6 Средняя цена гостиницы
Язык кода:javascript
копировать
plt.figure(figsize=(12, 4))
plt.subplot(121)
plt.hist(df.avgprice.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('цена отеля')
plt.ylabel('предпочтительное количество людей')
plt.title('Предпочтительная цена отеля')
# Поскольку цены на отели в основном находятся в пределах 2000, мы провели дополнительный визуальный осмотр этого диапазона.
plt.subplot(122)
plt.hist(df[df.avgprice<2000]['avgprice'].dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('цена отеля')
plt.ylabel('предпочтительное количество людей')
plt.title('Предпочитаемый отель в пределах 2000 юаней')
plt.savefig('./images/hotelpreference.png')

Видно, что ценовое предпочтение отелей представляет собой нормальное распределение с небольшим перекосом влево. Большинство людей предпочитают цену в пределах 150–600 юаней. После 1500 юаней людей немного. Средняя цена около 250.

2.3.7 Предпочтение звездности отеля
Язык кода:javascript
копировать
plt.figure(figsize=(10, 4))
plt.hist(df.starprefer.dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('звездное предпочтение')
plt.ylabel('Выберите количество человек')
plt.title('Звездность отеля')
plt.savefig('./images/Звездность отеля.png')

Закономерность распределения не такая сильная, как ценовое предпочтение отелей. В сегментах 40, 60, 80 и 100 есть экстремумы. Эти экстремумы можно использовать для предварительной обработки данных. Но в целом предпочтение звезд в основном сосредоточено между 60 и 80.

2.3.8 Коэффициент отмены заказов
Язык кода:javascript
копировать
plt.figure(figsize=(10, 4))
plt.hist(df.ordercanceledprecent.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('Коэффициент отмены заказа')
plt.ylabel('количество людей')
plt.title('Коэффициент отмены заказа')
plt.savefig('./images/Коэффициент отмены заказа.png')

Существует большое количество случаев отмены заказов пользователей, равных 0, что указывает на то, что большинство пользователей будут регистрироваться после бронирования отеля. В то же время есть и экстремальные пользователи, у которых коэффициент отмены заказов равен 1. Третье место среди пользователей имеет коэффициент отмены заказов 0,5.

2.3.9 Распределение годовых заказов по пользователям
Язык кода:javascript
копировать
plt.figure(figsize=(12, 6))
plt.hist(df[df["ordernum_oneyear"]<100]["ordernum_oneyear"].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('Количество годовых заказов пользователей') 
plt.ylabel('количество') 
plt.title('Распределение годовых заказов по 100 пользователям')
plt.savefig('./images/Распределение годовых заказов пользователей в пределах 100.png')
plt.show()

Подавляющее большинство пользователей размещают менее 50 заказов в год, при этом относительно большая часть пользователей размещает заказы в течение 5 раз.

2.3.10 Уровень потерь новых и старых клиентов
Язык кода:javascript
копировать
# По SID можно судить о новых и старых клиентах. Потерян он или нет, судите по этикетке.
# Рассчитайте отток новых и старых пользователей
s_table = cdf[['label','sid']]
s_table['sid'] = np.where(s_table['sid']==1, 1, 0)  # Воляsidобрабатывается как0и1Два вида Состояние,Отвечать новым и старым клиентам
s_table['flag'] = 1  # 
s = s_table.groupby('sid').sum().reset_index()  # Отличаются новыми и старыми пользователями,labelЭто потеряи Не потеряноизлюдичисло,flagновый、Количество старых пользователей
s['rate'] = s['label'] / s['flag']  # Отток новых и старых пользователей
# Нарисуй картинку
# Доля новых и старых клиентов
plt.figure(figsize=(12, 5))
plt.subplot(121)
percent=[s['flag'][0]/s['flag'].sum(), s['flag'][1]/s['flag'].sum()]
# color=['steelblue','lightskyblue']
label=['Старый клиент','Новый клиент']
plt.pie(percent,autopct='%.2f%%',labels=label)
plt.title('Доля новых и старых клиентов')
# уровень оттока
plt.subplot(122)
plt.bar(s.sid, s.rate,align='center',tick_label=label,edgecolor = 'k')
plt.ylabel('уровень оттока')
plt.title('新老клиент中изклиентуровень оттока');

Мы видим, что среди большого количества клиентов 94,42% составляют старые клиенты, а на долю новых клиентов приходится только 5,58%. Кроме того, уровень оттока старых клиентов достигает 28%, а уровень оттока новых клиентов составляет 20%. , мы должны принять меры по предотвращению оттока пользователей и внедрить новые методы привлечения, чтобы привлечь больше новых клиентов.

3. Предварительная обработка данных

На основании результатов, полученных в ходе исследовательского анализа, нам необходимо выполнить ряд предварительной обработки данных, включая преобразование формата данных, обработку пропущенных значений и обработку выбросов.

Язык кода:javascript
копировать
rawdf = df.copy()

3.1 Удалите ненужные поля и дубликаты полей

sampleidСписоквыражатьиз是每одинполоскаизобразец записи,firstorder_buСписоквыражать首笔Заказизbu,С практической точки зрения,Это мало влияет на то, потеряются ли пользователи. кроме того,labelСтолбцы также следует удалить.。

Язык кода:javascript
копировать
drop_columns = ['sampleid', 'firstorder_bu' ]
rawdf.drop(drop_columns, axis=1, inplace=True)
rawdf.drop_duplicates(inplace=True)

3.2 Преобразование типов данных

Временная обработка объектов Дата посещенияdи Дата заездаarrivalПоледляхарактернитьдобрыйформа,С практической точки зрения,Лучшим способом было бы преобразовать его в тип int для дня недели.

Кроме того, выходной день оказывает большое влияние на фактическое поведение пользователя, поэтому необходимо добавить столбец функции для определения того, выходной ли это день.

Кроме того, чем дольше время между бронированием и регистрацией, тем выше риск влияния на принятие решения пользователем, поэтому также создается новый столбец функций о количестве дней между бронированиями.

Язык кода:javascript
копировать
# Преобразование двух переменных даты из строки в формат даты
rawdf['arrival'] = pd.to_datetime(rawdf['arrival'] )
rawdf['d'] = pd.to_datetime(rawdf['d'])
# Создайте количество дней для предварительного бронирования (производная переменная) (дата прибытия – интервал дат посещения) (посмотрите, за сколько дней нужно забронировать)
rawdf['day_advanced'] = (rawdf['arrival']-rawdf['d']).dt.days
# формат времени
rawdf['d'] = pd.to_datetime(df['d'], format = '%Y-%m-%d')
rawdf['arrival'] = pd.to_datetime(df['arrival'], format='%Y-%m-%d')
# В какой день недели пользователь регистрируется
rawdf['arrival_weekday'] = rawdf['arrival'].map(lambda x:x.weekday())
# Является ли день регистрации пользователя выходным днем
def is_weekend(a):
if int(a) in [0,1,2,3,4]:
return 0 # 0 представляет рабочий день
else:
return 1 # 1 означает, что сегодня выходные
rawdf['is_arrival_weekend'] = rawdf['arrival_weekday'].map(lambda x: is_weekend(x))
rawdf.drop(labels=['d','arrival'], axis=1, inplace=True)

3.3 Обработка значений исключений

3.3.1 Обработка отрицательных чисел

В сочетании с визуализациями, наблюдаемыми в ходе исследовательского анализа,

  • delta_price1(Цена по предпочтениям пользователь - Самые просматриваемые цены на отели за 24 часа)、delta_price2(Цена по предпочтениям пользователя-24hПосмотреть средние цены на отели)、lowestprice(Самая низкая цена, доступная на данный момент для отеля.)Теоретически среди этих трех цены на отели не могут быть отрицательными.,и Зависит от Визуализациякартинанаблюдатьприезжатьданные Распределение относительно концентрированное.,Поэтому отрицательные значения принимаютмедианное числоиметь дело с。
  • customer_value_profit(ценность для клиента_закрывать1Год)、ctrip_profits(ценность для клиента)Оно также не должно быть отрицательным.,объединить Визуализацияданныераспределенныйкартинавидетьониизраспределенный较длядисперсия,Поэтому установите его наполнение на 0.
Язык кода:javascript
копировать
filter_one=['customer_value_profit','ctrip_profits']
filter_two=['delta_price1','delta_price2','lowestprice']
for f in filter_one:
rawdf.loc[rawdf[f]<0, f] = 0
for f in filter_two:
rawdf.loc[rawdf[f]<0, f] = rawdf[f].median()
rawdf[['customer_value_profit','ctrip_profits','delta_price1','delta_price2','lowestprice']].describe()
3.3.2 Обработка экстремальных значений

Из распределения данных в исследовательском анализе видно, что многие функции имеют чрезвычайно большие и чрезвычайно маленькие выбросы, такие как customer_value_profit, ctrip_profits, starprefer и т. д., показанные выше. Поэтому квантили 1% и 99% используются для всех полей для замены значений за пределами верхней и нижней строки.

Язык кода:javascript
копировать
for i in rawdf.columns:
value_1_percent =  np.percentile(rawdf[i], 1)  # # 1% значение
value_99_percent = np.percentile(rawdf[i], 99) # 99% значение
rawdf.loc[rawdf[i]<value_1_percent, i] = value_1_percent
rawdf.loc[rawdf[i]>value_99_percent, i] = value_99_percent
# Посмотреть производительность
rawdf.skew().sort_values()

3.4 Обработка пропущенных значений

Часто используемые методы обработки пропущенных значений

  • Не обрабатывается (для древовидных моделей, таких как XGBoost);
  • удалить(Отсутствующийданныеслишком);
  • Завершение интерполяции, включая среднее значение/медиану/режим/прогнозирование моделирования/множественную интерполяцию/завершение сжатого измерения/завершение матрицы и т. д.;
  • Биннинг, одно поле для пропущенных значений;
3.4.1 Удалить

для Отсутствующий Ставка>80%изособенность,Поля и характеристики, соответствующие удалению

Язык кода:javascript
копировать
print('Исходное измерение данных: {}'.format(rawdf.shape))
# Функция, определяющая строку и столбец удаленных значений
def nan_drop(df,axi, rate=0.5):
# Например, rawdf.shape[1-0]: если вы хотите, чтобы удаление было строкой, тогда посмотрите на количество столбцов, а затем * соотношение, то есть сколько столбцов отсутствует в строке
# И наоборот, если вы хотите удалить столбец, посмотрите на соотношение количества строк *, то есть сколько строк отсутствует в этом столбце, поэтому удалите
# молоти хоть сколько есть, иначе удаляй
df.dropna(axis=axi, how='any', thresh=df.shape[1-axi]*rate, inplace=True)
# удалить Отсутствующийценить Пропорциябольшой В80%из ХОРОШОи Список
nan_drop(rawdf, axi=0, rate=0.2)
nan_drop(rawdf, axi=1, rate=0.2)
print('удалить Измерение после поля с более высокой долей отсутствий: {}'.format(rawdf.shape))

Исходное измерение данных: (684406, 50). Размеры после удаления полей с высокой долей пропущенных значений: (684401, 49).

3.4.2 Заполнение

Для полей с пропущенными значениями менее 80% заполняйте их исходя из формы распределения данных. Если распределение подчиняется нормальному распределению, используйте для заполнения среднее значение, а если распределение искажено, используйте для заполнения медиану.

Язык кода:javascript
копировать
# Проверьте асимметрию данных с пропущенными цифрами
rawdf.skew()[rawdf.isnull().mean(0)>0].sort_values()  # Проверьте асимметрию данных с пропущенными цифрами

Из информации об асимметрии данных видно, что starprefer, businessrate_pre2, businessrate_pre, customerreval_pre2, ordercanceledprecent, Consumer_capacity, cancelrate_pre заполнены средними значениями. Медианное заполнение других недостающих столбцов.

Язык кода:javascript
копировать
# В нормально распределенных полях используется среднее наполнение.
def nan_fill(df):
filter_mean = ["businessrate_pre2","cancelrate_pre",
"businessrate_pre",'starprefer','cancelrate_pre',
'customereval_pre2','ordercanceledprecent',
'consuming_capacity']
for col in df.columns:
if col in filter_mean:
df[col] = df[col].fillna(df[col].mean())
else:
df[col] = df[col].fillna(df[col].median())
return df
rawdf = nan_fill(rawdf)

4. Разработка функций

4.1 Корреляционный анализ

Анализ характеристик пользователей

Язык кода:javascript
копировать
# Извлечение пользовательских функций
user_features=['visitnum_oneyear','starprefer','sid','price_sensitive','ordernum_oneyear','ordercanncelednum','ordercanceledprecent','lastpvgap',
'lasthtlordergap','landhalfhours','iforderpv_24h','historyvisit_totalordernum','historyvisit_avghotelnum','h',
'delta_price2','delta_price1','decisionhabit_user','customer_value_profit','ctrip_profits','cr','consuming_capacity','avgprice']
# Сгенерировать корреляционную матрицу пользовательских функций
corr_mat = rawdf[user_features].corr()
# Построить тепловую карту корреляционной матрицы характеристик пользователя
fig, ax = plt.subplots(figsize=(18,12))
sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap="YlGnBu")
plt.savefig('./images/usercharacteristicsкорреляционный анализ Тепловая карта.jpg', dpi=400, bbox_inches='tight')
plt.show()

Как видно из тепловой карты:

  • delta_price1иdelta_price2из Корреляция настолько высока, насколько0.93,Первое означает Цена по предпочтениям пользователя-24Самые просматриваемые цены на отели за час,Последнее означает Цена по предпочтениям пользователя-24Час Посмотреть средние цены на отели,Объясните, что цена самого просматриваемого отеля в течение 24 часов повлияет на среднюю цену просматриваемого отеля.,Это понятнодля Режимисреднийчислоизсвязь。Таким образом, вы можете выбратьPCAИзвлеките основной компонент, представляющий ценовые предпочтения пользователя.。
  • ordernum_oneyearиhistoryvisit_totalordernumиз Корреляция настолько высока, насколько0.93,Оба представляют количество заказов, размещенных пользователем в течение одного года.,При выборе функций вы можете выбрать только один из них.,Ordernum_oneyear здесь выбирается как характеристика номера годового заказа пользователя.,PCA также можно использовать для уменьшения размерности;
  • decisionhabit_userиhistoryvisit_avghotelnumиз Актуальность达приезжать了0.93,Первый представляет привычки пользователя в принятии решений.,Последний представляет собой среднее количество посещений отеля пользователями в день за последние три месяца. Это показывает, что пользователи с более длительным временем принятия решений окажут большее влияние на среднее количество посещений отелей за последние три месяца.,Наоборот,Чем больше отелей вы посещаете,Чем дольше пользователь принимает решение.
  • customer_value_profitиctrip_profitsмеждуиз Актуальность达приезжать了0.86,Первый представляет ценность пользователя за последний год.,Последнее также представляет ценность для пользователя.,Разница в сегментации заключается в измеренной продолжительности времени.,Здесь также выбирается PCA для извлечения основного компонента, представляющего ценность для пользователя.
  • consuming_capacityиavgpriceмеждуиз Актуальность达приезжать了0.85,Первое означаетпользовательиндекс покупательной способности,Последний представляет собой среднюю цену отеля. Это очевидно,Чем выше покупательная способность,выбраноизотельсреднийцена格большой概Ставка也Чем выше。Выбирайте здесьconsuming_capacityДля представления характеристик потребительской способности пользователя.,Вы также можете рассмотреть возможность использования уменьшения размерности PCA для синтеза этих двух функций.

Корреляционный анализ информационных особенностей отеля

Язык кода:javascript
копировать
# Информационные функции отеля корреляционный анализ
# Особенности отеля
hotel_features=['hotelcr','hoteluv','commentnums','novoters','cancelrate','lowestprice','cr_pre','uv_pre','uv_pre2','businessrate_pre',
'businessrate_pre2','customereval_pre2','commentnums_pre','commentnums_pre2','cancelrate_pre','novoters_pre','novoters_pre2',
'deltaprice_pre2_t1','lowestprice_pre','lowestprice_pre2','historyvisit_visit_detailpagenum']
# генерировать Особенности отеляизкорреляционная матрица
corr_mat1 = rawdf[hotel_features].corr()
# Нарисуй картинку
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(corr_mat1, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/Корреляционный анализ информационных особенностей отеляHeat map.jpg',dpi=400, bbox_inches='tight')
plt.show()
  • novotersиcommentnumsиз Корреляция настолько высока, насколько0.99,Две функции тесно связаны。Поэтому возьмитеcommentnumsособенность进入后续изпредсказыватьианализировать Просто отлично,Или выберите PCA, чтобы извлечь главный компонент, представляющий количество отзывов об отелях.
  • cencelrateиcommentnumsтрииз Актуальность也很高达приезжать了0.86,Это можно увидетьотельиз Комментарийчислои取消Ставка有很高изсвязь,Возможно, это связано с тем, что пользователи после выбора отеля проверят соответствующие отзывы об отеле.,Чем больше отзывов об отеле, тем больше информации он имеет.,Пользователи также узнают больше об отеле,Так что количество отписок меньше. Поэтому пользователей следует поощрять оценивать отель.
  • uv_preиuv_pre2из Актуальность达приезжать了0.9,Они оба означают количество уникальных посетителей отеля с наибольшим количеством просмотров за 24 часаинформация,Таким образом, вы можете выбрать PCA для получения анализа главных компонентов, чтобы представить количество уникальных посетителей отеля с наибольшим количеством просмотров за 4-часовую историю.
  • commentnums_preиnovoters_preиз Корреляция настолько высока, насколько0.99,Эти две характеристики тесно взаимосвязаны. Поэтому PCA был выбран для извлечения основного компонента, представляющего количество отзывов об отелях с наибольшим количеством просмотров за 24-часовую историю.
  • commentnums_pre2иnovoters_pre2из Корреляция настолько высока, насколько0.99,Эти две характеристики тесно взаимосвязаны. Поэтому PCA был выбран для извлечения основного компонента, представляющего среднее количество отзывов об отелях с наибольшим количеством просмотров за 24-часовую историю.

Корреляционный анализ полей заказов

Язык кода:javascript
копировать
order_features = [ 'day_advanced', 'arrival_weekday', 'is_arrival_weekend' ,'ordercanceledprecent' ,'ordercanncelednum', 
'lasthtlordergap', 'cityuvs', 'cityorders']
order_corr=rawdf[order_features].corr()   
# Нарисуй картинку
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(order_corr, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Blues')
plt.savefig('./images/order information Feature корреляционный анализ Тепловая карта.jpg',dpi=400, bbox_inches='tight')
plt.show()

Та же причина,видетьcityordersиcityuvsсуществовать0.99из Актуальность,Требуется уменьшение размерности PCA

4.2 Уменьшение размерности

Уменьшение размерности относится к,Уменьшить количество случайных величин (особенностей),получить набор“Не актуально”основная переменнаяизпроцесс。используется здесьАнализ главных компонентов (PCA) Снижение размерности выполняется для переменных с корреляцией более 0,8.

Из матрицы корреляционного анализа на рисунке выше мы отфильтровываем измерения, которые очень актуальны для пользователей и отелей, чтобы уменьшить их.

Язык кода:javascript
копировать
c_value=['customer_value_profit','ctrip_profits']                   # Параметр ценности пользователя
consume_level=['avgprice','consuming_capacity']                     # Уровень потребления пользователей
price_prefer=['delta_price1','delta_price2']                        # Цена по предпочтениям пользователя
ordernum_1_year = ['ordernum_oneyear', 'historyvisit_totalordernum']# Количество исторических заказов пользователей за один год
hotel_hot=['commentnums','novoters']                                # Популярность отеля
hotel_hot_pre=['commentnums_pre','novoters_pre']                    # 24hПросмотры внутричислобольшинствоиз Популярность отеля
hotel_hot_pre2=['commentnums_pre2','novoters_pre2']                 # Средняя популярность просмотра отелей за 24 часа
hotel_uv_pre = ['uv_pre', 'uv_pre2']                                # Количество уникальных посетителей отеля с наибольшим количеством просмотров за 24 часа
order_cityuvs_orders = ['cityorders','cityuvs']                     # Вчера посетили приложение в текущем городе с той же датой заезда. uvчислои Заказчисло
Язык кода:javascript
копировать
from sklearn.decomposition import PCA
pca=PCA(n_components=1)
rawdf['c_value']=pca.fit_transform(rawdf[c_value])
rawdf['consume_level']=pca.fit_transform(rawdf[consume_level])
rawdf['price_prefer']=pca.fit_transform(rawdf[price_prefer])
rawdf['ordernum_1_year'] = pca.fit_transform(rawdf[ordernum_1_year])
rawdf['hotel_hot']=pca.fit_transform(rawdf[hotel_hot])
rawdf['hotel_hot_pre']=pca.fit_transform(rawdf[hotel_hot_pre])
rawdf['hotel_hot_pre2']=pca.fit_transform(rawdf[hotel_hot_pre2])
rawdf['hotel_uv_pre']=pca.fit_transform(rawdf[hotel_uv_pre])
rawdf['order_cityuvs_orders']=pca.fit_transform(rawdf[order_cityuvs_orders])
rawdf.drop(c_value,axis=1,inplace=True)
rawdf.drop(consume_level,axis=1,inplace=True)
rawdf.drop(price_prefer,axis=1,inplace=True)
rawdf.drop(ordernum_1_year,axis=1,inplace=True)
rawdf.drop(hotel_hot,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre2,axis=1,inplace=True)
rawdf.drop(hotel_uv_pre,axis=1,inplace=True)
rawdf.drop(order_cityuvs_orders,axis=1,inplace=True)
print('Размеры после уменьшения размерности PCA: {}'.format(rawdf.shape))  # (684128, 40)

4.3 Стандартизация и нормализация данных

Язык кода:javascript
копировать
from sklearn.preprocessing import StandardScaler
y=rawdf['label']
x = rawdf.drop('label', axis=1)
scaler = StandardScaler()
scaler.fit(x)
X = scaler.transform(x)

5. Моделирование и прогнозирование

Подготовка данных

Язык кода:javascript
копировать
from sklearn.model_selection import train_test_split, GridSearchCV
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size= 0.2,random_state=420)

5.1 Логистическая регрессия

Язык кода:javascript
копировать
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn import metrics
lr = LogisticRegression()
lr.fit(X_train, y_train)
y_prob = lr.predict_proba(X_test)[:, 1]  # Предсказать вероятность класса 1
y_pred = lr.predict(X_test)  # Результаты прогнозирования модели на тестовом наборе
print(y_prob)
print(y_pred)
fpr_lr, tpr_lr, threshold_lr = metrics.roc_curve(y_test, y_prob)  # # Получите истинно положительный уровень, ложный положительный уровень и порог.
auc_lr = metrics.auc(fpr_lr, tpr_lr)
score_lr = metrics.accuracy_score(y_test, y_pred)
print('Точность модели: {0}, Оценка AUC: {1}'.format(score_lr, auc_lr)  )
print(classification_report(y_test, y_pred))

5.2 Наивный Байес

Язык кода:javascript
копировать
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()                                                # Создайте экземпляр модели LR
gnb.fit(X_train,y_train)                                          # Модель обучения
y_prob = gnb.predict_proba(X_test)[:,1]                           # Предсказать вероятность класса 1
y_pred = gnb.predict(X_test)                                      # Результаты прогнозирования модели на тестовом наборе
fpr_gnb,tpr_gnb,threshold_gnb = metrics.roc_curve(y_test,y_prob)  # Получите истинно положительный уровень, ложный положительный уровень и порог.
auc_gnb = metrics.auc(fpr_gnb,tpr_gnb)                            # Оценка AUC
score_gnb = metrics.accuracy_score(y_test,y_pred)                 # Точность модели
print('Точность модели: {0},Оценка AUC: {1}'.format(score_gnb,auc_gnb))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))

5.3 Машина опорных векторов

Язык кода:javascript
копировать
from sklearn.svm import SVC
svc = SVC(kernel='rbf', C=1, max_iter=100 ).fit(X_train, y_train) # Функция ядра радиального базиса, C — штрафной член, максимальное количество итераций max_iter, гамма, коэф также часто используется
y_prob = svc.decision_function(X_test)
y_pred = svc.predict(X_test)
fpr_svc, tpr_svc, threshold_svc = metrics.roc_curve(y_test, y_prob)
auc_svc = metrics.auc(fpr_svc, tpr_svc)
score_svc = metrics.accuracy_score(y_test, y_pred)
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_svc,auc_svc))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))

5.4 Дерево решений

Язык кода:javascript
копировать
from sklearn import tree
dtc = tree.DecisionTreeClassifier()                              # Учреждатьдерево решений Модель
dtc.fit(X_train,y_train)                                         # Модель обучения
y_prob = dtc.predict_proba(X_test)[:,1]                          # Предсказать вероятность класса 1
y_pred = dtc.predict(X_test)                                     # Результаты прогнозирования модели на тестовом наборе 
fpr_dtc,tpr_dtc,threshod_dtc= metrics.roc_curve(y_test,y_prob)   # Получите истинно положительный уровень, ложный положительный уровень и порог.
score_dtc = metrics.accuracy_score(y_test,y_pred)                
auc_dtc = metrics.auc(fpr_dtc,tpr_dtc) 
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_dtc,auc_dtc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))

5.5 Случайный лес

Язык кода:javascript
копировать
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()                                     # Учреждатьслучайный классификатор лесов
rfc.fit(X_train,y_train)                                           # тренироватьсяслучайный лесная модель
y_prob = rfc.predict_proba(X_test)[:,1]                            # Предсказать вероятность класса 1
y_pred=rfc.predict(X_test)                                         # Результаты прогнозирования модели на тестовом наборе
fpr_rfc,tpr_rfc,threshold_rfc = metrics.roc_curve(y_test,y_prob)   # Получите истинно положительный уровень, ложный положительный уровень и порог. 
auc_rfc = metrics.auc(fpr_rfc,tpr_rfc)                             # Оценка AUC
score_rfc = metrics.accuracy_score(y_test,y_pred)                  # Точность модели
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_rfc,auc_rfc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))

5.6 XGBoost

Язык кода:javascript
копировать
import xgboost as xgb
# читатьтренироватьсянаборитестовый набор
dtrain = xgb.DMatrix(X_train, y_train)
dtest = xgb.DMatrix(X_test)
# Установите параметры моделирования xgboost
params={ 
'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc',
'max_depth':8,'gamma':0,'lambda':2,'subsample':0.7,'colsample_bytree':0.8,
'min_child_weight':3,'eta': 0.2,'nthread':8,'silent':1}
# Модель обучения
watchlist = [(dtrain,'train')]
bst=xgb.train(params,dtrain,num_boost_round=500,evals=watchlist)
# Введите вероятность того, что прогноз окажется верным.
y_prob = bst.predict(dtest)
# Установите пороговое значение 0,5 и получите результаты тестирования набора тестов.
y_pred = (y_pred >= 0.5)*1
# Получите истинно положительный уровень, ложный положительный уровень и порог.
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob)   
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb)    # Оценка AUC
score_xgb = metrics.accuracy_score(y_test,y_pred)    # Точность модели
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_xgb,auc_xgb))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))

5.7 Сравнение моделей

Язык кода:javascript
копировать
plt.style.use('bmh')
plt.figure(figsize=(16,16))
plt.plot(fpr_lr, tpr_lr, label='lr:%.3f' % score_lr )  # логистическая регрессия
plt.plot(fpr_gnb,tpr_gnb,label='gnb:{0:.3f}'.format(score_gnb))         # Наивный Байес
plt.plot(fpr_svc,tpr_svc,label='svc:{0:.3f}'.format(score_svc))         # векторная машина поддержки
plt.plot(fpr_dtc,tpr_dtc,label='dtc:{0:.3f}'.format(score_dtc))         # дерево решений
plt.plot(fpr_rfc,tpr_rfc,label='rfc:{0:.3f}'.format(score_rfc))         # случайный лес
plt.plot(fpr_rfc,tpr_rfc,label='xgb:{0:.3f}'.format(score_xgb))         # XGBoost
plt.legend(loc='lower right', prop={ 
'size':25})
plt.xlabel('ложноположительный уровень')
plt.ylabel('Истинно положительный показатель')
plt.title('Кривая ROC')
plt.savefig('./Сравнение моделиROC Curve.jpg',dpi=400, bbox_inches='tight')
plt.show()

6. RFM и анализ портрета пользователя

6.1 RFM-анализ

Модель RFM:

  • R (давность): последнее потребление
  • F (частота): частота потребления
  • M (денежный): объем потребления

Поскольку этот эпизод с данными напрямую не дает этих трех показателей,После анализа,выбрать выбратьlasthtlordergap(Время с момента последнего заказа)、ипройтиPCAУменьшение размерностииметь дело сизordernum_1_year(пользователь Год Заказчисло)、consume_level(уровень потребляемой мощности)Сделайте это отдельнодляR、F、Mценить,Сегментировать наши группы пользователей

Язык кода:javascript
копировать
rfm_features = ['lasthtlordergap','ordernum_1_year','consume_level']
rfm = rawdf[rfm_features]
# Нормализация (используется для оценки значений RFM)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(rfm)
rfm = pd.DataFrame(scaler.transform(rfm), columns=['recency', 'frequency','monetary'] )
# группирование
rfm['R'] = pd.qcut(rfm['recency'], 2)
rfm['F'] = pd.qcut(rfm['frequency'], 2)
rfm['M'] = pd.qcut(rfm['monetary'], 2)
# в соответствии сгруппирование Состояниеруководитькодирование,Вторая классификация может напрямую использовать кодировку меток.
from sklearn.preprocessing import LabelEncoder
rfm['R'] = LabelEncoder().fit(rfm['R']).transform(rfm['R'])
rfm['F'] = LabelEncoder().fit(rfm['F']).transform(rfm['F'])
rfm['M'] = LabelEncoder().fit(rfm['M']).transform(rfm['M'])
#Определите модель RFM. Следует отметить, что значение R представляет временной интервал с момента последнего потребления. Чем меньше значение стоимости. для клиента Чем выше,иFиMценить Как раз наоборот。
def get_label(r,f,m):
if (r==0)&(f==1)&(m==1):
return 'ценные клиенты'
if (r==1)&(f==1)&(m==1):
return «Фокус на удержании клиентов»
if((r==0)&(f==0)&(m==1)):
return «Фокус на развитии клиентов»
if (r==1)&(f==0)&(m==1):
return «Фокус на удержании клиентов»
if (r==0)&(f==1)&(m==0):
return «Клиент общей ценности»
if (r==1)&(f==1)&(m==0):
return «Общее удержание клиентов»
if (r==0)&(f==0)&(m==0):
return «Заказчики общего развития»
if (r==1)&(f==0)&(m==0):
return «Потенциальный клиент»
def RFM_convert(df):
df['Label'] = df.apply(lambda x:get_label(x['R'], x['F'], x['M']), axis=1)
df['R'] = np.where(df['R']==0, 'высокий', 'Низкий')
df['F'] = np.where(df['F']==1, 'высокий', 'Низкий')
df['M'] = np.where(df['M']==1, 'высокий', 'Низкий')
return df[['R','F','M','Label']]
rfm0 = RFM_convert(rfm)
rfm0.head()
Язык кода:javascript
копировать
# Визуализация
# label_cnt = rfm0.groupby('Label').size()
label_cnt = rfm0['Label'].value_counts().values
labels = rfm0['Label'].value_counts().index
explode=[0.1,0.1,0.1,0,0,0,0,0]
plt.figure(figsize=(14,18))
# colors=['orangered','lightsalmon','sienna','seashell','chocolate','peru','sandybrown','peachpuff']
plt.pie(label_cnt, labels=labels,radius=1, explode=explode, autopct='%.1f%%',pctdistance=0.75,
wedgeprops={ 
'linewidth':0.5,'edgecolor':'black'}, 
textprops={ 
'fontsize':14,'color':'black'})
# plt.pie([1],radius=0.6,colors='w')
plt.title("Ситуация с группировкой клиентов RFM")
plt.legend(labels, fontsize=14, loc='best')
plt.savefig('./images/Customer Grouping Situation.jpg',dpi=400, bbox_inches='tight')
plt.show()
  • Большинство клиентов являются клиентами общего развития.
  • Потенциальные клиенты составляют 12,45%, и этих клиентов необходимо развивать;
  • ценные клиенты11%, ориентация на удержание клиентов 5,6%, ориентация на развитие клиентов 6,9%, это все ключевые моменты, на которые следует обратить внимание клиентская база на

6.2 Kmeans строит портреты пользователей

Вышеупомянутая модель RFM использует в наборе данных только три напрямую связанные переменные: Lasthtlordergap, ordernum_1_year и Consumer_level. Однако эти переменные не могут полностью охватить характеристики пользователя. Поэтому метод кластеризации K-Means используется для введения других переменных для дальнейшего исследования и анализа. анализ и наблюдать различия категорий клиентов.

6.2.1 Просмотр важных функций
Язык кода:javascript
копировать
from xgboost import plot_importance
# Решите имя функции
def ceate_feature_map(features):
outfile = open('xgb.fmap', 'w')
i = 0
for feat in features:
outfile.write('{0}\t{1}\tq\n'.format(i, feat))
i = i + 1
outfile.close()
ceate_feature_map(rawdf.columns)
fig, ax = plt.subplots(figsize=(16,16))
plot_importance(bst, height=0.5, ax=ax, max_num_features=40, color='green',fmap='xgb.fmap' )
/*
* Совет: Эта строка кода слишком длинная, и система автоматически комментирует ее, не выделяя. Один клик копировать удалит системные комментарии 
* plt.savefig('./images/xgbизанализироватьвнеиз重要особенностькартина.jpg', dpi=400, bbox_inches='tight')
*/
plt.show()

Видно, что важными функциями, превышающими 2000, являются: h, cr, visit_num, visit_oneyear, Consumer_level, Price_prefer, businessrate_pre2, hoteluv, starprefer. Влияние этих функций также будет сосредоточено в последующем анализе.

6.2.2 Кластеризация K-средних

Алгоритм K-Means — это алгоритм неконтролируемой кластеризации, основанный на секционировании. Он использует k в качестве параметра для разделения n объектов данных на k кластеров, так что сходство внутри кластера является высоким, а сходство между кластерами — низким.

На основании приведенного выше корреляционного анализа признаков мы уменьшаем размерность признаков с высокой корреляцией.

Язык кода:javascript
копировать
visit_num=['decisionhabit_user','historyvisit_avghotelnum']        #Количество посещений пользователей
pca=PCA(n_components=1)
rawdf['visit_num']=pca.fit_transform(rawdf[visit_num])
rawdf.drop(visit_num,axis=1,inplace=True)
# Выберите несколько важных показателей для описания пользователей
user_feature = ['ordercanncelednum','ordercanceledprecent','consume_level','starprefer','lasthtlordergap','lastpvgap','h','sid',
'c_value','landhalfhours','price_sensitive','price_prefer','day_advanced','ordernum_1_year','visit_num']
user_attributes = rawdf[user_feature]
# user_attributes.head(30).T
# данныестандартизация
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(user_attributes)
user_attributes = scaler.transform(user_attributes)
# K-означает кластеризацию выбранных ключевых функций для создания портретов пользователей.
from sklearn.cluster import KMeans
Kmeans = KMeans(n_clusters=3)  
Kmeans.fit(user_attributes)
k_char = Kmeans.cluster_centers_  # Получить центроид каждой категории
persons = pd.DataFrame(k_char.T, index=user_feature,  columns=['Категория 0','Категория 1','Категория 2'] )
Язык кода:javascript
копировать
plt.figure(figsize=(6,12))
sns.heatmap(persons, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/user Portrait table.jpg',dpi=400, bbox_inches='tight')
plt.show()

Из тепловой карты Видно, что:

  • 1добрый Уровень потребления пользователей(consume_level)иценовое предпочтение(price_prefer)длятридобрыйпользователь中最高,В то же время более высокий уровень звездности отражает наличие у этого типа пользователей определенных требований к качеству отелей.,Но в то же время этот тип пользователей имеет самую высокую чувствительность к цене (price_sensitivity).,Частота заказов в прошлом году — самая низкая среди трёх типов пользователей.,Прошло много времени с момента последнего употребления,Они обычно бронируют отели заранее.,А «Коэффициент бронирования заказа» является самой низкой из трех категорий пользователей.,Таким образом, можно сделать вывод, что этот тип пользователей является туристическим клиентом.,объединитьsidПриходите и посмотрите, какие ониценные клиенты
  • Частота заказов пользователей 2-го типа за последний год (ordernum_1_year) является самой высокой среди трех типов пользователей, но в то же время частота заказов этого типа пользователей является самой высокой среди трех типов пользователей. отмены заказа Также самый высокийиз。ихиз消费水平один般,Среднее предпочтение отелей,Но не очень чувствителен к цене,Обычно отели не бронируются заранее. Они чаще используют Ctrip для просмотра отелей.,В основном старые пользователи,А ценность пользователя является средней среди трех типов пользователей.,поэтому Воля2добрыйпользователь定义дляклиенты средней стоимости
  • 0добрыйпользовательиз Визуализацияданные В основном белыйиз,Уровень потребления клиентови使用频Ставка都是最低из,поэтому Воляэтотдобрыйпользователь归для“пользователи с низкой ценностью”,Но SID отмечает, что большинство из них — новые клиенты.

Визуализируйте пропорции трех типов клиентов

Язык кода:javascript
копировать
plt.figure(figsize=(9,9))
class_k=list(Kmeans.labels_)                          # Количество пользователей в каждой категории
percent=[class_k.count(0)/len(user_attributes),
class_k.count(1)/len(user_attributes),
class_k.count(2)/len(user_attributes)]       # Доля пользователей в каждой категории
fig, ax = plt.subplots(figsize=(10,10))
colors=['peachpuff','sandybrown','chocolate']
типы = ['клиенты с низкой ценностью','пользователи с высокой ценностью','пользователи со средней ценностью']
ax.pie(percent,radius=1,autopct='%.2f%%',pctdistance=0.75,colors=colors,labels=types)
ax.pie([1], radius=0.6,colors='w')
plt.savefig('./images/userportportorion.jpg',dpi=400, bbox_inches='tight')
plt.show()

Как видно из круговой диаграммы, пользователи с высокой стоимостью составляют 13,26%; пользователи со средней ценностью составляют лишь 6,19%. Необходимо расширить группу пользователей со средней ценностью. На долю пользователей-ценностей приходится до 80,55%, многие из которых являются новыми пользователями, этих новых пользователей необходимо конвертировать.

6.2.3 Анализ портрета пользователя
Анализ ценных пользователей

Характеристики ценных пользователей: высокий уровень потребления, большая ценность для клиентов, стремление к высококачественным отелям (с предпочтением звездного рейтинга), в основном старые клиенты, они очень чувствительны к ценам на отели и обычно бронируют отели заранее, отмена заказов. ставка Это самая низкая среди трех типов пользователей, но частота заказов в прошлом году также самая низкая, а время последнего потребления было долгое время. Таким образом, можно разумно предположить, что основная цель таких пользователей, бронирующих отели, — путешествие.

Для этой группы клиентов нам необходимы:

  1. Регулярно продвигайте как можно больше отелей за две-три недели до праздников, потому что этот тип пользователей обычно любит всесторонне просматривать и рассматривать.
  2. Качество рекомендованных отелей может быть выше,При этом цена должна быть привлекательной. Рекомендуемая местная туристическая информация,привлекать пользователейсосредоточиться на,Потому что этот тип пользователей чаще путешествует,然后通过пользовательиз点击ХОРОШОдля优化отель推荐из Точность(в цене、звездный рейтинг、Место、категория)
  3. Сотрудничайте с агентами отелей в живописных местах, чтобы персонализировать рекомендации для этого типа пользователей и рекомендовать более экономичные отели.
анализ средней стоимости

Характеристики клиентов средней ценности: средний уровень потребления, среднее предпочтение отелей, в основном старые клиенты, высокая пользовательская ценность и низкая ценовая чувствительность. Они часто просматривают информацию об отелях и имеют длительный вход в систему в течение 24 часов, поэтому могут выбирать отель, сравнивая цены. Они часто бронируют номера в отелях, но, как правило, не делают этого заранее, а процент отмены заказов также очень высок. Можно разумно предположить, что деловые качества нового типа пользователей относительно тяжелы. Им может потребоваться часто путешествовать, и они, как правило, не бронируют отели слишком заранее. Маршрут деловой поездки может измениться, а заказ может быть отменен.

На эту группу клиентов приходится только6.19%,поэтому Для этой группы клиентов нам необходимы:

  1. Рекомендовать более доступные бизнес-отели для привлечения пользователей, а также проводить рекомендации по моделированию и оптимизации на основе портретов пользователей;
  2. Регулярно публикуйте информацию о платформе для постоянного обслуживания пользователей;
Анализ малоценных клиентов

Характеристики малоценных клиентов: наиболее очевидными характеристиками являются то, что количество просмотров и время просмотра очень низкое, уровень потребления и ценность для пользователя самые низкие, количество просмотров и заказов очень низкое, эти пользователи могут лишь изредка бронировать отели на Ctrip, почти Они никогда не тратили деньги и мало гонятся за качеством отелей, поэтому основное внимание уделяется активации пользователей. В то же время, поскольку значение SID очень низкое, это означает, что большинство новых клиентов только что зарегистрировались или не использовали его после регистрации.

Поскольку доля малоценных клиентов достигает 80%, необходимо способствовать конверсии новых групп пользователей:

  • Для пользователей, которые не заходили в систему в течение длительного времени, можно использовать информационную рассылку для напоминания и восстановления пользователей, а также выдавать купоны для стимулирования потребления;
  • Поскольку новые пользователи являются потенциальными клиентами, рекомендуется учитывать первоначальный опыт пользователя (например, действия по скидкам на первоначальное потребление, мероприятия по регистрации и т. д.) и регулярно предлагать таким пользователям доступные отели, чтобы развивать потребительские привычки пользователей.
  • Продвигаемый контент также должен побуждать пользователей к конверсии. Рекомендуемый контент в основном может быть посвящен большим распродажам, большим рекламным акциям, низким ценам и т. д.;
  • Когда на ранней стадии было мало портретов пользователей,Рекомендации отелей можно комбинировать с популярными отелями сезона, популярной информацией, отелями, наиболее популярными среди близлежащих людей и т. д.,Затем постепенно улучшайте портрет пользователя.

Заявление об авторских правах: Содержание этой статьи добровольно предоставлено пользователями Интернета, а мнения, выраженные в этой статье, представляют собой только точку зрения автора. Этот сайт предоставляет только услуги по хранению информации, не имеет никаких прав собственности и не принимает на себя соответствующие юридические обязательства. Если вы обнаружите на этом сайте какое-либо подозрительное нарушение авторских прав/незаконный контент, отправьте электронное письмо, чтобы сообщить. После проверки этот сайт будет немедленно удален.

Издатель: Full stack программист и руководитель стека, укажите источник для перепечатки: https://javaforall.cn/180494.html Исходная ссылка: https://javaforall.cn

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose