Ctrip — ведущая китайская компания, предоставляющая комплексные туристические услуги.,Предоставление полного спектра туристических услуг более чем 250 миллионам участников каждый день,Таким образом, каждый день генерируется большое количество вариантов поведения пользователей.данные,Эти данные содержат богатые информационные ресурсы. кроме того,Клиенты – важный ресурс для предприятия,Это также нематериальный актив предприятия.,отток клиентов,Это означает потерю активов,Поэтому клиентыуровень оттока Это очень важный показатель для оценки эффективности бизнеса.。
Этот проект посвящен углубленному пониманию портретов и поведенческих предпочтений пользователей, поиску оптимального алгоритма и выявлению ключевых факторов, влияющих на отток пользователей. Это может улучшить дизайн продукта, улучшить взаимодействие с пользователем и предоставить персонализированные стратегии работы для разных типов пользователей.
Этот отчет можно разделить на следующие части:
Всего официально предоставлено 2 эпизода данных.,соответственно для обучающего набораuserlostprob_train.txt
итестовый наборuserlostprob_test.txt
。Тренировочный набор — это2016.05.15-2016.05.21Во время недельного визитаданные,Тестовый набор - неделя посещений с 22.05.2016 по 28.05.2016.
Официальным стандартом оценки для этого проекта является максимальное значение полноты при точности ≥ 97%. Своими словами я выбираю точность и значение AUC.
Точность: (количество образцов, которые прогнозировались для оттока, которые действительно произошли)/(количество образцов, которые прогнозировались для оттока) Скорость восстановления: (количество образцов, которые, по прогнозам, будут потеряны и фактически потеряны)/(количество фактически потерянных образцов)
Просмотр каждого поля функции набора данных,в,label=1
Представляет потерянных клиентов,label=0
Представляет неушедших клиентов。Остальные показатели можно в основном разделить на три типа.данныеиндекс:
#Импортируем базовый пакет
%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
# Решите проблему искаженных китайских иероглифов.
plt.rcParams['font.sans-serif']=['SimHei'] #Используется для нормального отображения китайских меток
plt.rcParams['axes.unicode_minus']=False #Используется для нормального отображения отрицательных знаков
#Показать все возможности
pd.set_option('display.max_columns',Никто)
#readданные
df = pd.read_csv('./data/userlostprob_train.txt',sep='\t')
df.head()
Глядя на данные, данные обычно имеют некоторые характеристики:
Продолжить просмотр информации о данных
# Просмотреть каждую колонку
df.info()
# Просмотр формы данных
df.shape # (689945, 51)
# распространение этикеток
df.label.value_counts()
# 0 500588
# 1 189357
Видно, что:
d
иarrival
Объекты столбца являются дискретными объектами.(характер),Остальное — непрерывные числовые признаки.arrival
иd
изформат времени Конвертация возможна,И добавьте производное поле, чтобы получить количество дней междуОписательная статистика
df.describe()
Зависит от Описательная статистиканаблюдатьданныенаборизРасположение、центральная тенденция(среднее значение、медианное число、Режим),Дисперсия(дисперсия、стандартное отклонение、Коэффициент дисперсии、межквартильный размах),Статистическая графика распределения данных(коэффициент перекоса)。
Зависит от Описательная статистика Это можно увидеть,data имеет следующие проблемы:
historyvisit_7ordernum
только82915полоска,Данные отсутствуют. При выполнении пропущенных значений в дальнейшем следует обратить внимание на форму распределения.delta_price1
(Цена по предпочтениям пользователь - Самые просматриваемые цены на отели за 24 часа)、lowestprice
、delta_price2
、customer_value_profit
(клиентзакрыватьодин Годизценаценить),Эти отрицательные значения являются аномалиями.,Отрицательные значения необходимо обработать позжеdecisionhabit_user
видеть Может быть правильно перекошеноизформа。лицом сзадиданныеиз Отсутствующийнаполнение、Обработка массу следует рассматривать в сочетании с условием асимметрии.Проверьте долю пропущенных значений
#Проверьте долю пропущенных значений
df.isnull().mean().sort_values(ascending=False)
см. Поле отсутствует Состояниесерьезный,вhistoryvisit_7ordernum
Отсутствующие значения до88%。Кромеarrival
,d
,h
,sampleid
,iforderpv_24h
,sid
,label
снаружи,Остальные 44 столбца полей в разной степени отсутствуют. Таким образом, следующее будет основано на отсутствующей ситуации.,В сочетании с распределением характеристик данных,Выберите подходящий метод заполнения пропущенных значений.
Просмотр распределения данных поможет при проектировании функций выбрать подходящие методы обработки данных на основе распределения данных (включая пропущенные значения, обработку выбросов и непрерывную дискретизацию функций), а также поможет получить более глубокое понимание поведения пользователей.
# асимметрия распределения данных
df.skew().sort_values()
Когда данные распределяются симметрично слева направо,Коэффициент асимметрии равен 0. Коэффициент асимметрии больше 1 или меньше -1,рассматривается как сильно искаженное распределение;Коэффициент асимметрии0,5~1 или -1~-0,5,Распределение считается умеренно асимметричным. Коэффициент асимметрии составляет **-0,5~0 или 0~0,5**;,Считается слегка искаженным распределением.
Как видно из вышеизложенного, за исключением businessrate_pre2, businessrate_pre и customereval_pre2, остальные данные в основном имеют очень асимметричное распределение.
# Посмотреть карту распределения данных
df.hist(figsize=(20,20))
plt.savefig('./images/data_distribution_raw.png')
# Сделайте копию данных и сохраните ее.
cdf = df.copy()
# Постройте таблицу времени посещения и времени прибытия.
cdf_d = cdf.d.value_counts().to_frame().reset_index()
cdf_arrival = cdf.arrival.value_counts().to_frame().reset_index()
time_table = cdf_d.merge(cdf_arrival, how='outer', on='index')
time_table.fillna(0, inplace=True)
time_table.set_index('index',inplace=True)
time_table.sort_index(inplace=True)
# Получить поля
x = time_table.index
y1 = time_table.arrival
y2 = time_table.d
# Нарисуй картинку
plt.figure(figsize=(14,5))
plt.style.use('seaborn-colorblind')
plt.plot(x, y1, c='orange', label='количество гостей')
plt.bar(x, y2, align='center', label='забронированное количество человек')
plt.title('Посещаемость и заполняемость',fontsize=20)
plt.xticks(rotation=45,fontsize=12)
plt.yticks(fontsize=14)
plt.xlabel('дата',fontsize=14)
plt.ylabel('количество людей', fontsize=14)
plt.legend(fontsize=14)
Как видно из рисунка, количество бронирований и заполняемость постепенно увеличивались до 520, достигнув пика на 520. После 521 количество заполняемости резко упало, а затем количество заполняемости отелей стало относительно стабильным. Последнее. два пика пришлись на выходные.
plt.figure(figsize=(15,6))
plt.hist(cdf.h.dropna(), bins=48, align='mid') # Так как это 24 часа, то они разделены на 48 ячеек так, чтобы посередине остался пробел.
plt.title('Период времени доступа',fontsize=20);
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.xlabel('Время доступа',fontsize=14);
plt.ylabel('количество людей',fontsize=14);
Из периода посещения видно, что наименьшее количество посетителей приходится на четыре или пять часов утра, когда большинство людей спят, что соответствует графику людей. Впоследствии количество посетителей, как правило, увеличивалось в течение дня и немного снижалось между 17:00 и 19:00, поскольку это было время, когда люди добирались до работы или ужина. После этого периода количество посетителей начало расти. снова постепенно увеличиваться, достигая пика в 22:00.
plt.figure(figsize=(12, 4))
plt.style.use('bmh')
# Посмотрите customer_value_profit и ctrip_profits Распределение обоих
plt.subplot(121)
plt.plot(cdf.index, cdf.customer_value_profit,linewidth=0.5)
plt.title('Ценность клиента за последний год')
plt.subplot(122)
plt.plot(df.index,df.ctrip_profits,linewidth=0.5)
plt.title('ценность для клиента')
plt.savefig('./images/ценность для клиента.png')
customer_value_profit
иctrip_profits
руководитькорреляционный анализпроверять,Если коэффициент корреляции велик,Можно рассмотреть возможность уменьшения размерности PCA.plt.figure(figsize=(12, 4))
plt.hist(df.consuming_capacity,bins=50,edgecolor='k')
plt.xlabel('индекс покупательной способности')
plt.ylabel('количество людей')
plt.title('индекс покупательной способностикартина')
plt.savefig('./images/индекс покупательной способностикартина.png')
Мы видим, что индекс покупательной способности колеблется от 0 до 100. Значение индекса потребительской мощности в основном представляет собой нормальное распределение с наклоном вправо, со средней мощностью потребления около 30. Мы также можем видеть, что существует особенно большое количество людей с потребительской способностью около 100, достигающее более 21 000 человек. Этот момент мы можем видеть. Видно, что среди гостей отеля по-прежнему есть большая группа состоятельных людей.
plt.figure(figsize=(12, 6))
plt.hist(df['price_sensitive'].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('индекс чувствительности цены')
plt.ylabel('количество людей')
plt.title('Распределение индекса ценовой чувствительности')
plt.savefig('./images/Распределение индекса ценовой чувствительности.png')
plt.show()
На диаграмме индекса чувствительности к цене имеются экстремальные значения на обоих концах, а распределение в середине обычно представляет собой нормальное распределение с наклоном вправо. Большинство людей не чувствительны к цене. Для этих пользователей цена не является самым важным. фактор, который следует учитывать. Конечно, мы также обнаружим, что людей не так много, когда индекс чувствительности к цене равен 100. Для этой группы клиентов мы можем рассмотреть возможность использования некоторых скидок для привлечения потребления.
plt.figure(figsize=(12, 4))
plt.subplot(121)
plt.hist(df.avgprice.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('цена отеля')
plt.ylabel('предпочтительное количество людей')
plt.title('Предпочтительная цена отеля')
# Поскольку цены на отели в основном находятся в пределах 2000, мы провели дополнительный визуальный осмотр этого диапазона.
plt.subplot(122)
plt.hist(df[df.avgprice<2000]['avgprice'].dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('цена отеля')
plt.ylabel('предпочтительное количество людей')
plt.title('Предпочитаемый отель в пределах 2000 юаней')
plt.savefig('./images/hotelpreference.png')
Видно, что ценовое предпочтение отелей представляет собой нормальное распределение с небольшим перекосом влево. Большинство людей предпочитают цену в пределах 150–600 юаней. После 1500 юаней людей немного. Средняя цена около 250.
plt.figure(figsize=(10, 4))
plt.hist(df.starprefer.dropna(), bins = 50, edgecolor = 'k')
plt.xlabel('звездное предпочтение')
plt.ylabel('Выберите количество человек')
plt.title('Звездность отеля')
plt.savefig('./images/Звездность отеля.png')
Закономерность распределения не такая сильная, как ценовое предпочтение отелей. В сегментах 40, 60, 80 и 100 есть экстремумы. Эти экстремумы можно использовать для предварительной обработки данных. Но в целом предпочтение звезд в основном сосредоточено между 60 и 80.
plt.figure(figsize=(10, 4))
plt.hist(df.ordercanceledprecent.dropna(),bins=50,edgecolor = 'k')
plt.xlabel('Коэффициент отмены заказа')
plt.ylabel('количество людей')
plt.title('Коэффициент отмены заказа')
plt.savefig('./images/Коэффициент отмены заказа.png')
Существует большое количество случаев отмены заказов пользователей, равных 0, что указывает на то, что большинство пользователей будут регистрироваться после бронирования отеля. В то же время есть и экстремальные пользователи, у которых коэффициент отмены заказов равен 1. Третье место среди пользователей имеет коэффициент отмены заказов 0,5.
plt.figure(figsize=(12, 6))
plt.hist(df[df["ordernum_oneyear"]<100]["ordernum_oneyear"].dropna(),bins = 50, edgecolor = 'k')
plt.xlabel('Количество годовых заказов пользователей')
plt.ylabel('количество')
plt.title('Распределение годовых заказов по 100 пользователям')
plt.savefig('./images/Распределение годовых заказов пользователей в пределах 100.png')
plt.show()
Подавляющее большинство пользователей размещают менее 50 заказов в год, при этом относительно большая часть пользователей размещает заказы в течение 5 раз.
# По SID можно судить о новых и старых клиентах. Потерян он или нет, судите по этикетке.
# Рассчитайте отток новых и старых пользователей
s_table = cdf[['label','sid']]
s_table['sid'] = np.where(s_table['sid']==1, 1, 0) # Воляsidобрабатывается как0и1Два вида Состояние,Отвечать новым и старым клиентам
s_table['flag'] = 1 #
s = s_table.groupby('sid').sum().reset_index() # Отличаются новыми и старыми пользователями,labelЭто потеряи Не потеряноизлюдичисло,flagновый、Количество старых пользователей
s['rate'] = s['label'] / s['flag'] # Отток новых и старых пользователей
# Нарисуй картинку
# Доля новых и старых клиентов
plt.figure(figsize=(12, 5))
plt.subplot(121)
percent=[s['flag'][0]/s['flag'].sum(), s['flag'][1]/s['flag'].sum()]
# color=['steelblue','lightskyblue']
label=['Старый клиент','Новый клиент']
plt.pie(percent,autopct='%.2f%%',labels=label)
plt.title('Доля новых и старых клиентов')
# уровень оттока
plt.subplot(122)
plt.bar(s.sid, s.rate,align='center',tick_label=label,edgecolor = 'k')
plt.ylabel('уровень оттока')
plt.title('新老клиент中изклиентуровень оттока');
Мы видим, что среди большого количества клиентов 94,42% составляют старые клиенты, а на долю новых клиентов приходится только 5,58%. Кроме того, уровень оттока старых клиентов достигает 28%, а уровень оттока новых клиентов составляет 20%. , мы должны принять меры по предотвращению оттока пользователей и внедрить новые методы привлечения, чтобы привлечь больше новых клиентов.
На основании результатов, полученных в ходе исследовательского анализа, нам необходимо выполнить ряд предварительной обработки данных, включая преобразование формата данных, обработку пропущенных значений и обработку выбросов.
rawdf = df.copy()
sampleid
Списоквыражатьиз是每одинполоскаизобразец записи,firstorder_bu
Списоквыражать首笔Заказизbu,С практической точки зрения,Это мало влияет на то, потеряются ли пользователи. кроме того,label
Столбцы также следует удалить.。
drop_columns = ['sampleid', 'firstorder_bu' ]
rawdf.drop(drop_columns, axis=1, inplace=True)
rawdf.drop_duplicates(inplace=True)
Временная обработка объектов
Дата посещенияd
и Дата заездаarrival
Поледляхарактернитьдобрыйформа,С практической точки зрения,Лучшим способом было бы преобразовать его в тип int для дня недели.
Кроме того, выходной день оказывает большое влияние на фактическое поведение пользователя, поэтому необходимо добавить столбец функции для определения того, выходной ли это день.
Кроме того, чем дольше время между бронированием и регистрацией, тем выше риск влияния на принятие решения пользователем, поэтому также создается новый столбец функций о количестве дней между бронированиями.
# Преобразование двух переменных даты из строки в формат даты
rawdf['arrival'] = pd.to_datetime(rawdf['arrival'] )
rawdf['d'] = pd.to_datetime(rawdf['d'])
# Создайте количество дней для предварительного бронирования (производная переменная) (дата прибытия – интервал дат посещения) (посмотрите, за сколько дней нужно забронировать)
rawdf['day_advanced'] = (rawdf['arrival']-rawdf['d']).dt.days
# формат времени
rawdf['d'] = pd.to_datetime(df['d'], format = '%Y-%m-%d')
rawdf['arrival'] = pd.to_datetime(df['arrival'], format='%Y-%m-%d')
# В какой день недели пользователь регистрируется
rawdf['arrival_weekday'] = rawdf['arrival'].map(lambda x:x.weekday())
# Является ли день регистрации пользователя выходным днем
def is_weekend(a):
if int(a) in [0,1,2,3,4]:
return 0 # 0 представляет рабочий день
else:
return 1 # 1 означает, что сегодня выходные
rawdf['is_arrival_weekend'] = rawdf['arrival_weekday'].map(lambda x: is_weekend(x))
rawdf.drop(labels=['d','arrival'], axis=1, inplace=True)
В сочетании с визуализациями, наблюдаемыми в ходе исследовательского анализа,
delta_price1
(Цена по предпочтениям пользователь - Самые просматриваемые цены на отели за 24 часа)、delta_price2
(Цена по предпочтениям пользователя-24hПосмотреть средние цены на отели)、lowestprice
(Самая низкая цена, доступная на данный момент для отеля.)Теоретически среди этих трех цены на отели не могут быть отрицательными.,и Зависит от Визуализациякартинанаблюдатьприезжатьданные Распределение относительно концентрированное.,Поэтому отрицательные значения принимаютмедианное числоиметь дело с。customer_value_profit
(ценность для клиента_закрывать1Год)、ctrip_profits
(ценность для клиента)Оно также не должно быть отрицательным.,объединить Визуализацияданныераспределенныйкартинавидетьониизраспределенный较длядисперсия,Поэтому установите его наполнение на 0.filter_one=['customer_value_profit','ctrip_profits']
filter_two=['delta_price1','delta_price2','lowestprice']
for f in filter_one:
rawdf.loc[rawdf[f]<0, f] = 0
for f in filter_two:
rawdf.loc[rawdf[f]<0, f] = rawdf[f].median()
rawdf[['customer_value_profit','ctrip_profits','delta_price1','delta_price2','lowestprice']].describe()
Из распределения данных в исследовательском анализе видно, что многие функции имеют чрезвычайно большие и чрезвычайно маленькие выбросы, такие как customer_value_profit, ctrip_profits, starprefer и т. д., показанные выше. Поэтому квантили 1% и 99% используются для всех полей для замены значений за пределами верхней и нижней строки.
for i in rawdf.columns:
value_1_percent = np.percentile(rawdf[i], 1) # # 1% значение
value_99_percent = np.percentile(rawdf[i], 99) # 99% значение
rawdf.loc[rawdf[i]<value_1_percent, i] = value_1_percent
rawdf.loc[rawdf[i]>value_99_percent, i] = value_99_percent
# Посмотреть производительность
rawdf.skew().sort_values()
Часто используемые методы обработки пропущенных значений
для Отсутствующий Ставка>80%изособенность,Поля и характеристики, соответствующие удалению
print('Исходное измерение данных: {}'.format(rawdf.shape))
# Функция, определяющая строку и столбец удаленных значений
def nan_drop(df,axi, rate=0.5):
# Например, rawdf.shape[1-0]: если вы хотите, чтобы удаление было строкой, тогда посмотрите на количество столбцов, а затем * соотношение, то есть сколько столбцов отсутствует в строке
# И наоборот, если вы хотите удалить столбец, посмотрите на соотношение количества строк *, то есть сколько строк отсутствует в этом столбце, поэтому удалите
# молоти хоть сколько есть, иначе удаляй
df.dropna(axis=axi, how='any', thresh=df.shape[1-axi]*rate, inplace=True)
# удалить Отсутствующийценить Пропорциябольшой В80%из ХОРОШОи Список
nan_drop(rawdf, axi=0, rate=0.2)
nan_drop(rawdf, axi=1, rate=0.2)
print('удалить Измерение после поля с более высокой долей отсутствий: {}'.format(rawdf.shape))
Исходное измерение данных: (684406, 50). Размеры после удаления полей с высокой долей пропущенных значений: (684401, 49).
Для полей с пропущенными значениями менее 80% заполняйте их исходя из формы распределения данных. Если распределение подчиняется нормальному распределению, используйте для заполнения среднее значение, а если распределение искажено, используйте для заполнения медиану.
# Проверьте асимметрию данных с пропущенными цифрами
rawdf.skew()[rawdf.isnull().mean(0)>0].sort_values() # Проверьте асимметрию данных с пропущенными цифрами
Из информации об асимметрии данных видно, что starprefer, businessrate_pre2, businessrate_pre, customerreval_pre2, ordercanceledprecent, Consumer_capacity, cancelrate_pre заполнены средними значениями. Медианное заполнение других недостающих столбцов.
# В нормально распределенных полях используется среднее наполнение.
def nan_fill(df):
filter_mean = ["businessrate_pre2","cancelrate_pre",
"businessrate_pre",'starprefer','cancelrate_pre',
'customereval_pre2','ordercanceledprecent',
'consuming_capacity']
for col in df.columns:
if col in filter_mean:
df[col] = df[col].fillna(df[col].mean())
else:
df[col] = df[col].fillna(df[col].median())
return df
rawdf = nan_fill(rawdf)
Анализ характеристик пользователей
# Извлечение пользовательских функций
user_features=['visitnum_oneyear','starprefer','sid','price_sensitive','ordernum_oneyear','ordercanncelednum','ordercanceledprecent','lastpvgap',
'lasthtlordergap','landhalfhours','iforderpv_24h','historyvisit_totalordernum','historyvisit_avghotelnum','h',
'delta_price2','delta_price1','decisionhabit_user','customer_value_profit','ctrip_profits','cr','consuming_capacity','avgprice']
# Сгенерировать корреляционную матрицу пользовательских функций
corr_mat = rawdf[user_features].corr()
# Построить тепловую карту корреляционной матрицы характеристик пользователя
fig, ax = plt.subplots(figsize=(18,12))
sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap="YlGnBu")
plt.savefig('./images/usercharacteristicsкорреляционный анализ Тепловая карта.jpg', dpi=400, bbox_inches='tight')
plt.show()
Как видно из тепловой карты:
delta_price1
иdelta_price2
из Корреляция настолько высока, насколько0.93,Первое означает Цена по предпочтениям пользователя-24Самые просматриваемые цены на отели за час,Последнее означает Цена по предпочтениям пользователя-24Час Посмотреть средние цены на отели,Объясните, что цена самого просматриваемого отеля в течение 24 часов повлияет на среднюю цену просматриваемого отеля.,Это понятнодля Режимисреднийчислоизсвязь。Таким образом, вы можете выбратьPCAИзвлеките основной компонент, представляющий ценовые предпочтения пользователя.。ordernum_oneyear
иhistoryvisit_totalordernum
из Корреляция настолько высока, насколько0.93,Оба представляют количество заказов, размещенных пользователем в течение одного года.,При выборе функций вы можете выбрать только один из них.,Ordernum_oneyear здесь выбирается как характеристика номера годового заказа пользователя.,PCA также можно использовать для уменьшения размерности;decisionhabit_user
иhistoryvisit_avghotelnum
из Актуальность达приезжать了0.93,Первый представляет привычки пользователя в принятии решений.,Последний представляет собой среднее количество посещений отеля пользователями в день за последние три месяца. Это показывает, что пользователи с более длительным временем принятия решений окажут большее влияние на среднее количество посещений отелей за последние три месяца.,Наоборот,Чем больше отелей вы посещаете,Чем дольше пользователь принимает решение.customer_value_profit
иctrip_profits
междуиз Актуальность达приезжать了0.86,Первый представляет ценность пользователя за последний год.,Последнее также представляет ценность для пользователя.,Разница в сегментации заключается в измеренной продолжительности времени.,Здесь также выбирается PCA для извлечения основного компонента, представляющего ценность для пользователя.consuming_capacity
иavgprice
междуиз Актуальность达приезжать了0.85,Первое означаетпользовательиндекс покупательной способности,Последний представляет собой среднюю цену отеля. Это очевидно,Чем выше покупательная способность,выбраноизотельсреднийцена格большой概Ставка也Чем выше。Выбирайте здесьconsuming_capacity
Для представления характеристик потребительской способности пользователя.,Вы также можете рассмотреть возможность использования уменьшения размерности PCA для синтеза этих двух функций.Корреляционный анализ информационных особенностей отеля
# Информационные функции отеля корреляционный анализ
# Особенности отеля
hotel_features=['hotelcr','hoteluv','commentnums','novoters','cancelrate','lowestprice','cr_pre','uv_pre','uv_pre2','businessrate_pre',
'businessrate_pre2','customereval_pre2','commentnums_pre','commentnums_pre2','cancelrate_pre','novoters_pre','novoters_pre2',
'deltaprice_pre2_t1','lowestprice_pre','lowestprice_pre2','historyvisit_visit_detailpagenum']
# генерировать Особенности отеляизкорреляционная матрица
corr_mat1 = rawdf[hotel_features].corr()
# Нарисуй картинку
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(corr_mat1, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/Корреляционный анализ информационных особенностей отеляHeat map.jpg',dpi=400, bbox_inches='tight')
plt.show()
novoters
иcommentnums
из Корреляция настолько высока, насколько0.99,Две функции тесно связаны。Поэтому возьмитеcommentnums
особенность进入后续изпредсказыватьианализировать Просто отлично,Или выберите PCA, чтобы извлечь главный компонент, представляющий количество отзывов об отелях.cencelrate
иcommentnums
трииз Актуальность也很高达приезжать了0.86,Это можно увидетьотельиз Комментарийчислои取消Ставка有很高изсвязь,Возможно, это связано с тем, что пользователи после выбора отеля проверят соответствующие отзывы об отеле.,Чем больше отзывов об отеле, тем больше информации он имеет.,Пользователи также узнают больше об отеле,Так что количество отписок меньше. Поэтому пользователей следует поощрять оценивать отель.uv_pre
иuv_pre2
из Актуальность达приезжать了0.9,Они оба означают количество уникальных посетителей отеля с наибольшим количеством просмотров за 24 часаинформация,Таким образом, вы можете выбрать PCA для получения анализа главных компонентов, чтобы представить количество уникальных посетителей отеля с наибольшим количеством просмотров за 4-часовую историю.commentnums_pre
иnovoters_pre
из Корреляция настолько высока, насколько0.99,Эти две характеристики тесно взаимосвязаны. Поэтому PCA был выбран для извлечения основного компонента, представляющего количество отзывов об отелях с наибольшим количеством просмотров за 24-часовую историю.commentnums_pre2
иnovoters_pre2
из Корреляция настолько высока, насколько0.99,Эти две характеристики тесно взаимосвязаны. Поэтому PCA был выбран для извлечения основного компонента, представляющего среднее количество отзывов об отелях с наибольшим количеством просмотров за 24-часовую историю.Корреляционный анализ полей заказов
order_features = [ 'day_advanced', 'arrival_weekday', 'is_arrival_weekend' ,'ordercanceledprecent' ,'ordercanncelednum',
'lasthtlordergap', 'cityuvs', 'cityorders']
order_corr=rawdf[order_features].corr()
# Нарисуй картинку
fig, ax = plt.subplots(figsize=(18, 12))
sns.heatmap(order_corr, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Blues')
plt.savefig('./images/order information Feature корреляционный анализ Тепловая карта.jpg',dpi=400, bbox_inches='tight')
plt.show()
Та же причина,видетьcityorders
иcityuvs
существовать0.99из Актуальность,Требуется уменьшение размерности PCA
Уменьшение размерности относится к,Уменьшить количество случайных величин (особенностей),получить набор“Не актуально”основная переменнаяизпроцесс。используется здесьАнализ главных компонентов (PCA) Снижение размерности выполняется для переменных с корреляцией более 0,8.
Из матрицы корреляционного анализа на рисунке выше мы отфильтровываем измерения, которые очень актуальны для пользователей и отелей, чтобы уменьшить их.
c_value=['customer_value_profit','ctrip_profits'] # Параметр ценности пользователя
consume_level=['avgprice','consuming_capacity'] # Уровень потребления пользователей
price_prefer=['delta_price1','delta_price2'] # Цена по предпочтениям пользователя
ordernum_1_year = ['ordernum_oneyear', 'historyvisit_totalordernum']# Количество исторических заказов пользователей за один год
hotel_hot=['commentnums','novoters'] # Популярность отеля
hotel_hot_pre=['commentnums_pre','novoters_pre'] # 24hПросмотры внутричислобольшинствоиз Популярность отеля
hotel_hot_pre2=['commentnums_pre2','novoters_pre2'] # Средняя популярность просмотра отелей за 24 часа
hotel_uv_pre = ['uv_pre', 'uv_pre2'] # Количество уникальных посетителей отеля с наибольшим количеством просмотров за 24 часа
order_cityuvs_orders = ['cityorders','cityuvs'] # Вчера посетили приложение в текущем городе с той же датой заезда. uvчислои Заказчисло
from sklearn.decomposition import PCA
pca=PCA(n_components=1)
rawdf['c_value']=pca.fit_transform(rawdf[c_value])
rawdf['consume_level']=pca.fit_transform(rawdf[consume_level])
rawdf['price_prefer']=pca.fit_transform(rawdf[price_prefer])
rawdf['ordernum_1_year'] = pca.fit_transform(rawdf[ordernum_1_year])
rawdf['hotel_hot']=pca.fit_transform(rawdf[hotel_hot])
rawdf['hotel_hot_pre']=pca.fit_transform(rawdf[hotel_hot_pre])
rawdf['hotel_hot_pre2']=pca.fit_transform(rawdf[hotel_hot_pre2])
rawdf['hotel_uv_pre']=pca.fit_transform(rawdf[hotel_uv_pre])
rawdf['order_cityuvs_orders']=pca.fit_transform(rawdf[order_cityuvs_orders])
rawdf.drop(c_value,axis=1,inplace=True)
rawdf.drop(consume_level,axis=1,inplace=True)
rawdf.drop(price_prefer,axis=1,inplace=True)
rawdf.drop(ordernum_1_year,axis=1,inplace=True)
rawdf.drop(hotel_hot,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre,axis=1,inplace=True)
rawdf.drop(hotel_hot_pre2,axis=1,inplace=True)
rawdf.drop(hotel_uv_pre,axis=1,inplace=True)
rawdf.drop(order_cityuvs_orders,axis=1,inplace=True)
print('Размеры после уменьшения размерности PCA: {}'.format(rawdf.shape)) # (684128, 40)
from sklearn.preprocessing import StandardScaler
y=rawdf['label']
x = rawdf.drop('label', axis=1)
scaler = StandardScaler()
scaler.fit(x)
X = scaler.transform(x)
Подготовка данных
from sklearn.model_selection import train_test_split, GridSearchCV
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size= 0.2,random_state=420)
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn import metrics
lr = LogisticRegression()
lr.fit(X_train, y_train)
y_prob = lr.predict_proba(X_test)[:, 1] # Предсказать вероятность класса 1
y_pred = lr.predict(X_test) # Результаты прогнозирования модели на тестовом наборе
print(y_prob)
print(y_pred)
fpr_lr, tpr_lr, threshold_lr = metrics.roc_curve(y_test, y_prob) # # Получите истинно положительный уровень, ложный положительный уровень и порог.
auc_lr = metrics.auc(fpr_lr, tpr_lr)
score_lr = metrics.accuracy_score(y_test, y_pred)
print('Точность модели: {0}, Оценка AUC: {1}'.format(score_lr, auc_lr) )
print(classification_report(y_test, y_pred))
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB() # Создайте экземпляр модели LR
gnb.fit(X_train,y_train) # Модель обучения
y_prob = gnb.predict_proba(X_test)[:,1] # Предсказать вероятность класса 1
y_pred = gnb.predict(X_test) # Результаты прогнозирования модели на тестовом наборе
fpr_gnb,tpr_gnb,threshold_gnb = metrics.roc_curve(y_test,y_prob) # Получите истинно положительный уровень, ложный положительный уровень и порог.
auc_gnb = metrics.auc(fpr_gnb,tpr_gnb) # Оценка AUC
score_gnb = metrics.accuracy_score(y_test,y_pred) # Точность модели
print('Точность модели: {0},Оценка AUC: {1}'.format(score_gnb,auc_gnb))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))
from sklearn.svm import SVC
svc = SVC(kernel='rbf', C=1, max_iter=100 ).fit(X_train, y_train) # Функция ядра радиального базиса, C — штрафной член, максимальное количество итераций max_iter, гамма, коэф также часто используется
y_prob = svc.decision_function(X_test)
y_pred = svc.predict(X_test)
fpr_svc, tpr_svc, threshold_svc = metrics.roc_curve(y_test, y_prob)
auc_svc = metrics.auc(fpr_svc, tpr_svc)
score_svc = metrics.accuracy_score(y_test, y_pred)
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_svc,auc_svc))
print('============================================================')
print(classification_report(y_test, y_pred, labels=None, target_names=None, sample_weight=None, digits=2))
from sklearn import tree
dtc = tree.DecisionTreeClassifier() # Учреждатьдерево решений Модель
dtc.fit(X_train,y_train) # Модель обучения
y_prob = dtc.predict_proba(X_test)[:,1] # Предсказать вероятность класса 1
y_pred = dtc.predict(X_test) # Результаты прогнозирования модели на тестовом наборе
fpr_dtc,tpr_dtc,threshod_dtc= metrics.roc_curve(y_test,y_prob) # Получите истинно положительный уровень, ложный положительный уровень и порог.
score_dtc = metrics.accuracy_score(y_test,y_pred)
auc_dtc = metrics.auc(fpr_dtc,tpr_dtc)
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_dtc,auc_dtc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier() # Учреждатьслучайный классификатор лесов
rfc.fit(X_train,y_train) # тренироватьсяслучайный лесная модель
y_prob = rfc.predict_proba(X_test)[:,1] # Предсказать вероятность класса 1
y_pred=rfc.predict(X_test) # Результаты прогнозирования модели на тестовом наборе
fpr_rfc,tpr_rfc,threshold_rfc = metrics.roc_curve(y_test,y_prob) # Получите истинно положительный уровень, ложный положительный уровень и порог.
auc_rfc = metrics.auc(fpr_rfc,tpr_rfc) # Оценка AUC
score_rfc = metrics.accuracy_score(y_test,y_pred) # Точность модели
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_rfc,auc_rfc))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
import xgboost as xgb
# читатьтренироватьсянаборитестовый набор
dtrain = xgb.DMatrix(X_train, y_train)
dtest = xgb.DMatrix(X_test)
# Установите параметры моделирования xgboost
params={
'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc',
'max_depth':8,'gamma':0,'lambda':2,'subsample':0.7,'colsample_bytree':0.8,
'min_child_weight':3,'eta': 0.2,'nthread':8,'silent':1}
# Модель обучения
watchlist = [(dtrain,'train')]
bst=xgb.train(params,dtrain,num_boost_round=500,evals=watchlist)
# Введите вероятность того, что прогноз окажется верным.
y_prob = bst.predict(dtest)
# Установите пороговое значение 0,5 и получите результаты тестирования набора тестов.
y_pred = (y_pred >= 0.5)*1
# Получите истинно положительный уровень, ложный положительный уровень и порог.
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob)
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb) # Оценка AUC
score_xgb = metrics.accuracy_score(y_test,y_pred) # Точность модели
print('Точность модели: {0},Оценка AUCдля:{1}'.format(score_xgb,auc_xgb))
print('============================================================')
print(classification_report(y_test,y_pred,labels=None,target_names=None,sample_weight=None, digits=2))
plt.style.use('bmh')
plt.figure(figsize=(16,16))
plt.plot(fpr_lr, tpr_lr, label='lr:%.3f' % score_lr ) # логистическая регрессия
plt.plot(fpr_gnb,tpr_gnb,label='gnb:{0:.3f}'.format(score_gnb)) # Наивный Байес
plt.plot(fpr_svc,tpr_svc,label='svc:{0:.3f}'.format(score_svc)) # векторная машина поддержки
plt.plot(fpr_dtc,tpr_dtc,label='dtc:{0:.3f}'.format(score_dtc)) # дерево решений
plt.plot(fpr_rfc,tpr_rfc,label='rfc:{0:.3f}'.format(score_rfc)) # случайный лес
plt.plot(fpr_rfc,tpr_rfc,label='xgb:{0:.3f}'.format(score_xgb)) # XGBoost
plt.legend(loc='lower right', prop={
'size':25})
plt.xlabel('ложноположительный уровень')
plt.ylabel('Истинно положительный показатель')
plt.title('Кривая ROC')
plt.savefig('./Сравнение моделиROC Curve.jpg',dpi=400, bbox_inches='tight')
plt.show()
Модель RFM:
Поскольку этот эпизод с данными напрямую не дает этих трех показателей,После анализа,выбрать выбратьlasthtlordergap
(Время с момента последнего заказа)、ипройтиPCAУменьшение размерностииметь дело сизordernum_1_year
(пользователь Год Заказчисло)、consume_level
(уровень потребляемой мощности)Сделайте это отдельнодляR、F、Mценить,Сегментировать наши группы пользователей
rfm_features = ['lasthtlordergap','ordernum_1_year','consume_level']
rfm = rawdf[rfm_features]
# Нормализация (используется для оценки значений RFM)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(rfm)
rfm = pd.DataFrame(scaler.transform(rfm), columns=['recency', 'frequency','monetary'] )
# группирование
rfm['R'] = pd.qcut(rfm['recency'], 2)
rfm['F'] = pd.qcut(rfm['frequency'], 2)
rfm['M'] = pd.qcut(rfm['monetary'], 2)
# в соответствии сгруппирование Состояниеруководитькодирование,Вторая классификация может напрямую использовать кодировку меток.
from sklearn.preprocessing import LabelEncoder
rfm['R'] = LabelEncoder().fit(rfm['R']).transform(rfm['R'])
rfm['F'] = LabelEncoder().fit(rfm['F']).transform(rfm['F'])
rfm['M'] = LabelEncoder().fit(rfm['M']).transform(rfm['M'])
#Определите модель RFM. Следует отметить, что значение R представляет временной интервал с момента последнего потребления. Чем меньше значение стоимости. для клиента Чем выше,иFиMценить Как раз наоборот。
def get_label(r,f,m):
if (r==0)&(f==1)&(m==1):
return 'ценные клиенты'
if (r==1)&(f==1)&(m==1):
return «Фокус на удержании клиентов»
if((r==0)&(f==0)&(m==1)):
return «Фокус на развитии клиентов»
if (r==1)&(f==0)&(m==1):
return «Фокус на удержании клиентов»
if (r==0)&(f==1)&(m==0):
return «Клиент общей ценности»
if (r==1)&(f==1)&(m==0):
return «Общее удержание клиентов»
if (r==0)&(f==0)&(m==0):
return «Заказчики общего развития»
if (r==1)&(f==0)&(m==0):
return «Потенциальный клиент»
def RFM_convert(df):
df['Label'] = df.apply(lambda x:get_label(x['R'], x['F'], x['M']), axis=1)
df['R'] = np.where(df['R']==0, 'высокий', 'Низкий')
df['F'] = np.where(df['F']==1, 'высокий', 'Низкий')
df['M'] = np.where(df['M']==1, 'высокий', 'Низкий')
return df[['R','F','M','Label']]
rfm0 = RFM_convert(rfm)
rfm0.head()
# Визуализация
# label_cnt = rfm0.groupby('Label').size()
label_cnt = rfm0['Label'].value_counts().values
labels = rfm0['Label'].value_counts().index
explode=[0.1,0.1,0.1,0,0,0,0,0]
plt.figure(figsize=(14,18))
# colors=['orangered','lightsalmon','sienna','seashell','chocolate','peru','sandybrown','peachpuff']
plt.pie(label_cnt, labels=labels,radius=1, explode=explode, autopct='%.1f%%',pctdistance=0.75,
wedgeprops={
'linewidth':0.5,'edgecolor':'black'},
textprops={
'fontsize':14,'color':'black'})
# plt.pie([1],radius=0.6,colors='w')
plt.title("Ситуация с группировкой клиентов RFM")
plt.legend(labels, fontsize=14, loc='best')
plt.savefig('./images/Customer Grouping Situation.jpg',dpi=400, bbox_inches='tight')
plt.show()
Вышеупомянутая модель RFM использует в наборе данных только три напрямую связанные переменные: Lasthtlordergap, ordernum_1_year и Consumer_level. Однако эти переменные не могут полностью охватить характеристики пользователя. Поэтому метод кластеризации K-Means используется для введения других переменных для дальнейшего исследования и анализа. анализ и наблюдать различия категорий клиентов.
from xgboost import plot_importance
# Решите имя функции
def ceate_feature_map(features):
outfile = open('xgb.fmap', 'w')
i = 0
for feat in features:
outfile.write('{0}\t{1}\tq\n'.format(i, feat))
i = i + 1
outfile.close()
ceate_feature_map(rawdf.columns)
fig, ax = plt.subplots(figsize=(16,16))
plot_importance(bst, height=0.5, ax=ax, max_num_features=40, color='green',fmap='xgb.fmap' )
/*
* Совет: Эта строка кода слишком длинная, и система автоматически комментирует ее, не выделяя. Один клик копировать удалит системные комментарии
* plt.savefig('./images/xgbизанализироватьвнеиз重要особенностькартина.jpg', dpi=400, bbox_inches='tight')
*/
plt.show()
Видно, что важными функциями, превышающими 2000, являются: h, cr, visit_num, visit_oneyear, Consumer_level, Price_prefer, businessrate_pre2, hoteluv, starprefer. Влияние этих функций также будет сосредоточено в последующем анализе.
Алгоритм K-Means — это алгоритм неконтролируемой кластеризации, основанный на секционировании. Он использует k в качестве параметра для разделения n объектов данных на k кластеров, так что сходство внутри кластера является высоким, а сходство между кластерами — низким.
На основании приведенного выше корреляционного анализа признаков мы уменьшаем размерность признаков с высокой корреляцией.
visit_num=['decisionhabit_user','historyvisit_avghotelnum'] #Количество посещений пользователей
pca=PCA(n_components=1)
rawdf['visit_num']=pca.fit_transform(rawdf[visit_num])
rawdf.drop(visit_num,axis=1,inplace=True)
# Выберите несколько важных показателей для описания пользователей
user_feature = ['ordercanncelednum','ordercanceledprecent','consume_level','starprefer','lasthtlordergap','lastpvgap','h','sid',
'c_value','landhalfhours','price_sensitive','price_prefer','day_advanced','ordernum_1_year','visit_num']
user_attributes = rawdf[user_feature]
# user_attributes.head(30).T
# данныестандартизация
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(user_attributes)
user_attributes = scaler.transform(user_attributes)
# K-означает кластеризацию выбранных ключевых функций для создания портретов пользователей.
from sklearn.cluster import KMeans
Kmeans = KMeans(n_clusters=3)
Kmeans.fit(user_attributes)
k_char = Kmeans.cluster_centers_ # Получить центроид каждой категории
persons = pd.DataFrame(k_char.T, index=user_feature, columns=['Категория 0','Категория 1','Категория 2'] )
plt.figure(figsize=(6,12))
sns.heatmap(persons, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True, cmap='Oranges')
plt.savefig('./images/user Portrait table.jpg',dpi=400, bbox_inches='tight')
plt.show()
Из тепловой карты Видно, что:
Визуализируйте пропорции трех типов клиентов
plt.figure(figsize=(9,9))
class_k=list(Kmeans.labels_) # Количество пользователей в каждой категории
percent=[class_k.count(0)/len(user_attributes),
class_k.count(1)/len(user_attributes),
class_k.count(2)/len(user_attributes)] # Доля пользователей в каждой категории
fig, ax = plt.subplots(figsize=(10,10))
colors=['peachpuff','sandybrown','chocolate']
типы = ['клиенты с низкой ценностью','пользователи с высокой ценностью','пользователи со средней ценностью']
ax.pie(percent,radius=1,autopct='%.2f%%',pctdistance=0.75,colors=colors,labels=types)
ax.pie([1], radius=0.6,colors='w')
plt.savefig('./images/userportportorion.jpg',dpi=400, bbox_inches='tight')
plt.show()
Как видно из круговой диаграммы, пользователи с высокой стоимостью составляют 13,26%; пользователи со средней ценностью составляют лишь 6,19%. Необходимо расширить группу пользователей со средней ценностью. На долю пользователей-ценностей приходится до 80,55%, многие из которых являются новыми пользователями, этих новых пользователей необходимо конвертировать.
Характеристики ценных пользователей: высокий уровень потребления, большая ценность для клиентов, стремление к высококачественным отелям (с предпочтением звездного рейтинга), в основном старые клиенты, они очень чувствительны к ценам на отели и обычно бронируют отели заранее, отмена заказов. ставка Это самая низкая среди трех типов пользователей, но частота заказов в прошлом году также самая низкая, а время последнего потребления было долгое время. Таким образом, можно разумно предположить, что основная цель таких пользователей, бронирующих отели, — путешествие.
Для этой группы клиентов нам необходимы:
Характеристики клиентов средней ценности: средний уровень потребления, среднее предпочтение отелей, в основном старые клиенты, высокая пользовательская ценность и низкая ценовая чувствительность. Они часто просматривают информацию об отелях и имеют длительный вход в систему в течение 24 часов, поэтому могут выбирать отель, сравнивая цены. Они часто бронируют номера в отелях, но, как правило, не делают этого заранее, а процент отмены заказов также очень высок. Можно разумно предположить, что деловые качества нового типа пользователей относительно тяжелы. Им может потребоваться часто путешествовать, и они, как правило, не бронируют отели слишком заранее. Маршрут деловой поездки может измениться, а заказ может быть отменен.
На эту группу клиентов приходится только6.19%,поэтому Для этой группы клиентов нам необходимы:
Характеристики малоценных клиентов: наиболее очевидными характеристиками являются то, что количество просмотров и время просмотра очень низкое, уровень потребления и ценность для пользователя самые низкие, количество просмотров и заказов очень низкое, эти пользователи могут лишь изредка бронировать отели на Ctrip, почти Они никогда не тратили деньги и мало гонятся за качеством отелей, поэтому основное внимание уделяется активации пользователей. В то же время, поскольку значение SID очень низкое, это означает, что большинство новых клиентов только что зарегистрировались или не использовали его после регистрации.
Поскольку доля малоценных клиентов достигает 80%, необходимо способствовать конверсии новых групп пользователей:
Заявление об авторских правах: Содержание этой статьи добровольно предоставлено пользователями Интернета, а мнения, выраженные в этой статье, представляют собой только точку зрения автора. Этот сайт предоставляет только услуги по хранению информации, не имеет никаких прав собственности и не принимает на себя соответствующие юридические обязательства. Если вы обнаружите на этом сайте какое-либо подозрительное нарушение авторских прав/незаконный контент, отправьте электронное письмо, чтобы сообщить. После проверки этот сайт будет немедленно удален.
Издатель: Full stack программист и руководитель стека, укажите источник для перепечатки: https://javaforall.cn/180494.html Исходная ссылка: https://javaforall.cn