При содействии профилированию пользователей и контролю рисков самой большой проблемой, с которой приходится сталкиваться, является путаница в идентификационной информации пользователя:
ID-Mapping — это очень простое, но важное звено в анализе больших данных. С точки зрения непрофессионала, ID-Mapping заключается в идентификации нескольких фрагментов данных из разных источников как одного и того же объекта или субъекта с помощью различных технических средств, таких как одно и то же устройство (прямое). ), того же пользователя (косвенно), той же компании (косвенно) и т. д. можно наглядно понимать как процесс «головоломки» портретов пользователей.
Информация о поведении пользователя и данные об атрибутах разбросаны по множеству различных источников данных. Таким образом, с точки зрения единых данных это эквивалентно «слепому, касающемуся слона». пользователь, а ID-Mapping может разделить фрагменты. Все данные соединяются последовательно, устраняя островки данных, предоставляя пользователям полное представление информации и в то же время позволяя данным в одном поле превращаться в огромную ценность в другом поле.
ID-Mapping имеет множество применений, например:
Типы идентификаторов пользователей в Alibaba включают: телефон, файлы cookie ПК, IMEI и IDFA, учетную запись Taobao, учетную запись Alipay, электронную почту и т. д. По каждой БЕ они знают только односторонние атрибуты этого клиента. При проведении маркетинговых мероприятий ориентируются только на номер мобильного телефона или адрес электронной почты, но не могут идентифицировать стоящее за этим физическое лицо или компанию. Чтобы преодолеть разрозненность данных и повысить ценность данных, Alibaba использует OneData в качестве своей основной методологии.
Система OneData включает в себя:
Подход OneID заключается в том, чтобы разрушить разрозненность данных и обеспечить размещение данных посредством унифицированной идентификации объектов и подключения. Проще говоря, бизнес-объекты, такие как пользователи и устройства, будут сопоставлены с уникальными идентификаторами (UID) в соответствующих бизнес-данных, и данные в каждом измерении связаны через этот UID. Различные отделы, предприятия и продукты имеют разные определения и реализации UID для бизнес-субъектов, что делает невозможным прямую корреляцию данных и превращает их в «острова данных». На основе номера мобильного телефона, удостоверения личности, электронной почты, идентификатора устройства и другой информации в сочетании с бизнес-правилами, машинным обучением, графовым алгоритмом и другими алгоритмами выполняется сопоставление идентификаторов для сопоставления различных UID с единым идентификатором. Благодаря этому унифицированному идентификатору данные из различных «островков» данных могут быть связаны для достижения согласованности данных и обеспечения точности и полноты приложений данных, таких как бизнес-анализ и портреты пользователей.
Линейки продуктов NetEase включают NetEase Cloud Music, NetEase Mailbox, NetEase News, NetEase Selections и т. д. Различные приложения имеют разные идентификаторы, например yanxuanid, oaid, musicid, телефон, электронная почта, idfa, imei и т. д.
Чтобы идентифицировать уникальный идентификатор, NetEase использует следующие идеи и решения: объединение пар отношений между различными учетными записями, различными моделями устройств и пользовательскими данными, такими как шаблоны использования устройств, с использованием правил и алгоритмов интеллектуального анализа данных (разделение связанного графа + обнаружение сообщества). чтобы определить, принадлежит ли учетная запись одному и тому же лицу.
В процессе ID-Mapping возникают следующие общие проблемы и соответствующие решения:
Примечание. Обычно сценарии, когда у одного человека есть несколько устройств, включают одолжение устройства друга, загрязнение данных устройства, считывание учетной записи и т. д.
58 имеет богатые бизнес-сценарии, а ее продуктовые линейки включают 58 City, Ganji, Anjuke, China Talent Network, Zhuanzhuan, 58 Home и т. д. В этой ситуации с несколькими пользователями, несколькими направлениями бизнеса и множеством дочерних компаний типы пользовательских данных являются сложными. Данные для построения портретов поступают из таких источников данных, как журналы, базы данных резюме, базы данных сообщений, базы данных пользователей, базы данных торговцев и т. д. Базы данных сертификационной информации. Среди них только журналы включают журналы ПК/M/APP различных подпродуктов, таких как 58, Ganji и Anjuke. Как соединить множество источников данных вместе — это первая проблема, с которой приходится сталкиваться при построении портретов пользователей. Ниже представлена схема модели ID-Mapping, построенная 58.
Как видно из рисунка, разные направления бизнеса имеют разные идентификаторы:
Среди них они могут быть связаны через телеп, бидуа, аппуа, imei и idfa, тем самым устанавливая отношения сопоставления ассоциаций между различными идентификаторами, что представляет собой процесс сопоставления идентификаторов.
Meituan и Dianping объединились. Если один и тот же пользователь имеет разные идентификаторы в двух приложениях, как Meituan их однозначно идентифицирует? Давайте посмотрим на системы учета Мэйтуань и Дяньпин. Meituan использует метод входа в систему по номеру мобильного телефона, WeChat, Weibo и учетной записи Meituan, использует метод входа по номеру мобильного телефона, WeChat, QQ и Weibo; их пересечением является номер мобильного телефона, WeChat и Weibo; Наконец, для системы учетных записей зарегистрированных пользователей Meituan приняла номер мобильного телефона в качестве уникального идентификатора пользователя.
Как видно из приведенных выше случаев, существует три распространенных метода ID-мэппинга:
Сопоставление идентификаторов на основе приоритета учетной записи является самым простым решением. Номер мобильного телефона/uid/deviceid и т. д. в базе данных идентифицируются в соответствии с приоритетом как уникальный идентификатор пользователя для этих данных. Но в этом плане есть серьезные недостатки.
В реальных данных журнала, поскольку пользователи могут использовать различные устройства и иметь разные внешние входы или даже один и тот же пользователь имеет несколько устройств и использует несколько внешних входов, это приведет к тому, что для одного и того же человека количество и типы идентификаторов которые могут быть получены из журналов, данные, собранные в разные периоды времени, различны.
Например, пользователи могут использовать различные устройства и каналы:
Возникает проблема: идентификация пользовательского устройства не может быть легко настроена с помощью правила выбора одного из них в качестве уникального идентификатора:
Это приводит к тому, что в некоторых сценах есть определенные данные, а в некоторых нет, поэтому нет возможности интегрировать данные. Чтобы отличить идентификаторы, принадлежащие одной и той же аудитории (устройству), от этих различных типов сложных идентификаторов, трудно добиться с помощью простой условной логики, такой как «где x=y».
Используйте методы расчета графов, чтобы найти корреляцию между различными идентификаторами и тем самым определить, какие идентификаторы принадлежат одному и тому же человеку.
Основная идея графовых вычислений: выражать данные в виде «точек», а между точками можно устанавливать «ребра», имеющие определенное бизнес-значение. Затем мы можем найти различные типы связей данных из точек и ребер: такие как связность, планирование кратчайшего пути, а конечная цель id_mapping (открытие идентификаторов) — сформировать словарь сопоставления идентификаторов:
Общий процесс:
Конкретные решения по реализации могут быть реализованы с использованием графовых вычислений или графовых баз данных.
Основная ценность One ID — открыть острова данных и соединить системы, созданные изолированно в разное время, с помощью единого идентификатора. Функция One ID подобна построению моста. После соединения различных островов данных эти острова становятся одним. После того, как хранилища данных будут разбиты, мы сможем получить более полное и полное представление о наших пользователях, продуктах и продавцах, более точно оценить их ценность, провести дальнейшее обнаружение ценности и заложить прочную основу данных для усовершенствованных операций.
Основной технологией One ID является ID-Mapping. Ее принцип заключается в том, чтобы абстрагировать ключевые элементы каждой системы на «точки» и «ребра» для графовых вычислений. Один и тот же «объект» можно легко определить с помощью алгоритмов графовых вычислений, тем самым построив. Неориентированный связный граф генерирует словарь сопоставления идентификаторов. Этот словарь сопоставления идентификаторов является мостом к каждому острову данных. Через эти мосты мы можем соединить данные одного и того же «объекта» на разных островах.
Источник этой статьи: https://www.biaodianfu.com/id-mapping.html.