В этой статье в основном предлагаются решения проблем моделирования поведения пользователей (комментариев, подарков и т. д.) в прямых трансляциях. Предыдущие исследования по прогнозированию подарков в прямом эфире рассматривают эту задачу как традиционную рекомендательную задачу и используют категориальные данные и наблюдаемые исторические модели поведения пользователей. Однако, поскольку поведение пользователей редкое, особенно платное поведение, такое как отправка подарков, трудно уловить предпочтения и намерения пользователей. В этой статье предлагается метод MMBee, основанный на мультимодальном слиянии в реальном времени и поведенческом расширении.
alt text
Для каждого сегмента прямой трансляции из каждого сегмента равномерно выбираются три кадра, а собранные данные ASR (автоматическое распознавание речи) и текст комментариев фильтруются. Затем внутренняя предварительно обученная мультимодальная модель 8B Kuaishou K7-8B используется для извлечения мультимодальных характеристик исходных данных, включая кортежи мультимодальных последовательностей изображения, голоса и комментариев соответственно.
Получив репрезентации разных модальностей, используйте ненужные части, чтобы дополнить репрезентации. Например, используя визуальную модальность в качестве целевой модальности, рассчитайте показатель корреляции между визуальной модальностью и двумя другими модальностями.
Особенностью слияния визуальной модальности является следующая формула, которая заключается в дополнении ее частями, не имеющими отношения к текущему распознаваемому представлению, поскольку соответствующие части эквивалентны избыточной информации.
Затем исходное представление и представление, дополненное op, используются для реализации механизма внимания (перекрестного attn),Объедините соответствующие результаты и введите их в слой самообслуживания.,Вот к этомуСлияние разных представлений
Однако функции слияния могут отражать только представления на уровне содержания и не иметь связи с характеристиками разных типов авторов (якорей). Чтобы решить эту проблему, вводится несколько обучаемых токенов запроса для извлечения шаблонов контента с поддержкой потоковой передачи. Каждый автор сохраняет случайно инициализированный набор обучаемых запросов emb. N представляет количество токенов запроса для каждого автора. Обучаемый запрос сначала взаимодействует с объединенными мультимодальными функциями посредством перекрестного внимания, а затем подается на уровень собственного внимания.
На основе истории чаевых пользователей строится график «пользователь-автор» (U2A), отражающий корреляцию между пользователями и авторами. V — соответствующий набор пользователей и авторов, а E — соотношение чаевых. Вес ребра — это сумма вознаграждения, а узел автора имеет атрибут агрегирования мультимодальных признаков.
Граф «автор-автор» (A2A) строится для представления взаимозависимостей между авторами, а ребра представляют отношения сходства Swing между авторами. Метод расчета сходства колебаний следующий: U — это совокупность пользователей, которые дали чаевые автору, поэтому знаменатель здесь рассчитывается как общее количество авторов, получивших чаевые от пользователей, которые дали чаевые обоим авторам i и j одновременно. В то же время, чем более однородны авторы, давшие чаевые (Низкое разнообразие), тем ниже сходство, используемое для предотвращения деления на 0.
Графики A2U формируются посредством отношений чаевых между пользователями и авторами, но есть также некоторые новые или начинающие авторы, которым чаевые практически никогда не получали. Однако вы можете использовать карту A2A, чтобы найти похожих пользователей для этих пользователей с небольшими чаевыми, чтобы облегчить проблему холодного запуска. После построения графов U2A и A2A метод обучения представлению узлов графа сначала используется для обучения уровня внедрения графа. Затем разреженная последовательность поведения пополняется с использованием метода расширения поведения на основе метапутей. Сначала поймите некоторые определения метапутей,
Чтобы использовать информацию о связности всего графа,Примените платформу Graph Contrastive Learning (GraphCL) для обучения слоя внедрения графа. Чтобы сгруппировать похожие узлы вместе,Отталкивайте разнородные узлы одновременно,Перебрать все узлы графа G1.,Соседи, руководствующиеся метапутами, получают узлы положительной выборки,Узлы отрицательной выборки выбираются случайным образом.。Обучение с функцией потери кросс-энтропии и infoNCE,infoNCE легче понять,Часто используемая функция контрастной потери обучения,Но я не понимаю упомянутой здесь роли потери перекрестной энтропии.,Разве это не должно быть самообучение?(Кто знает больше, может прокомментировать,Мне кажется, что CE здесь должно быть следующее Расширение интересы в прогнозировании того, является ли задача классификации проигрышной)
alt text
Чаевые пользователи, как правило, относительно немногочисленны, поэтому интересы пользователей здесь расширяются. Учитывая вычислительные затраты, авторы выполняют до 3 прыжков на графах U2A и A2A для получения соседей. Были перечислены все возможные метапути и наконец выбраны пять наиболее важных наборов.
На основе этого поведение пользователя обогащается. На этапе автономного расширения интересов совокупная совокупность расширенных соседей сохраняется в базе данных и используется на этапе онлайн-обучения. Чтобы устранить разрыв между представлением предварительно обученного узла и моделью онлайн-рекомендаций, модель сквозных обученных рекомендаций оптимизируется с помощью задачи двоичной классификации, позволяющей прогнозировать, будет ли предоставлено вознаграждение. Расширенная пользовательская эмблема и эмблема автора выражаются следующим образом и представляют соответственно слой эмблемы узла графа (для пользователей) и мультимодальные атрибуты (для авторов).
alt text