Полный текст состоит из слов мощностью 1,2 Вт, штамп чтения ПК: https://f0jb1v8xcai.feishu.cn/wiki/LPlAwm6vSiesFBkysh8csZYfn1g
Поиск Рекомендуемая рекламная инфраструктура и знания Мы находимся по адресу Полная ссылка на поиск электронной коммерции (ЧАСТЬ I)Overview а также Alibaba Taobao: пересмотр грубого рейтинга в поисковых системах Соответствующее введение уже есть, поэтому давайте перейдем непосредственно к теме здесь.
Перестановка вообще является ближайшим к пользователю звеном (в некоторых сценах даже есть перестановки), поэтому перестановка/перетасовка часто определяет результат данной рекомендации, поэтому не будет преувеличением назвать ее «судьей жизни и смерти».
Его позиционирование заключается в переупорядочении первых N кандидатов, оцененных с помощью уточненной модели ранжирования, систематическом моделировании оптимальных преимуществ с точки зрения контекстного списка, а затем восстановлении последовательности элементов TOP-K для отображения пользователю.
Зачем нужна перестановка。Тонкая гребляиз Идея состоит в том, чтобы оценивать продукты,По этому баллу от высокого к низкому классифицировать,Чем выше балл, тем выше ценность предмета. -> Положение дисплея выше -> Фактические получаемые выгоды больше. Но у этой логики есть серьезный недостаток: контекстная информация элемента будет сильно влиять на принятие решения пользователем.
Возьмем, к примеру, короткие видеоролики Куайшоу. Например, первое видео представляет собой высказывания генерала о кризисе в Тайваньском проливе, но если в следующем видео рекомендуется видео с молодой девушкой, это будет совершенно неуместно, поскольку эти два видео не связаны друг с другом. и эффект рекомендаций плохой. Если следующим рекомендуемым видео будет относительно популярная музыка, а затем будет рекомендовано видео танцующей девушки, то контент будет более связным и пользователи не будут чувствовать резкости.
В частности, проблемы, которые должен решать модуль реорганизации:
парные отношения, но
Как максимизировать ценность всей последовательности показов за счет их взаимного влияния;
Теперь, когда цель ясна, как оценить эффект и насколько он может соответствовать нашей конечной цели?
Разработка моделей перестановок в основном включает в себя
Стратегия жадного поиска на каждом этапе выбирает контент с наибольшей целевой функцией полезности в текущем состоянии и добавляет его в список кандидатов до тех пор, пока длина списка кандидатов не будет соответствовать требованиям. На каждом этапе жадной стратегии используется локально оптимальная стратегия, и нет никакой гарантии, что она приведет к глобально оптимальному решению.
Классический стандарт MMR определен в статье:
Среди них Q — поисковый запрос, D — элемент-кандидат (например, результат уточненной оценки ранжирования), а S — элемент, выбранный алгоритмом MMR. Sim1 используется для измерения корреляции между элементом и запросом, а Sim2 используется для измерения максимального сходства между текущим элементом-кандидатом Di и выбранным элементом.
Как видно из формулы, основная идея MMR — жадный поиск, который жадно генерирует топовый набор. Первоначально выбирается элемент с наибольшей корреляцией с запросом, а затем каждый последующий выбор — это элемент с наибольшей корреляцией с запросом и наименьшим сходством с уже выбранным элементом. Первое обеспечивает актуальность, а второе — разнообразие, используя параметры
Используется для регулирования весов смещения в сторону релевантности и разнообразия.
MMR успешно реализован в поисковых рекомендательных системах Microsoft, Amazon и JD.
DPP(Determinantal Point Процессы) Входные данные модели – это элемент тонкой оценки ранжирования, а также попарное расстояние между двумя предметами (можно рассчитать с помощью жаккарда, emd и т.п.),Затем сгенерируйте результаты topk,Цель оптимизации –Разнообразиеиэффективность。
Логика математического вывода DPP относительно сложна, включая версии, основанные на параметризации ядра и глубоком обучении. Здесь мы рассмотрим только версию DL.
Среди них входные данные функции f — это скрытый вектор последнего слоя модели точного ранжирования, а входные данные функции g — векторное представление элемента.
Context-aware List-wise Модель генерирует результаты Top-K путем моделирования отношений взаимного влияния между элементами Top-N, созданными с помощью уточненной модели ранжирования. Включая ми РНН, DLCM, PRM, EdgeRec, PRS, AirbnbDiversity и т. д. успешно применяются к поиску Taobao, рекомендациям, поиску Airbnbиз Изменить порядоксередина。
Таобаопоиск Изменить порядоксцена,GMV необходимо максимизировать. Автор использует RNN для моделирования контекстной информации.,На основе цены продукта и вероятности транзакции продукта в списке отображения.,Сгенерируйте результаты списка топ-листов для достижения оптимального GMV.
Эту проблему можно разбить на две небольшие проблемы (
цена продукта):
Для вопроса 1 автор использует RNN для моделирования, то есть учитывает влияние ранее выбранных товаров на последующие покупки продуктов.
Как использовать цену после нормализации? Поскольку цена является непрерывной величиной, она будет дискретизирована и использована для внедрения.
Вопрос 2, основанный на изученной модели RNN, можно решить с помощью Beam Search.
В сценариях поиска традиционная модель LTR не является оптимальной для каждого запроса (даже если общий средний эффект хороший). Причина этого явления в том, что пространства признаков связанных документов, соответствующих разным запросам, могут иметь разные распределения.
Таким образом, основной подход DLCM, предложенный автором, заключается в использовании модели GRU для изучения контекстной информации о лучших продуктах после точного ранжирования для повторного ранжирования. DLCM в основном включает в себя три этапа:
Это окончательный вектор кодирования сети GRU, который затем использует метод, аналогичный методу внимания, для получения окончательной выходной оценки каждого документа.
В сценарии с рекомендацией видео Google предыдущие модели использовали методы кодирования, а попытки декодирования еще не предпринимались.
Для решения проблемы рекомендаций по перестановке предлагается архитектура, использующая seq2seq, называемая seq2Slate. Используйте сеть точек, чтобы спрогнозировать следующее видео для просмотра на основе видео, которые пользователь смотрел ранее.
Сеть указателей: это упрощение механизма seq2seq+attention, которое может решить проблему, связанную с тем, что структура seq2seq не может решить проблему, связанную с изменением словарного запаса выходной последовательности при изменении длины входной последовательности. Объяснение в одном предложении: традиционная модель seq2seq с механизмом внимания выводит распределение вероятностей для выходного словаря, а Pointer Networks выводит распределение вероятностей для входной текстовой последовательности.
Обычно предметы оцениваются по пунктам.,При этом учитываются только отношения между пользователями и отдельными элементами.,Без учета взаимодействия между элементами списка. Также ведется работа по использованию RNN для моделирования последовательностей.,Но недостатком является то, что если два предмета находятся далеко друг от друга,Тогда ты не сможешь хорошо учиться. Используйте Transformer для персонализации результатов после тонкой настройки.
Разделите уточненный вывод строки из вектора на,Объединение кода позиции для получения каждого элемента ввода,Затем используйте Transformer для кодирования,Наконец, оценка каждого элемента получается через слой полносвязного слоя и softmax.
,Особенности включают в себя
Первый сценарий рекомендации Alibaba Taobao. Это несколько отличается от предыдущей модели. EdgeRec — это модель, развернутая на стороне клиента. Для расчетов предыдущей модели мы обычно развертываем ее на стороне сервера (в этом режиме клиентская сторона собирает пользовательские данные). на стороне клиента) Поведенческие характеристики, сгенерированные на модели, затем передаются модели на сервере для расчета, и, наконец, сервер возвращает рассчитанные и отсортированные результаты клиенту).
Как упоминалось выше, ресурсы вычислительной памяти и своевременность в рамках традиционной модели представляют собой очень серьезные проблемы, особенно во время крупных фестивалей продаж.
Кроме того, текущие поисковые рекомендации, как правило, имеют форму пейджинговых запросов, то есть возможность корректировки списка товаров имеется только после перелистывания страницы, и не могут своевременно реагировать на изменение интересов пользователя (см. на рисунке ниже, после перелистывания страницы ctr внезапно увеличится). Например, взаимодействие пользователя с четвертым товаром указывает на то, что ему не нравятся «мотоциклы», но поскольку пейджинговый запрос может быть только после 50 товаров, другие «мотоциклические» товары позже на странице не могут быть скорректированы вовремя.
Проектирование архитектуры и системы выходит за рамки этой статьи. Подробности см. в исходной статье. Здесь мы сосредоточимся на модели реорганизации, чтобы увидеть, как изменить порядок отображения продуктов в реальном времени.
Прежде всего, первый модуль — это моделирование последовательности гетерогенного поведения пользователей, который в конечном итоге используется для моделирования поведения пользователя в реальном времени. Он включает в себя две части: моделирование последовательности поведения воздействия продукта и моделирование последовательности поведения страницы с подробными сведениями о продукте.
Следующим шагом является использование этих функций реального времени для моделирования конечной перестановки. В середине — набор потенциальных продуктов, подлежащих сортировке, а встраивание получается с помощью GRU. Левая часть — моделирование воздействия в реальном времени. последовательность справа — построение страницы сведений о продукте при нажатии пользователем формы;
Затем используйте целевое внимание для интеграции, то есть позвольте сортируемым продуктам увидеть, какие продукты нравятся/не нравятся предыдущим пользователям, и скорректируйте порядок последующих.
Али рекомендует эту сцену. Это основано на реальном наблюдении: при отображении списка рекомендаций одному и тому же пользователю разный порядок отображения продуктов серьезно повлияет на обратную связь с пользователем.
Как показано на рисунке ниже, два списка A-B-C и B-A-C содержат одни и те же три элемента, но их расположение различно. Пользователь взаимодействует с расположением B-A-C, но не взаимодействует с расположением A-B-C. Одна из возможных причин заключается в том, что дороже. Размещение товара Б перед более дешевым товаром А может увеличить желание пользователя купить товар А. Тогда такое различное расположение приведет к разным факторам влияния на отзывы пользователей.
Таким образом, лучший способ перестановки — рассмотреть все возможные перестановки, оценить результаты каждой перестановки и выбрать результат отсортированного списка с наивысшей оценкой для отображения пользователю. Но здесь явно есть две проблемы
, а пространство перестановок, предложенное в этой статье, равно
Автор статьи предлагает двухэтапную структуру реорганизации PRS, которая разделена на два этапа: PMatch и PRank.
Совокупное воздействие в надежде увеличить глубину просмотра,
Суммируйте частоту показов * частоту кликов по каждому элементу. На частоту показов будет влиять предыдущая последовательность. Чем больше, тем лучше для обоих.
Оставить дыру
Несмотря на то, что вышеизложенное представляет собой, по сути, первоклассную встречу после практики в бизнес-направлении, в конце концов, этот документ все еще остается документом, и в нем относительно мало содержания, включающего практический опыт и описание ошибок. С помощью нескольких пабликов разберемся в практике перестановки модулей у крупных производителей.
Сцена представляет собой короткую видеорекомендацию Куайшоу, включая страницу открытия, страницу отслеживания и страницу местного города.
Основная цель оптимизации рекомендаций по коротким видео — увеличить общий DAU пользователей и улучшить удержание пользователей. Конкретный метод заключается в увеличении времени использования/положительных отзывов (например, коллекций, лайков, комментариев, степени завершения и т. д.) и уменьшении отрицательных отзывов (таких как неприязнь, пропуск и т. д.).
Опытная ручная настройка параметров и слияние -> Простая модель машинного обучения -> Модель LTR ->
При перестановке необходимо учитывать взаимное влияние видео.
Перестановка и обмен короткими видеорекомендациями Kuaishou, общая структура выглядит следующим образом.
Как видите, общая перестановка включает и серверную часть (Перестановка последовательности、Контент из нескольких источниковперетасовать、Разнообразие)и Мобильная версия(переставить на сторону Модель&Стратегия)две части。
Прежде всего, как упоминалось вначале, то, как определить хорошую последовательность, чрезвычайно важно и определяет направление оптимизации. Критериями для коротких видеороликов Kuaishou являются: считается, что хорошая последовательность имеет высокую степень завершенности, вся последовательность имеет высокую степень позитивного взаимодействия, пользователь имеет высокую прилипчивость, готов просматривать видео после просмотра, а последовательность имеет последовательные атрибуты в содержании.
Общая перестановка последовательностей использует парадигму GE (генератор-оценщик). Генератор генерирует множество последовательностей-кандидатов из топ50, а затем использует оценщик для оценки последовательностей-кандидатов на основе их общего значения.
Обычно используемый метод генерации — это лучевой поиск, который последовательно генерирует видео для каждой позиции. Конкретная стратегия состоит в том, чтобы выбрать оптимальные топ-видео, оцененные моделью, из видео, которые были сгенерированы в предыдущей последовательности. Некоторые другие методы генерации включают вызов разнообразия MRR, вызов Seq2slate и т. д., представленные ранее.
Kuaishou здесь использует веса нескольких очередей. До онлайна базовым вариантом была ручная настройка параметров веса каждой очереди (в настоящее время параметры фиксированы), но лучше то, что параметры настраиваются адаптивно (например, в течение определенного периода времени, я должен рекомендовать видео с более длительным временем погружения, а другой период времени требует недорогого и высокодоходного видеоконтента, поэтому первый должен уделять больше внимания цели времени просмотра, и взаимодействие может быть преобразовано, тогда как второй требует взаимодействия и более высокая ставка). Таким образом, параметры можно отбирать совместно для получения различных последовательностей.
Evaluator использует односторонний преобразователь, поскольку действие пользователя по перелистыванию видео является односторонним, а информация нисходящего видео не имеет преимущества перед восходящим видео.
Общая модель разделена на два слоя:
Проблема, которую необходимо решить при перетасовке, заключается в том, как правильно объединить результаты доходности каждого бизнеса, чтобы получить последовательность результатов с наибольшей комплексной ценностью.
В самом простом решении каждый бизнес получает трафик через фиксированные места. Но отсутствие персонализации снижает эффективность как пользователей, так и платформы. Кроме того, в документе LinkedIn (KDD 2020 | Распределение рекламы в ленте посредством ограниченной оптимизации) это преобразуется в оптимизацию величины дохода при предположении, что ценность пользовательского опыта превышает C. Подробности см. в исходном документе.
Смешанная списочная схема использует парадигму генератора-вычислителя, и модель включает три части:
Сначала определяется схема RL смешанного ранга.
Общая архитектура сквозной перестановки аналогична приведенной выше:
Использование обучения с подкреплением для моделирования смешанного порядка
Когда поступает запрос пользователя, скрытое состояние будет рассчитываться на основе его предыдущего поведения как часть входного состояния. Каждый раз в качестве действия выбирается определенное дело, а в качестве вознаграждения используется щелчок обратной связи.
Этот обмен знакомит с общим бизнесом поиска iQiyi, включая обработку запросов, отзыв, грубое ранжирование, точное ранжирование, переупорядочение и т. д. Здесь зафиксирована только часть перестановки.
Причина перестановки заключается в том, что часть точной сортировки фрагментирована и не может быть контекстно-зависимой. Конкретная модель аналогична PRM, а индикатор автономной оценки — NDCG.
Справочник по структуре модели PRM
Сценарий — поиск на домашней странице Meituan. Когда пользователь выполняет поиск по запросу, различные бизнес-продукты должны быть равномерно смешаны и отсортированы, включая флэш-продажи, покупки продуктов, выбор, группировку хороших продуктов и т. д.
Поскольку цели мультибизнеса на самом деле одни и те же (для gmv), здесь подробнее о многокритериальном моделировании и моделировании нескольких бизнесов, а также о том, как использовать общие черты и характеристики между различными бизнесами в модели.
Общая модель представляет собой структуру ESMM+многобашенная.
Бизнес-сценарий — поиск в Дяньпине. По сравнению с моделью обработки облачного сервера архитектура модели на устройстве имеет следующие преимущества:
Разработка функций и облачные модели мало чем отличаются
Общее моделирование основано на контекстно-зависимых списках, а результаты Top-K генерируются путем моделирования отношений взаимного влияния между контекстами элементов Top-N, созданных с помощью уточненной модели ранжирования.
Здесь Multi-View FAN — это сеть, которая моделирует поведение обратной связи с пользователем.
Общий размер приложения не превышает нескольких сотен МБ, поэтому модель, развернутая на терминале, должна учитывать ограничения вычислительных ресурсов и хранилища.
Поисковая реклама Meituan ограничена LBS (службами определения местоположения), поэтому в определенных категориях становится меньше кандидатов в магазины, а меньшее количество кандидатов серьезно ограничивает потенциал всей системы ранжирования. Вы можете рассмотреть возможность использования рекламы продукта в качестве дополнительного варианта рекламы в магазине и показывать их в смешанном виде. Формы и методы смешивания рекламы товаров и рекламы магазинов следующие:
После внедрения рекламы продукта количество кандидатов увеличилось со 150+ до 1500+. Есть несколько проблем
Taobao публично публикует множество технических статей по реорганизации.
Архитектура генератора-оценщика на самом деле больше похожа на архитектуру обучения с подкреплением. Модель генератора генерирует некоторые (не обязательно хорошие) последовательности посредством исследования/выборки, а затем оценщик оценивает их, а результат оценки используется в качестве вознаграждения генератора. Если вознаграждение положительное, генератор увеличивает совместную вероятность генерации этой последовательности. И наоборот, если полученное вознаграждение отрицательное, генератор уменьшает совместную вероятность генерации этой последовательности.
В частности, генератор представляет собой модель структуры кодер-декодер.
Кодировщик представляет собой структуру DeepSet, поскольку он не чувствителен к порядку входных элементов. Структура модели следующая.
Декодер основан на структуре Pointer Network. Каждый раз, когда он выбирает продукт из набора кандидатов, он немедленно обновляет контекст и продолжает выбирать следующий продукт.
Роль привлечения внимания:
После модуля обработки признаков пять различных подсетей (цель состоит в том, чтобы сосредоточиться на различной размерной информации о последовательности продуктов) наконец объединяются и передаются через MLP для получения оценки прогнозирования.
В ходе специального обучения оценщик сначала проходит полную подготовку с использованием контролируемого обучения.
Архитектура GE может быть хорошо согласована со стратегическими целями бизнеса.,в том числе регулирование дорожного движения、Разнообразие、между группами сортировка Также Вставка в яму Дин.
[1]
Практика многокритериальной сортировки в коротких видеорекомендациях Куайшоу: https://www.infoq.cn/article/nozs4xy7bvbcf34vzhhu
[2]
Практика Transformer в поисковом рейтинге Meituan: https://tech.meituan.com/2020/04/16/transformer-in-meituan.html
[3]
Конечная разведка в Дяньпине поиск Изменить порядокизприложениеупражняться: https://tech.meituan.com/2022/06/16/edge-search-rerank.html