Практика JD.com в области розничной облачной платформы больших данных
Практика JD.com в области розничной облачной платформы больших данных

Поделиться гостями:У Вэйвэй Цзиндун Инженер-архитектор

Под редакцией: Чэнь Фэйцзюнь Шэньчжэньский университет

Создано сообществом: DataFun.


Введение:С учетом потребностей корректировки бизнеса и интеграции ресурсов кластера,,большие кластер Миграция в системах обработки данных данные сложные и запутанные. Эта статья будет опубликована в «Цзиндунбольшие». Платформа данных является примером, представившим в прошлом году распределение данных Цзиндунхранилище и Многоуровневое. Исследование и практика на хранилище.

Сегодняшнее введение начнем со следующих трех пунктов:

  • Введение в архитектуру платформы данных JD
  • Междоменное хранилище
  • Многоуровневое хранилище

--

Введение в архитектуру платформы данных JD

Общая архитектура платформы данных Цзиндун в основном состоит из шести частей.,Среди них хранилище данных является базовым компонентом уровня вычислительной хранилища и поддерживает планирование восходящего вычислительного механизма.,и уровень инструмента более высокого уровня, уровень обслуживания и уровень приложения. Во всей архитектуре платформы данных,Базовые данные играют роль инфраструктуры.,это весьбольшие Основа платформы данных.

Объем этой системы данных составляет несколько ЭБ (1ЭБ=1024ПБ).,Имеются десятки тысяч узлов,Три места и несколько центров,Ежедневная пропускная способность составляет сотни петабайт. Столкнувшись с таким большим объемом данных,Цзиндунбольшие Платформа данных использует визуальное управление. Проблемы кластера можно быстро и легко обнаружить с помощью системы мониторинга, обеспечивая стабильность кластера и обслуживания. доступность。

--

Междоменное хранилище

Междоменное хранилище——вопрос

В Междоменном хранилище До применения архитектуры,Синхронизация данных между компьютерными залами в основном реализуется бизнес-стороной, выполняющей Distcp между разными компьютерными залами.,Таким образом, будет некотороескрытые опасности:

  • первый вопрос:Согласованность метаданных гарантируется бизнес-стороной.,Миграция данных требует вмешательства бизнеса,Высокая стоимость и долгое время.
  • второй вопрос:Движение между машинными залами не контролируется,Влиять на задачи синхронизации,Необходимо использовать внешнюю систему планирования и хранилище.
  • Третий вопрос:Создание нескольких копий избыточных данных,Затраты на обмен данными и синхронизацию высоки,Например, несколько копий одних и тех же данных загружаются между разными узлами данных в разных компьютерных залах.,что приводит к избыточности.
  • Четвертый вопрос:Система аварийного восстановления без кластера многокомпьютерного зала,Преимущества нескольких компьютерных залов не используются в полной мере.

Междоменное хранилище——Архитектура

На основании вышеизложенного,Платформа данных Цзиндунбольшие разработала функцию междоменной синхронизации данных в базовом модуле хранилища для решения проблем, вызванных синхронизацией хранилища исторических данных. Выбор решения этой проблемы на нижнем уровне позволяет не только контролировать согласованность междоменных данных.,Он также обеспечивает независимые от бизнеса функции междоменной синхронизации и обмена данными.,Чтобы уменьшить дублирование работы со стороны бизнеса,Обеспечьте в системе хранилища возможности междоменного миграции и междоменного аварийного восстановления.

Цзиньдун Междоменное Основная идея архитектуры хранилища состоит в том, чтобы обеспечить домены сбоя между машинными помещениями за счет «полная топология хранилища + полная сеть» и в конечном итоге добиться больших Аварийное восстановление данных за пределами площадки и возможности хранения ключевых данных в нескольких машинных залах.

этого проектаОсновные проблемыиметь:

  • Масштаб одного кластера огромен и достигает десятков тысяч.
  • Существуют узкие места производительности при междоменном исправлении и потоке.
  • Междоменные контрольные сигналы и отчеты о блоках столкнулись с ограничениями.

программыОсновные преимуществаиметь:

  • сильная консистенция:Глобальная согласованность файлов,Автоматическая синхронизация данных позволяет избежать несогласованности и избыточности данных.
  • Принцип повторного использования:Автономная установка исправлений в компьютерных залах,Междоменное исправление данных выполняется автоматически в фоновом режиме.
  • Легко мигрировать:Низкая стоимость изменения данных,Отделите данные от бизнеса,Сокращение затрат,Повышайте эффективность.
  • Высокая доступность:Поддержка переключения между машинными залами,Повышение скорости аварийного восстановления компьютерного зала,Повысьте безопасность данных.

Междоменное хранилище — Междоменный поток данных.

В реализации Междоменного процесс восстановления,УсыновленныйДва метода потока данных

  • Асинхронный поток данных

Данные сначала записываются в локальный компьютерный зал, а затем автоматически выполняется междоменная синхронизация через namenode (NN). Производительность записи этого метода передачи данных соответствует существующему немеждоменному сценарию, а задержка синхронизации лучше, чем у решения distcp.

  • Синхронный поток данных

Создайте конвейер данных, соедините все узлы данных (DN) в компьютерном зале последовательно и синхронизируйте данные одновременно. Этот метод передачи ориентирован на предприятия с высокими требованиями к согласованности и надежности данных.

Междоменное хранилище——Топология и Восприятие компьютерного зала

Топология и Восприятие компьютерного зала — решение проблемы «узлового позиционирования» Междоменное хранилищеосновнойвопросключевые модули。На основе этого модуля можно контролировать распределение блоков данных и клиентский трафик.。Этот модуль в основномРешите проблему с двух сторон

  • Управление топологией

Путем преобразования топологии узла к управлению топологией добавляется измерение компьютерного зала. В то же время логика выбора блоков должна быть адаптирована на основе всего модуля топологии сети, чтобы быть совместимой с несколькими компьютерными залами.

  • Восприятие компьютерного зала

Для междоменных версий клиентов,Информация о компьютерном зале может передаваться в заголовке RPC.,для идентификации и поиска для клиентов, которые не поддерживают междоменные версии;,Услуга сопоставления IP-адресов компьютерного зала, предоставляемая командой сетевого обслуживания Цзиндун., Реализуйте поиск и запрос соответствующего компьютерного зала на стороне клиента.

Междоменное хранилище — междоменная идентификация.

Модуль междоменной идентификации является ключевым решением для решения проблемы «хранения данных в компьютерных залах». Мы используем тег атрибута, который поддерживает копии и EC для описания междоменных атрибутов данных. Например, A:3,B:2,C:2,A,status,[период],[начало,конец] означает, что в компьютерном зале A имеется 3 копии; компьютерный зал C. ; Компьютерный зал A — компьютерный зал для междоменной передачи; [статус] указывает на состояние внутреннего потока существующих данных, включая «i». «nit, обработка, выполнено, недействительно» — четыре состояния; [период] — это временная метка, используемая для междоменной конфигурации компьютерного зала, описывающая стратегию жизненного цикла междоменных данных [начало, конец] — еще одна конфигурация жизненного цикла совместного использования данных; Метод Время начала и окончания обмена данными может быть указано в виде абсолютного времени.

EC содержит два типа блоков данных и блоков проверки. По сравнению с режимом копирования, его поддержка междоменной синхронизации является более сложной. Он должен поддерживать реконструкцию данных в одном и том же компьютерном зале и междоменное копирование данных, когда условия реконструкции отсутствуют. соблюдаются для сокращения трафика междоменной синхронизации данных EC в междоменных сценариях.

Для ускорения общей междоменной обработки данных используются три метода:

  • Закрепить метаданные на XATTR
  • Inode Proto построен на памяти
  • Для каждого блока данных создайте идентификатор атрибута блока.

Междоменное хранилище — Междоменное исправление и управление потоком данных.

Для междоменного исправления и управления потоком используются три метода для обеспечения производительности.

  • Принцип, которого придерживаются при обработке междоменных исправлений, заключается в изоляции междоменной обработки от исходного процесса, чтобы гарантировать, что новый процесс междоменной обработки не влияет на исходную обработку исправлений в том же компьютерном зале в экстремальных ситуациях, таких как компьютерный зал. прерывание сети, может быть гарантирована работа одной машины. Доступны домашние службы метаданных.
  • Добавлен асинхронный междоменный модуль обновления.,Объединение атрибутов междоменных тегов,Внедрение HA-переключения и исправлений,Решите проблему с данными о запасах.
  • Использование программы CR-Checker для замены исходной задачи DistCopy позволяет плавно обновить исходную задачу межкластерной синхронизации до задачи междоменной синхронизации, сводя к минимуму влияние обновлений междоменной архитектуры на исходные существующие задачи.

Логика междоменного исправления показана на рисунке справа. Для дополнительных данных они разделены на два модуля. Дополнительные данные в одном и том же блоке компьютерного зала исправляются через исходные междоменные блоки RedundancyMonitor. Модуль CrossRegionRedundancyMonitor выполняет исправление блоков. Новое средство обновления в основном обрабатывает сценарии междоменного изменения меток, такие как междоменная конфигурация и изменения каталога. После оценки междоменных требований оно добавляется в модуль CrossRegionRedundancyMonitor для обработки исправлений.

Управление междоменным потоком разделено на четыре части.

  • Управление потоком междоменных патчей, строгий контроль междоменной пропускной способности путем настройки пропускной способности.
  • Клиент с приоритетом чтения и записи такой же, как DN компьютерного зала.,На основе представленной ранее функции «Восприятие компьютерного зала».,Чтобы соответствовать компьютерному залу, к которому принадлежат клиент и DN,Обязательно читайте данные DN только одного компьютерного зала.,Избегайте междоменного трафика.
  • Управление потоками междоменного чтения и записи: когда междоменный клиент обращается к данным, которые не содержат междоменный идентификатор, существует два метода обработки для новой версии клиента и старой версии клиента. Для клиентов новой версии статистика трафика и обработка противодавления будут выполняться на NN, чтобы гарантировать, что чтение и запись не будут влиять на пропускную способность основной выделенной линии. Для клиентов старой версии статистика трафика и отчеты будут выполняться на DN. Если предел превышен. Наконец, будет выполнена обработка противодавления.
  • Компьютерный зал Balancer внутренне сбалансирован и выполняет балансировку данных на узлах в одном компьютерном зале.

--

Многоуровневое хранилище

Многоуровневое хранилище——вопрос

Многоуровневое хранилище данных призвано решить проблемы, существующие в исходной структуре.

  • Горячие и холодные данные не обрабатываются по-разному.。Например, основные данные в реальном времени не отличаются от старых данных.,В результате ускоренная обработка основных данных не может быть выполнена.
  • Различные типы оборудования не рассматриваются по-разному.。хранилище Долгосрочная эволюция системы,В кластере существует множество различных типов моделей хранилища.,В предыдущей версии не делалось различий между различными моделями хранилищ.,Невозможно в полной мере использовать возможности оборудования.
  • Управление данными требует совместной обработки данных пользователями.,Есть большая загруженность,Трудности в продвижении

Многоуровневое хранилище

В ответ на вышеуказанные проблемы,Нам необходимо выполнить следующие функциональные требования к Многоуровневому хранилищу: реализовать автоматическую сортировку данных.,Горячие и холодные данные классифицируются и обрабатываются путем маркировки – делятся на горячие, теплые и холодные. Различные модели оборудования также классифицируются по категориям — на SSD, HDD и хранилища высокой плотности. Сопоставление тепловых данных в реальном времени с более эффективной DN,хранилище на оборудовании SSD,Холодные данные хранятся на оборудовании высокой плотности.,Достичь разумного распределения ресурсов.

Многоуровневое хранилище——Сценарии использования

Для реализации вышеперечисленных данных Многоуровневое хранилище существует в основном три сценария применения:

  • ускорение хранения данных

Обеспечьте средства ускорения для «горячих» и основных данных, разделения времени и многоуровневого хранения. Например, в основной период времени ночью он делится на три периода времени, и горячие данные этого периода перемещаются на высокопроизводительное устройство хранения в течение соответствующего периода. Этот метод обработки может расширить возможности бизнес-данных в течение соответствующего периода. основной период.

  • Архив холодного хранения

Холодные данные Zombie хранятся на устройствах хранения высокой плотности, что позволяет оптимизировать затраты на хранение единицы продукции. Бизнес-сторона выполняет автоматическое распределение «горячих» и «холодных» данных путем настройки динамических правил в измерении кластера и сохраняет «холодные» данные в данных высокой плотности. Чрезмерно «холодные» данные будут напрямую преобразованы в EC (Erasure Coding), что еще больше снижает затраты на хранение.

  • логический подкластер

Поддерживает разделение логических подкластеров по измерениям бизнеса/каталога для достижения изоляции данных. Для недавно выпущенных моделей эту логику можно использовать для изучения их производительности; при расширении сервера к новым серверам можно добавлять веса записи для увеличения объема хранилища. В случае возникновения чрезвычайных ситуаций неисправные машины можно быстро изолировать, не влияя на общую надежность имеющихся данных.

Многоуровневое хранилище——Архитектура

Многоуровневое представлено выше Логика и сценарии применения хранилища будут представлены ниже. В архитектуре хранилища весь фреймворк в основном реализован внутри NN:

  • Иерархическая конфигурация политики:Обеспечить внешнийAPIДоставка и внутренняя конфигурация。
  • API иерархической конфигурации:Обеспечивает иерархический интерфейс доставки политик.,Внешне иерархическая логика может быть реализована посредством автономного анализа данных и бизнес-стороны.
  • Встроенная стратегия наслоения:Настраиваемые и динамически обновляемые стратегии многоуровневого распределения,По умолчанию LRU выполняется путем доступа к статистике монитора.
  • менеджер тегов:Реализация управления метками каталогов и метками узлов.,Управляйте модулем выбора блоков, средством проверки распределения и другими модулями для выполнения миграции данных.
  • Проверка распределения данных:Внедрить распределенную проверку вновь добавленных данных.,Направляет данные для распределения по меткам.
  • Уточнение данных инвентаризации:верно Данные о запасах проводит проверку сканирования и направляет данные о блок запасах мигрировать реализует функции управления жизненным циклом данных;

Многоуровневое хранилище——основной дизайн

Базовый проект Многоуровневого хранилища,Можно разделить на два модуля,Один из них — управление тегами на основе деревьев каталогов в метаданных.,Выделите горячие и холодные данные для данных. Другая часть — это дерево топологии узла;,Используйте виртуальные мультитопологические деревья, чтобы логически различать узлы с разными метками.,Различные типы тегов будут иметь свои собственные независимые деревья топологии.,Достигните более эффективной производительности выбора узла. Существует два способа обновления дерева виртуальной топологии.,Это асинхронные обновления, основанные на весах узлов, и синхронные обновления онлайн- и офлайн-данных.

дополнительные данныеи Данные о запасахв потоке обработкииметьнижеразница

  • дополнительные данные:вернодля запросов на запись,Сначала оцените лейбл,Затем сопоставьте соответствующий узел,Запишите данные.
  • Данные о запасах:Фоновая проверка распределения данных сканирует метки данных,Сопоставьте соответствующие узлы на основе дерева виртуальной топологии.,затем завершите Миграция данные или конверсия.

--

Сессия вопросов и ответов

Вопрос 1. Какой метод используется для миграции данных в кластеры высокой плотности и какая стратегия на нем основана?

A1: Мы реализуем миграцию данных на основе многоуровневых функций. Общая логика обработки основана на настройке динамических правил, которые делят данные на три типа: холодные, теплые и горячие. Для «теплых» данных мы используем реализацию, подобную Balancer, для перемещения данных в хранилище с высокой плотностью; для «холодных» данных мы реализуем простую систему планирования внутри HDFS для отправки «холодных» данных, обнаруженных при сканировании, в DN, а DN реализует миграцию данных. . и передача на месте в ЕС.

Вопрос 2. Учитывает ли JD.com биллинг HDFS. Каковы размеры?

О2: Функция выставления счетов — это также то направление, на котором мы сосредоточимся на следующем этапе. Общая идея состоит в том, чтобы использовать функцию выставления счетов, чтобы помочь бизнес-сторонам использовать кластеры хранения более разумно и эффективно. В настоящее время мы классифицируем операции записи и операции чтения. Поскольку операции записи оказывают большее давление на NN, биллинговый вес операций записи будет превышать биллинговый вес операций чтения, и это соотношение составляет примерно 10 раз. На стороне NN информация о выставлении счетов будет суммироваться на маршрутизаторе HDFS для создания единой сводной статистики выставления счетов на уровне кластера. Маршрутизатор HDFS будет регулярно отправлять статистическую информацию в NN. NN будет классифицировать доступ пользователей на основе статистической информации. Доступ бизнес-сторон, превышающий заданную квоту, будет понижен.

Вопрос 3: Будет ли давление на NN большим? Как мы можем оптимизировать NN?

A3: Когда внутри NameNode добавляется новый модуль, время, в течение которого каждый модуль занимает внутреннюю блокировку ядра NameNode, будет подсчитываться в режиме реального времени. Когда время занятия блокировки вновь добавленного модуля превышает установленный порог, программа динамически уменьшит. время занятости блокировки модуля, чтобы гарантировать отсутствие влияния на внешнюю пропускную способность NameNode.

На этом на сегодня все, спасибо всем.


Поделиться гостями

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose