Подробное объяснение структуры платформы больших данных, ее компонентов и процедур обработки.
Подробное объяснение структуры платформы больших данных, ее компонентов и процедур обработки.

Всем привет, мы снова встретились, я ваш друг Цюаньчжаньцзюнь.

данныепродукты иданныенеотделимый актданные Менеджеры по продукту понимаютданныепроизведено из、Сохранение в приложенииизвесь процесс,以及大данныеСтроительство необходимо принятьизтехническая основаHadoopда Существенныйизсписок знаний,Таким образом, при создании продуктов на основе данных вы сможете понять ценность данных для производства с глобальной точки зрения. В этой статье рассматриваются три аспекта:

1. Процесс обработки больших данных

2. Платформа больших данных Hadoop

3. Компоненты экосистемы Hadoop

Понимать процесс каждого звена от создания данных до применения сценариев, а также техническую структуру Hadoop, которую предприятия должны использовать при создании платформы больших данных, и функции более чем 60 компонентов в экосистеме. Быть менеджером по продуктам данных — это значит. просто введение, а не глубокое погружение. Понимание технологии, с одной стороны, позволяет взглянуть на данные глобально. Когда возникает проблема с бизнес-данными, можно точно определить, в каком канале возникла проблема, и является ли она проблемой с данными. источник или проблема с логикой запроса данных. С другой стороны, обработка данных требует понимания основных принципов и логики.

Процесс обработки больших данных:

1. Производство данных

2. Сбор данных

3. Предварительная обработка данных

4. Хранение данных

5. Интеллектуальный анализ данных, статистика и анализ

6. ETL данных и реляционная база данных хранения

7. Визуализация данных

Выше представлен весь процесс потока данных, который включает в себя 7 звеньев: от создания данных до их хранения и до общего процесса применения визуализации данных. На следующем рисунке показан весь процесс обработки данных:

1Производство данных

В процессе производства данных используются три основных источника данных: данные журналов, бизнес-база данных и данные Интернета.

Данные журнала: предприятия предоставляют продукты пользователям. После того, как пользователи взаимодействуют с продуктами, данные журнала собираются через Flume и загружаются в файловую систему HDFS для автономной обработки. В то же время данные загружаются в Kafka. очередь сообщений как данные для буферизации и обработки в реальном времени.

Бизнес-данные: Бизнес-данные включают в себя бизнес-данные, созданные самим предприятием, такие как данные пользователей, заказы на данные и т. д.,Сюда также входят сторонние компании, предоставляющие услуги на основе взаимоотношений. Импортируйте и экспортируйте в распределенную файловую систему HDFS или реляционную библиотеку данных через Sqoop. Если вы заинтересованы в разработке больших данных,Я хочу изучать китайский язык систематически.,Вы можете присоединиться к большомуданные Обмен техническим обучением Кукоджуньян:522189307

Данные Интернета. В основном используются сканеры для сканирования данных на веб-страницах Интернета и API-интерфейсов, предоставляемых платформой, включая структурированные, полуструктурированные и неструктурированные данные, а затем очистка данных через ETL и сохранение их как данные локальной веб-страницы.

2Сбор данных

Компоненты, используемые для сбора данных, в основном включают Flume, Sqoop и Kafka. Flume в основном используется для сбора данных журналов, Sqoop в основном используется для импорта и экспорта данных в реляционные базы данных, а очередь сообщений Kafka в основном используется для сбора данных в реальном времени. .

3Предварительная обработка данных

После сбора данных данные будут предварительно обработаны с помощью Mapreduce и Hive, включая: очистку данных, объединение данных, обработку формата данных и т. д. Затем данные будут храниться в распределенных файлах HDFS и реляционных базах данных типа Habses.

4Хранение данных

Данные в основном хранятся в трех формах: распределенные файлы HDFS, Hbase и хранилища данных. Среди них Hbase и хранилище данных построены на основе файлов HDFS. Формат хранения данных Hbase основан на исходном хранилище данных столбца файла. Хранилище данных хранится на основе нескольких таблиц, образованных многомерными массивами. в то время как HDFS — «Сохранить как файл».

5Запрос данных и расчет

Компонентами запроса данных являются Hive и SparkSql. Принцип Hive заключается в том, что он может получать SQL-подобные операторы, введенные пользователями, а затем преобразовывать их в программы Mapreduce для запроса и обработки данных в HDFS, а также возвращать результаты или сохранять результаты в HDFS. SparkSql совместим с Hive, и его эффективность обработки намного выше, чем у Hive.

Платформами для вычислений данных являются Hadoop (пакетная обработка), Spark (потоковая обработка в реальном времени) и Storm (потоковая обработка в реальном времени). Ядро Hadoop состоит из распределенной файловой системы HDFS и платформы программирования MapReduce, которая служит вычислительным компонентом, а данные Storm поступают непрерывно, как вода, и обрабатываются в реальном времени. Основной механизм обработки данных Spark по-прежнему использует вычислительную среду MapReduce.

6Интеллектуальный анализ данных и статистический анализ

К инструментам интеллектуального анализа данных относятся Madout и MLlib — это инструмент интеллектуального анализа данных, созданный на основе Hadoop и содержащий несколько библиотек моделей алгоритмов. MLlib — это инструмент распределенного интеллектуального анализа данных, созданный на основе Spark, который использует вычисления в памяти Spark. MLlib — это широко используемый инструмент для Spark. Библиотека реализации алгоритмов интеллектуального анализа данных включает модели алгоритмов классификации, регрессии, сотрудничества и других алгоритмов, а также соответствующие тесты и генераторы данных.

Статистический анализ данных в основном использует SQL-подобные операторы для запроса, расчета и суммирования, а затем реализации статистики, например сводки через Mapreduce.

7Приложения для обработки данных

Конечная ценность данных заключается в том, что они применяются в определенной области или отрасли для расширения их возможностей, например, для снижения затрат и повышения эффективности, предупреждения о рисках, оптимизации продукта и т. д. Вышеуказанные функции в основном реализуются с помощью продуктов данных, включая, помимо прочего, собственную систему BI предприятия, коммерческие продукты данных, такие как Shence, GoogleIO и т. д. Существует три основные категории продуктов серверных данных. Компоненты продуктов данных включают в себя: дизайн отчета, диаграмму визуализации и мониторинг данных.

2. Платформа больших данных Hadoop

Давайте сначала посмотрим на историю платформы больших данных Hadoop, а затем представим состав платформы:

2004 г.

Google опубликовал одну за другой три статьи, представляющие собой легендарную «Тройку»

  1. Страничная файловая система GFS
  2. Платформа распределенных вычислений для больших данных MapReduce
  3. Система библиотеки данных NoSQL BigTable

2006 г.

Дуг Каттинг начал известный проект Hadoop, который в основном включает в себя распределенную файловую систему Hadoop HDFS и механизм вычислений больших данных MapReduce, а также реализовал две статьи по GFS и MapReduce соответственно.

2007 год

HBase родился, реализовав последнюю статью Big Table.

2008 год

Появление Pig и Hive поддерживает использование синтаксиса SQL для вычислений больших данных, что значительно снижает сложность использования Hadoopr. Аналитики и инженеры данных могут с комфортом выполнять анализ и обработку больших данных без каких-либо препятствий.

2012 год

Hadoop разделил механизм выполнения и планирование ресурсов и создал систему планирования ресурсов Yarn. В этом году также начала появляться Spark, постепенно заменяющая MapReduce в корпоративных приложениях.

На следующем рисунке показан состав платформы больших данных Hadoop:

Базовая структура состоит в том, что тройка Hadoop состоит из распределенной системы хранения файлов HDFS, распределенной вычислительной среды Mapreudce и столбчатой ​​базы данных Hbase. Конечно, для формирования относительно полной структуры верхнего уровня требуются инструменты запросов к хранилищу данных, такие как Hive и Pig. Платформа больших данных.

3. Компоненты экосистемы Hadoop

В общей сложности более 60 компонентов в экосистеме Hadoop образуют полную структуру больших данных. Предприятия будут выбирать различные компоненты в соответствии со своими собственными условиями разработки, чтобы создать подходящую для них архитектуру больших данных. Далее рассматриваются функции каждого компонента в экосистеме Hadoop. будут представлены:

1.Sqoop

sqoop — это инструмент с открытым исходным кодом, который в основном используется для передачи данных между Hadoop (Hive) и традиционными базами данных (mysql). Он может импортировать данные из реляционной базы данных (например, MySQL, Oracle и т. д.) в Hadoop. Данные HDFS также можно импортировать в реляционную базу данных.

2.Flume

Flume — это высокодоступная, высоконадежная распределенная система массового сбора, агрегирования и передачи журналов, предоставляемая Cloudera. Flume поддерживает настройку различных отправителей данных в системе журналов для одновременного сбора данных. Flume обеспечивает возможность простой обработки данных и их обработки. писать различным получателям данных (настраиваемые)

3.Kafka

Kafka — это система распределенного обмена сообщениями, разработанная LinkedIn. Она используется для сбора данных в реальном времени и часто используется в качестве буферного компонента. В основном используется для обработки потока данных в реальном времени.

4.Storm

Storm предоставляет набор общих примитивов для распределенных вычислений в реальном времени, которые можно использовать в «потоковой обработке» для обработки сообщений и обновления базы данных в реальном времени. Это еще один способ управления очередями и рабочими кластерами. Storm также можно использовать для «непрерывных вычислений» (непрерывных вычислений), выполнения непрерывных запросов к потоку данных и преобразования результатов в поток во время вычислений.

вывод пользователю.

5.Spark

В настоящее время Spark является самой популярной платформой для вычислений в памяти с открытым исходным кодом. Вычисления могут выполняться на основе больших данных, хранящихся в Hadoop.

6.Spark Streaming

Spark Streaming поддерживает обработку потоковых данных в реальном времени и вычисляет данные в реальном времени микропакетным способом.

7.Hbase

HBase — это распределенная, столбцово-ориентированная база данных с открытым исходным кодом. HBase отличается от обычных реляционных баз данных тем, что это база данных, подходящая для хранения неструктурированных данных.

8.Hive

Hive — это инструмент хранилища данных, основанный на Hadoop. Он может отображать файлы структурированных данных в таблицу базы данных и предоставлять простые функции SQL-запросов. Он может преобразовывать операторы SQL в задачи MapReduce для запуска. Его преимущество заключается в низкой стоимости обучения, простой статистике MapReduce можно быстро реализовать с помощью SQL-подобных операторов, и нет необходимости разрабатывать специальные приложения MapReduce. Он очень подходит для статистического анализа хранилищ данных.

9.Mahout

Apache Mahout — это масштабируемая библиотека машинного обучения и анализа данных. В настоящее время Mahout поддерживает четыре основных варианта использования: Анализ рекомендаций: сбор действий пользователя и рекомендации того, что может понравиться пользователю. Агрегация: сбор файлов и группировка связанных файлов. Классификация: изучайте существующие секретные документы, находите в них схожие черты и правильно классифицируйте немаркированные документы. Анализ часто встречающихся наборов элементов: группировка набора элементов и определение того, какие отдельные элементы часто появляются вместе.

10.Zookeeper

Zookeeper — это реализация Google Chubby с открытым исходным кодом. Это надежная система координации для крупномасштабных распределенных систем. Она предоставляет такие функции, как обслуживание конфигурации, служба имен, распределенная синхронизация, групповое обслуживание и т. д. Цель ZooKeeper — инкапсулировать сложные и подверженные ошибкам ключевые сервисы и предоставить пользователям простые и удобные в использовании интерфейсы, а также систему с эффективной производительностью и стабильными функциями.

11.Oozie

Oozie — это система управления планированием рабочих процессов для управления заданиями Hdoop. Задача координации Oozie — запустить текущий рабочий процесс Oozie с помощью времени (частоты) и достоверных данных.

Выше описан весь процесс обработки больших данных, архитектура больших данных Hadoop и введение каждого компонента. Эта часть — только самая основная часть. Конечно, менеджерам по продуктам данных необходимо понимать только основные принципы обработки данных и. архитектуру и уметь взаимодействовать с данными. Развивать эффективную связь и уметь диагностировать, какое соединение вызвало ошибку, когда в данных возникает аномалия.

Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/142383.html Исходная ссылка: https://javaforall.cn

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose