Иллюстрация базовой архитектуры платформы больших данных, рекомендуется к сбору!
Иллюстрация базовой архитектуры платформы больших данных, рекомендуется к сбору!

Нажмите, чтобы подписаться на официальный аккаунт, галантерейные товары Java будут доставлены вовремя.

Давайте сначала посмотрим на это изображение. Это диаграмма архитектуры платформы больших данных, используемая компанией. Большинство компаний должны быть похожими:

В этой общей схеме архитектуры больших данных основными уровнями больших данных должны быть: уровень сбора данных, уровень хранения и анализа данных, уровень совместного использования данных и уровень приложений данных. Имена могут быть разными, но все их основные роли очень велики. одинаковый.

Итак, я буду следовать подсказкам на этой архитектурной диаграмме и медленно анализировать, что включают в себя основные технологии больших данных.

1. Сбор данных

Задача сбора данных состоит в том, чтобы собрать и сохранить данные из различных источников данных в хранилище данных, во время чего можно выполнить некоторую простую очистку.

Существует множество типов источников данных:

В интернет-индустрии журналы веб-сайтов составляют наибольшую долю. Журналы веб-сайтов хранятся на нескольких серверах журналов веб-сайтов. Агент Flume обычно развертывается на каждом сервере журналов веб-сайтов для сбора журналов веб-сайтов в режиме реального времени и хранения их в HDFS;

Существует также много типов бизнес-баз данных, включая Mysql, Oracle, SqlServer и т. д. В настоящее время нам срочно нужен инструмент, который может синхронизировать данные из различных баз данных с HDFS. Sqoop — это один из них, но Sqoop слишком тяжелый, независимо от того, какой именно. размер данных всем необходимо запустить MapReduce для выполнения, и каждая машина в кластере Hadoop должна иметь доступ к бизнес-базе данных, чтобы справиться с этим сценарием, DataX с открытым исходным кодом Taobao — хорошее решение. Если есть ресурсы, вы можете это сделать. на основе DataX. После разработки его можно очень хорошо решить.

Конечно, Flume также может синхронизировать данные из базы данных с HDFS в режиме реального времени посредством настройки и разработки.

Вполне возможно, что данные, предоставляемые некоторыми партнерами, необходимо регулярно получать через Ftp/Http и т. д. DataX также может удовлетворить этот спрос;

Например, для завершения некоторых данных, введенных вручную, требуется только интерфейс или небольшая программа;

2. Хранение и анализ данных

Нет сомнений в том, что HDFS является наиболее совершенным решением для хранения данных для хранилища данных/платформы данных в среде больших данных.

Автономный анализ и расчет данных, то есть та часть, которая не требует высокой производительности в реальном времени, по мнению автора, Hive по-прежнему является лучшим выбором, с богатыми типами данных и встроенными функциями хранения файлов ORC с очень высоким уровнем; очень удобная степень сжатия. Поддержка SQL делает статистический анализ Hive, основанный на структурированных данных, гораздо более эффективным, чем MapReduce. Для требований, которые можно выполнить с помощью предложения SQL, разработка MR может потребовать сотен строк кода;

Кроме того, были отсортированы вопросы и ответы из серии интервью по MySQL. WeChat выполняет поиск в стеке технологий Java и отправляет: Интервью в фоновом режиме, которое можно прочитать в Интернете.

конечно,Использование платформы Hadoop, естественно, также предоставляет интерфейс MapReduce.,Если вы действительно счастливы разрабатывать Java,Или не знаком с SQL,Затем вы также можете использовать MapReduce для анализа и расчета, были разобраны последние вопросы собеседования;,НажмитеБиблиотека интервью JavaМини-программа онлайн-викторин。

Spark был очень популярен в последние два года. После практики его производительность действительно намного выше, чем у MapReduce, а его интеграция с Hive и Yarn становится все лучше и лучше. Поэтому он должен поддерживать использование Spark и SparkSQL для анализа и анализа. расчет. Поскольку Hadoop Yarn уже существует, использовать Spark на самом деле очень просто, и нет необходимости отдельно развертывать кластер Spark.

3. Обмен данными

Совместное использование данных здесь фактически относится к месту, где хранятся результаты предыдущего анализа и вычислений данных, которое на самом деле представляет собой реляционную базу данных и базу данных NOSQL;

Предыдущие результаты анализа и вычислений с использованием Hive, MR, Spark и SparkSQL все еще находятся в HDFS, но большинство предприятий и приложений не могут получать данные непосредственно из HDFS, поэтому необходимо место для обмена данными, чтобы облегчить получение данных различными предприятиями и продуктами. В отличие от уровня сбора данных HDFS, здесь вам нужен инструмент для синхронизации данных из HDFS с другими целевыми источниками данных. Аналогично, DataX также может соответствовать этим требованиям.

Кроме того, некоторые данные результатов вычислений в реальном времени могут быть напрямую записаны в общий доступ к данным модулем вычислений в реальном времени.

Нажмите, чтобы подписаться на официальный аккаунт, галантерейные товары Java будут доставлены вовремя.

4. Применение данных

Данные, используемые бизнес-продуктами, уже существуют на уровне совместного использования данных, и к ним можно получить доступ непосредственно с уровня совместного использования данных;

Для одних и тех же бизнес-продуктов данные, используемые в отчетах, обычно статистически суммируются и сохраняются на уровне совместного использования данных;

Существует множество пользователей специальных запросов. Это могут быть разработчики данных, операторы веб-сайтов и продуктов, аналитики данных или даже руководители отделов. У всех них есть потребность в специальных запросах.

Этот вид специального запроса обычно возникает из-за того, что данные в существующем уровне отчета и совместного использования данных не могут удовлетворить их потребности и их необходимо запрашивать непосредственно с уровня хранения данных.

Специальные запросы обычно выполняются с помощью SQL. Самая большая трудность заключается в скорости ответа. Использование Hive немного медленное. Вы можете использовать SparkSQL. Его скорость ответа намного выше, чем у Hive, и он хорошо совместим с Hive.

Конечно, вы также можете использовать Impala, если вас не волнует наличие на платформе еще одного фреймворка.Рекомендовать один Spring Boot Основные руководства и практические примеры: https://github.com/javastacks/spring-boot-best-practice.

В настоящее время многие инструменты OLAP не поддерживают прямое получение данных из HDFS. Все они выполняют OLAP путем синхронизации необходимых данных с реляционной базой данных. Однако, если объем данных огромен, реляционная база данных явно не подходит.

В настоящее время необходимо выполнить соответствующую разработку для получения данных из HDFS или HBase для выполнения функции OLAP, например, в соответствии с неопределенными размерами и индикаторами, выбранными пользователем в интерфейсе, данные могут быть получены из HBase для отображения через; интерфейс разработки.

Существуют универсальные интерфейсы и настраиваемые интерфейсы. Например: интерфейс получения пользовательских атрибутов из Redis является универсальным, и все предприятия могут вызывать этот интерфейс для получения пользовательских атрибутов.

5. Расчет в реальном времени

В настоящее время у предприятий появляется все больше и больше требований к хранилищам данных в реальном времени, таких как: понимание общего трафика веб-сайта в реальном времени; получение информации о показах и кликах по рекламе в реальном времени на основе огромных данных практически невозможно; полагаться на традиционные базы данных и традиционные методы реализации. Требуется распределенная, высокопроизводительная, малозадержка и высоконадежная среда вычислений в реальном времени, которая является относительно зрелой в этой области, но я выбрал Spark Streaming в качестве решения. по простой причине, я не хотел вводить в платформу еще один фреймворк, кроме Spark. У потоковой передачи задержка немного выше, чем у Storm, поэтому для наших нужд ее можно игнорировать.

В настоящее время мы используем Spark Streaming для реализации двух функций: статистики трафика веб-сайта в реальном времени и статистики рекламного эффекта в реальном времени.

Этот метод также очень прост. Flume собирает журналы веб-сайтов и журналы рекламы на внешнем сервере журналов и отправляет их в Spark Streaming в режиме реального времени. Spark Streaming собирает статистику и сохраняет данные в Redis. доступ к Редису.

6. Планирование задач и мониторинг

В хранилище данных/платформе данных имеется множество программ и задач, таких как: задачи сбора данных, задачи синхронизации данных, задачи анализа данных и т. д.;

Помимо планирования по расписанию, эти задачи также имеют очень сложные зависимости между задачами. Например, задача анализа данных должна дождаться завершения соответствующей задачи сбора данных, прежде чем ее можно будет запустить. Задача синхронизации данных должна дождаться задачи анализа данных; быть завершено до того, как его можно будет начать;

Для этого требуется очень полная система планирования и мониторинга задач, которая служит центром хранилища данных/платформы данных и отвечает за планирование и мониторинг распределения и выполнения всех задач.

Источник: http://lxw1234.com/archives/2015/08/471.htm

Как остановить запланированное задание Spring Boot после запуска его автоматически?

Работа 3 Мой коллега, которому 20 лет, не знает, как откатить код

23 Практическая практика использования различных шаблонов проектирования (очень полная)

4 способа защитить конфиденциальную конфигурацию в Spring Boot!

Прощайте, одиночки! 6 способов создания объектов в Java

Почему Али рекомендует использовать LongAdder?

Новый технический директор: во время написания кода запрещено носить наушники. .

Перестаньте писать взрывные классы и попробуйте шаблон декоратора!

Java 18 Официально выпущен, доработать Устарело.

Рождение администратора Spring Boot!

Примечания к исследованию Spring Boot: это настолько всесторонне!

Следите за стеком технологий Java, чтобы увидеть больше полезной информации.

Получите практические заметки по Spring Boot!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose