Нажмите, чтобы подписаться на официальный аккаунт, галантерейные товары Java будут доставлены вовремя.
Давайте сначала посмотрим на это изображение. Это диаграмма архитектуры платформы больших данных, используемая компанией. Большинство компаний должны быть похожими:
В этой общей схеме архитектуры больших данных основными уровнями больших данных должны быть: уровень сбора данных, уровень хранения и анализа данных, уровень совместного использования данных и уровень приложений данных. Имена могут быть разными, но все их основные роли очень велики. одинаковый.
Итак, я буду следовать подсказкам на этой архитектурной диаграмме и медленно анализировать, что включают в себя основные технологии больших данных.
Существует множество типов источников данных:
Нет сомнений в том, что HDFS является наиболее совершенным решением для хранения данных для хранилища данных/платформы данных в среде больших данных.
Автономный анализ и расчет данных, то есть та часть, которая не требует высокой производительности в реальном времени, по мнению автора, Hive по-прежнему является лучшим выбором, с богатыми типами данных и встроенными функциями хранения файлов ORC с очень высоким уровнем; очень удобная степень сжатия. Поддержка SQL делает статистический анализ Hive, основанный на структурированных данных, гораздо более эффективным, чем MapReduce. Для требований, которые можно выполнить с помощью предложения SQL, разработка MR может потребовать сотен строк кода;
Кроме того, были отсортированы вопросы и ответы из серии интервью по MySQL. WeChat выполняет поиск в стеке технологий Java и отправляет: Интервью в фоновом режиме, которое можно прочитать в Интернете.
конечно,Использование платформы Hadoop, естественно, также предоставляет интерфейс MapReduce.,Если вы действительно счастливы разрабатывать Java,Или не знаком с SQL,Затем вы также можете использовать MapReduce для анализа и расчета, были разобраны последние вопросы собеседования;,НажмитеБиблиотека интервью JavaМини-программа онлайн-викторин。
Spark был очень популярен в последние два года. После практики его производительность действительно намного выше, чем у MapReduce, а его интеграция с Hive и Yarn становится все лучше и лучше. Поэтому он должен поддерживать использование Spark и SparkSQL для анализа и анализа. расчет. Поскольку Hadoop Yarn уже существует, использовать Spark на самом деле очень просто, и нет необходимости отдельно развертывать кластер Spark.
Совместное использование данных здесь фактически относится к месту, где хранятся результаты предыдущего анализа и вычислений данных, которое на самом деле представляет собой реляционную базу данных и базу данных NOSQL;
Предыдущие результаты анализа и вычислений с использованием Hive, MR, Spark и SparkSQL все еще находятся в HDFS, но большинство предприятий и приложений не могут получать данные непосредственно из HDFS, поэтому необходимо место для обмена данными, чтобы облегчить получение данных различными предприятиями и продуктами. В отличие от уровня сбора данных HDFS, здесь вам нужен инструмент для синхронизации данных из HDFS с другими целевыми источниками данных. Аналогично, DataX также может соответствовать этим требованиям.
Кроме того, некоторые данные результатов вычислений в реальном времени могут быть напрямую записаны в общий доступ к данным модулем вычислений в реальном времени.
Нажмите, чтобы подписаться на официальный аккаунт, галантерейные товары Java будут доставлены вовремя.
Конечно, вы также можете использовать Impala, если вас не волнует наличие на платформе еще одного фреймворка.Рекомендовать один Spring Boot Основные руководства и практические примеры: https://github.com/javastacks/spring-boot-best-practice.
В хранилище данных/платформе данных имеется множество программ и задач, таких как: задачи сбора данных, задачи синхронизации данных, задачи анализа данных и т. д.;
Помимо планирования по расписанию, эти задачи также имеют очень сложные зависимости между задачами. Например, задача анализа данных должна дождаться завершения соответствующей задачи сбора данных, прежде чем ее можно будет запустить. Задача синхронизации данных должна дождаться задачи анализа данных; быть завершено до того, как его можно будет начать;
Для этого требуется очень полная система планирования и мониторинга задач, которая служит центром хранилища данных/платформы данных и отвечает за планирование и мониторинг распределения и выполнения всех задач.
Источник: http://lxw1234.com/archives/2015/08/471.htm
Как остановить запланированное задание Spring Boot после запуска его автоматически?
Работа 3 Мой коллега, которому 20 лет, не знает, как откатить код!
23 Практическая практика использования различных шаблонов проектирования (очень полная)
4 способа защитить конфиденциальную конфигурацию в Spring Boot!
Прощайте, одиночки! 6 способов создания объектов в Java
Почему Али рекомендует использовать LongAdder?
Новый технический директор: во время написания кода запрещено носить наушники. .
Перестаньте писать взрывные классы и попробуйте шаблон декоратора!
Java 18 Официально выпущен, доработать Устарело.。
Рождение администратора Spring Boot!
Примечания к исследованию Spring Boot: это настолько всесторонне!
Следите за стеком технологий Java, чтобы увидеть больше полезной информации.
Получите практические заметки по Spring Boot!