Введение в Storm, компонент больших данных

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

В области обработки больших данных Apache Storm — это вычислительная система реального времени, предназначенная для обработки огромных потоков данных. Он предоставляет распределенные, отказоустойчивые и высокодоступные вычислительные решения реального времени, позволяющие разработчикам легко создавать сложные конвейеры обработки данных. В этой статье в простой и понятной форме будут представлены основные концепции, принципы работы, распространенные проблемы и решения Storm, а также использован простой пример кода, чтобы показать, как использовать Storm для обработки данных в реальном времени.

Основные концепции и принципы

1. Топология

В Storm топология представляет собой логическую структуру вычислительной задачи реального времени. Вы можете думать об этом как о направленном ациклическом графе (DAG), состоящем из Spouts (источников данных) и Bolts (узлов обработки данных). Spouts отвечают за получение данных из источников данных, а Bolts — за обработку данных, включая фильтрацию, агрегацию, подключение к внешним системам и другие операции.

2. Носик (источник данных)

Spout — отправная точка потока данных,Он постоянно извлекает данные из внешних источников данных.（нравитьсяKafka、MQTTждать）Извлечь данные и отправить вTopologyсередина。каждыйSpoutнеобходимо реализоватьIRichSpoutинтерфейс,Определить логику сбора данных и механизм восстановления после сбоев.

3. Болт (процессор данных)

Bolt — основной процессор Storm.,Отвечает за преобразование и обработку данных. Он может выполнять различные операции, такие как фильтрация, агрегирование, функциональные операции и запись в базу данных. Болты можно соединять, образуя сложные технологические цепочки.,каждыйBoltМожет потреблять один или несколькоBoltилиSpoutисходящий поток данных。Boltнеобходимо реализоватьIBasicBoltилиIRichBoltинтерфейс。

4. Отказоустойчивость и надежность.

Storm использует механизм подтверждения, чтобы гарантировать правильную обработку каждого кортежа (единицы данных). Когда кортеж будет полностью обработан, акер получит подтверждение, в противном случае кортеж будет отправлен повторно, тем самым обеспечивая целостность обработки данных.

Часто задаваемые вопросы и ошибки

1. Потеря данных

Потеря данных обычно вызвана неправильной конфигурацией топологии или ошибками логики обработки. Обязательно включите механизм подтверждения сообщений и правильно обрабатывайте исключения, чтобы не прерывать процесс обработки данных.

2. Узкое место в производительности

Проблемы с производительностью часто вызваны необоснованным распределением ресурсов, неравномерностью данных или чрезмерной сложностью логики обработки. Разумно распределяйте количество работников, исполнителей и задач, оптимизируйте структуру потока данных и сокращайте ненужную передачу и обработку данных.

3. Недостаточное понимание механизмов отказоустойчивости.

Неправильная настройка или пропуск параметров отказоустойчивости может привести к несогласованности данных или сбоям выполнения задач. Глубоко понимать механизм отказоустойчивости Storm и правильно настраивать стратегии подтверждения сообщений, чтобы обеспечить стабильную работу системы.

как избежать

Узнайте больше об архитектуре Storm：пониматькаждыйкомпонентыизэффекти Конфигурация Параметры,Правильно спланируйте топологию.
Мониторинг и протоколирование：использоватьStormВстроенные инструменты мониторинга и система журналирования.,Своевременно выявляйте и устраняйте проблемы.
Настройка производительности：Регулярно проводить обзоры эффективности,Динамически корректируйте распределение ресурсов в зависимости от нагрузки.
Напишите надежную логику обработки：Убедитесь, что логика обработки может правильно обрабатывать исключения.,Избегайте единых точек отказа.

Пример кода: количество слов

Ниже приведен простой пример топологии Storm, реализующий функцию подсчета слов.

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.tuple.Fields;

public class WordCountTopology {
    
    public static void main(String[] args) throws Exception {
        TopologyBuilder builder = new TopologyBuilder();
        
        // Spout: отправить предложение
        builder.setSpout("word-spout", new SentenceSpout(), 1);
        
        // Bolt: причастие
        builder.setBolt("split-bolt", new SplitSentenceBolt(), 2)
            .shuffleGrouping("word-spout");
        
        // Bolt: считать
        builder.setBolt("count-bolt", new WordCountBolt(), 4)
            .fieldsGrouping("split-bolt", new Fields("word"));
        
        Config config = new Config();
        config.setDebug(true);
        
        if (args != null && args.length > 0) {
            config.setNumWorkers(3);
            StormSubmitter.submitTopology(args[0], config, builder.createTopology());
        } else {
            LocalCluster cluster = new LocalCluster();
            cluster.submitTopology("word-count", config, builder.createTopology());
        }
    }
}

В этом примере,SentenceSpoutотправить предложение,SplitSentenceBoltОтветственныйпричастие,WordCountBoltстатистикакаждыйпоявляется словоизчастота。через этот пример,Вы можете интуитивно почувствовать процесс обработки потока данных Storm.

В предыдущей части мы представили основные понятия, принципы работы Apache Storm и простой пример подсчета слов. Далее мы обсудим, как бороться с распространенными проблемами и точками ошибок, а также как оптимизировать топологию Storm для повышения производительности.

Часто задаваемые вопросы и решения

1. Задержка данных

Задержка данных может быть вызвана тем, что скорость обработки не соответствует поступающим данным. Решения включают в себя:

Оптимизировать логику обработки：Уменьшите ненужные вычисления,Используйте более эффективные алгоритмы.
увеличить ресурсы：Увеличиватьworker、executorилиtaskколичество,Улучшить возможности обработки.
Настройте стратегию буферизации：существоватьSpoutиBoltУстановите соответствующие буферы между,Сбалансируйте скорость притока и оттока.

2. Перекос данных

Неравномерность данных означает, что объем данных, обрабатываемых некоторыми узлами, намного больше, чем у других узлов, что приводит к неравномерной нагрузке. Решения включают в себя:

Разумное разделение：Используйте разумные поля для группировки,Убедитесь, что данные распределены равномерно.
Динамическая балансировка нагрузки：Мониторинг состояния узла,Динамическая настройка топологии в зависимости от нагрузки.

3. Длинная задержка хвоста

Задержка с длинным хвостом означает, что обработка некоторых кортежей занимает слишком много времени. Это может быть связано с высокой сложностью обработки конкретных данных или сбоем конкретного узла. Решение:

Выявляйте и оптимизируйте узкие места：Мониторинг производительности системы,выяснить Узкое место в производительностии оптимизировать。
Добавить механизм отказоустойчивости：Убедитесь, что в случае возникновения сбоя,Система может быстро восстановиться.

Стратегия оптимизации

1. Регулировка параллельности

Правильная настройка параллелизма Топологии (количества воркеров, исполнителей и задач) — залог оптимизации производительности. Может динамически настраиваться в зависимости от ресурсов кластера и нагрузки задач.

Config config = new Config();
config.setNumWorkers(10); // Установите количество рабочих
config.setNumExecutors("split-bolt", 5); // Установить количество исполнителей для конкретного Болта

2. Тестирование локального режима

Прежде чем отправлять топологию в рабочую среду, вы можете протестировать ее в локальном режиме, чтобы проверить правильность конфигурации и логики.

LocalCluster cluster = new LocalCluster();
cluster.submitTopology("test-topology", config, topology);

3. Оптимизация планирования ресурсов

Использование менеджеров ресурсов, таких как YARN или Kubernetes, позволяет лучше планировать ресурсы кластера Storm и управлять ими.

4. Мониторинг и протоколирование

Включите мониторинг и ведение журнала, чтобы оперативно выявлять и решать проблемы.

config.setDebug(true); // Включить режим отладки
config.setLogConfig(new HashMap<String, Object>()); // Настройка параметров журнала

Углубленное исследование Apache Основы Storm, решение распространенных проблем, стратегия оптимизациипосле,Давайте расширим его дальше,Узнайте, как реализовать расширенные функции и лучшие практики в реальных проектах.,Повысить надежность и масштабируемость приложений.

Расширенные функции и практики

1. Stateful Processing with Trident

Trident — это высокоуровневая абстракция Storm. Он обеспечивает возможности управления состоянием и обработки транзакций и очень подходит для сценариев, требующих точной семантики однократной обработки, такой как подсчет, агрегирование и другие операции обновления состояния.

javaTridentTopology topology = new TridentTopology();
Stream inputStream = topology.newStream("spout", new MemorySpout());

// Подсчитайте общее количество слов
Stream wordCounts = inputStream.each(new Fields("sentence"), new Split(), new Fields("word"))
    .groupBy(new Fields("word"))
    .persistentAggregate(new MemoryMapState.Factory(), new Count(), new Fields("count"));

topology.commit(topology.build());

2. Повышение отказоустойчивости и надежности.

Механизм подтверждения：Понять и настроить правильноTupleиз Механизм подтверждения, обеспечивающие точность и полноту обработки данных.
Guarantee Message Processing：использоватьTridentизExactly Однажды семантика обеспечивает точность обработки данных.

3. Управление ресурсами и производительностью

Динамическое расширение и сжатие：Интегрированная система управления ресурсами（нравитьсяYARN、Mesos）Реализуйте автоматическое расширение и сжатие,Динамически корректируйте распределение ресурсов в зависимости от нагрузки.
Механизм противодавления：использоватьStormиз Механизм Противодавления (противодавление) предотвращает накопление данных, когда скорость обработки данных слишком низкая.

4. Безопасность

Аутентификация и авторизация：КонфигурацияSSL/TLSзашифрованное сообщение,Реализуйте аутентификацию пользователей и контроль разрешений.
Защита данных：Защитите конфиденциальные данныесуществовать Обработкасерединаиз Безопасность,Например, использование алгоритмов шифрования для обработки данных.

Практические навыки

1. Отладка и оптимизация журналов

Используйте пользовательский интерфейс Storm для отслеживания состояния топологии, включая ход выполнения задач, частоту ошибок и т. д.
Настраивайте уровни и форматы журналов, чтобы обеспечить отслеживаемость ключевой информации.

2. Настройка производительности

Размер кортежа：Минимизируйте как можно большеTupleизразмер,Уменьшите накладные расходы на передачу по сети.
Пакетная обработка：существоватьTridentсередина Разумные настройкиbatch размер, балансируя скорость обработки и потребление ресурсов.

3. Персистентность и хранение данных

эффективное хранение：Выберите подходящийиз Решение для постоянного хранения,Такие как HDFS, Кассандра,Оптимизируйте производительность чтения и записи в соответствии с потребностями бизнеса.
Кэш данных：Правильное использование кэша памяти（нравитьсяRedis）Ускорьте доступ к данным точки доступа。

Заключение

Apache Storm стал предпочтительным инструментом для многих проектов анализа данных в реальном времени благодаря своим мощным возможностям обработки в реальном времени. Однако, чтобы по-настоящему реализовать его потенциал, вам необходимо не только освоить основные концепции и операции, но также необходимо иметь глубокое понимание его расширенных функций, а также постоянной оптимизации и настройки для работы с различными сложными сценариями. Я надеюсь, что благодаря вышеупомянутым расширенным функциям, практическим навыкам и обмену практическим опытом вы сможете более комфортно создавать систему обработки данных в реальном времени и добиться эффективной и стабильной работы системы. Благодаря постоянному развитию технологий, постоянному обучению и практике ваше исследование в области вычислений в реальном времени станет более ярким.

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024, приходите и разделите со мной приз!

Рекомендация

Категории

большие данные java apache storm

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

Введение в Storm, компонент больших данных

Основные концепции и принципы

1. Топология

2. Носик (источник данных)

3. Болт (процессор данных)

4. Отказоустойчивость и надежность.

Часто задаваемые вопросы и ошибки

1. Потеря данных

2. Узкое место в производительности

3. Недостаточное понимание механизмов отказоустойчивости.

как избежать

Пример кода: количество слов

Часто задаваемые вопросы и решения

1. Задержка данных

2. Перекос данных

3. Длинная задержка хвоста

Стратегия оптимизации

1. Регулировка параллельности

2. Тестирование локального режима

3. Оптимизация планирования ресурсов

4. Мониторинг и протоколирование

Расширенные функции и практики

1. Stateful Processing with Trident

2. Повышение отказоустойчивости и надежности.

3. Управление ресурсами и производительностью

4. Безопасность

Практические навыки

1. Отладка и оптимизация журналов

2. Настройка производительности

3. Персистентность и хранение данных

Заключение

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose