В ходе онлайн-трансляции карнавала разработчиков Tencent Global Digital Ecology Conference 2024 года я наблюдал за представлением Tencent Cloud Stream Computing Oceanus для создания потокового склада на озере и записал заметки.
В последние годы с ускоренным развитием цифровизации у предприятий возникает все более острая потребность в обработке и анализе данных в режиме реального времени. Данные в режиме реального времени стали ключевым элементом стимулирования бизнес-инноваций и повышения конкурентоспособности. Однако традиционные методы пакетной обработки имеют такие проблемы, как низкая своевременность, разрозненность данных и трудности с расширением, и не могут удовлетворить насущные потребности современных предприятий в аналитике в реальном времени.
Потоковые вычисления Oceanus — это инструмент анализа в реальном времени для экосистемы продуктов больших данных. Это платформа анализа больших данных корпоративного уровня, построенная на Apache Flink. Она обладает характеристиками комплексной разработки, плавного подключения и суб-подключения. Вторая задержка, низкая стоимость, безопасность и стабильность.
Потоковые вычисления Oceanus направлены на максимальное повышение ценности корпоративных данных и ускорение процесса цифровизации предприятий в режиме реального времени. Это может помочь предприятиям собирать, обрабатывать и анализировать огромные объемы данных в режиме реального времени. Это позволяет быстро реагировать на бизнес-решения, повышает операционную эффективность и открывает новые возможности роста.
Традиционно пользователи выбирают архитектуру Lambda для построения связей для анализа данных. Лямбда-архитектура — относительно стабильная архитектура для потоковой и пакетной обработки данных. Пусть офлайн-данные и данные в реальном времени проходят отдельную обработку ссылок. Данные офлайн-ссылок обычно хранятся в механизмах автономной обработки, таких как Hive, а Spark используется для многоуровневого преобразования данных. Данные ссылки реального времени будут обрабатываться отдельно, и обычно используется многоуровневая ссылка Flink+Kafka в реальном времени. Окончательные данные будут записаны в онлайн-базу данных и хранилище данных. Эта архитектура может обеспечить задержку второго уровня базы данных, но есть и некоторые проблемы. Такая связь недостаточно гибкая, Kafka не может сохранять данные в течение длительного времени и не может осуществлять анализ и интеллектуальный анализ данных. Стоимость такого соединения относительно высока, и upsert-kafka использует локальное хранилище состояний. Данные в реальном времени и автономные данные модели архитектуры Lambda используют отдельные ссылки, что удваивает объем хранилища данных. Логику вычислений в реальном времени и автономного хранения также необходимо разрабатывать отдельно.
Oceanus объединяет ссылки в реальном времени и оффлайн. Унифицированное хранилище данных отвечает следующим двум требованиям: во-первых, автономное чтение данных из хранилища данных и анализ требований OLAP; во-вторых, записанные данные могут создавать полный журнал изменений, совместимый с Flink, который можно подключить к заданиям Flink для дальнейшей потоковой обработки. Tencent запустила Streaming lceberg, решение для потокового хранения данных на озере, основанное на экосистеме lceberg.
Основные моменты:
Сценарии применения:
Ниже приведен сценарий анализа данных транзакций заказов в режиме реального времени в индустрии электронной коммерции.
Болевые точки, с которыми сталкиваются предприятия:
Учитывая вышеизложенные болевые точки, Oceanus запустила новый гибкий план снижения затрат.
На карнавале разработчиков глобальной цифровой экосистемы Tencent 2024 года я узнал много «черных» технологий, обогатил свои знания, стимулировал исследования и размышления о технологиях, а также получил много ценного опыта и идей. Я очень благодарен Tencent за карнавал. Надеюсь, он будет становиться все лучше и лучше. Мы будем поддерживать дух открытости и совместимости, учиться друг у друга, обсуждать и сотрудничать. ну давай же!