В реальном производственном процессе постоянно генерируется большой объем данных, таких как данные финансовых транзакций, данные интернет-заказов, данные GPS-позиционирования и т. д. в соответствии с、сигнал датчика、Данные, генерируемые мобильными терминалами、Данные сигнала связи и т. д., а также привычный мониторинг сетевого трафика.、серверпроизведеноДанные журнала,Самое общее, что объединяет эти данные, — это то, что они генерируются из разных источников данных в режиме реального времени.,а затем передаются в последующие системы анализа.。Для этих чиселв соответствии с Типы в основном включаютв реальном времени Интеллектуальные рекомендации、Сложная обработка событий、Обнаружение мошенничества в режиме реального времени、Хранилище данных реального времени и тип ETL、Типы анализа потоковых данных、в реальном времениОтчетТип и т. д.в реальном временибизнес-сценарий,И у Флинка очень хорошая поддержка для подобных сценариев.
Интеллектуальная рекомендация будет использовать алгоритм рекомендаций для обучения модели на основе исторического покупательского поведения пользователя, чтобы прогнозировать товары, которые пользователь может приобрести в будущем. Для частных лиц система рекомендаций играет роль фильтрации информации. Для сервера веб-приложений система рекомендаций играет роль удовлетворения персонализированных потребностей пользователей и повышения удовлетворенности пользователей. Сама система рекомендаций также быстро развивается. Помимо все более совершенных алгоритмов, все более жесткими становятся и требования к латентности и оперативности. Используйте потоковые вычисления Flink, чтобы помочь пользователям создавать интеллектуальную систему рекомендаций, работающую в режиме реального времени, выполнять вычисления в реальном времени по индикаторам поведения пользователей, обновлять модель в реальном времени, прогнозировать показатели пользователей в реальном времени и отправлять прогнозируемую информацию на веб-сайт Wep/ Конец приложения, чтобы помочь пользователям получить С другой стороны, желаемая информация о продукте также помогает компаниям увеличить продажи и создать большую ценность для бизнеса.
Что касается сложной обработки событий, то наиболее распространенные случаи в основном сосредоточены в промышленной сфере, например, обнаружение неисправностей датчиков транспортных средств, механического оборудования в режиме реального времени и т. д. Эти виды бизнеса обычно имеют очень большие объемы данных и предъявляют очень высокие требования к своевременности обработки. обработка данных. Используя CEP (комплексную обработку событий), предоставляемую Flink, для извлечения шаблонов событий и применяя Sql Flink для преобразования данных о событиях, в систему потоковой передачи встроен механизм правил в реальном времени. Как только событие запускает правило тревоги, возникает тревога. немедленно передаются в нижестоящую систему оповещения для обеспечения быстрого раннего предупреждения о сбоях оборудования и мониторинга состояния транспортного средства.
В финансовой сфере часто происходят различные виды мошенничества, такие как мошенничество с кредитными картами, мошенничество с заявками на получение кредита и т. д. Как обеспечить безопасность пользователей и средств компаний, является общей проблемой, с которой сталкиваются многие финансовые компании и банки в последние годы. . Поскольку методы мошенничества, используемые преступниками, продолжают расширяться, традиционных методов борьбы с мошенничеством уже недостаточно для решения проблем, с которыми сталкиваются в настоящее время. Раньше на вычисление показателей поведения пользователей на основе данных транзакций, а затем на выявление пользователей, подозреваемых в мошенничестве с помощью правил, а затем на расследование и рассмотрение дела могло уйти несколько часов. В этом случае средства могли уже быть переведены преступниками. таким образом предоставление предприятий и пользователей приводит к большим экономическим потерям. Использование технологии потоковых вычислений Flink позволяет завершить расчет показателей поведения при оценке мошенничества в течение миллисекунд, а затем выполнить оценку правил или прогнозирование модели потока транзакций в режиме реального времени. Таким образом, как только в транзакции обнаруживается подозрение на мошенничество. транзакция может быть перехвачена в режиме реального времени, чтобы избежать экономических потерь, вызванных несвоевременной обработкой.
В сочетании с автономным хранилищем данных, используя преимущества потоковых вычислений и гибкие возможности обработки SQL, потоковые данные можно очищать, объединять и структурировать в режиме реального времени, дополняя и оптимизируя автономное хранилище данных. С другой стороны, в сочетании с возможностями обработки данных ETL в реальном времени и технологией потоковых вычислений с отслеживанием состояния можно максимально снизить сложность логики корпоративного планирования в процессе расчета автономных данных, эффективно и быстро обрабатывать статистические результаты, которые предприятиям нужны и помогают предприятиям лучше получать результаты анализа данных в реальном времени.
Рассчитывайте различные показатели данных в режиме реального времени и используйте результаты в режиме реального времени для своевременной корректировки стратегий, связанных с онлайн-системами. Он имеет большое количество приложений в области доставки различного контента и беспроводной интеллектуальной передачи данных. Технология потоковых вычислений обеспечивает сценарии анализа данных в реальном времени, помогая предприятиям анализировать различные показатели веб-приложений или приложений приложений в реальном времени, включая распространение версий приложений, обнаружение и распространение сбоев и т. д. Она также обеспечивает многомерный анализ поведения пользователей и поддерживает Журналы Независимый анализ помогает разработчикам усовершенствовать операции на основе технологии больших данных, улучшить качество и удобство продуктов, а также повысить интерес пользователей.
Анализ отчетов в реальном времени — это одно из решений для статистики отчетов, принятое многими компаниями в последние годы, и наиболее важным приложением является отображение на большом экране в реальном времени. Результаты, полученные в реальном времени с помощью потоковых вычислений, передаются непосредственно во фронтенд-приложение, а преобразование важных показателей отображается в реальном времени. Самый типичный случай — мероприятие Double Eleven на Taobao. Каждый год во время торгового фестиваля Double Eleven, помимо сумасшедшего шоппинга, больше всего бросается в глаза постоянно скачущий общий объем транзакций на большом экране Double Eleven на Tmall. На всем вычислительном звене, от размещения заказа на Tmall до сбора данных, расчета данных и проверки данных, все время соединения, отображаемое на большом экране Double Eleven, сжимается в течение 5 секунд, а пиковая производительность вычислений достигает трех сотни тысяч заказов в секунду и несколько резервных копий расчета потока ссылок для обеспечения надежности. В других отраслях компании также создают свои собственные системы отчетности в режиме реального времени, что позволяет компаниям полагаться на свои собственные бизнес-данные для быстрого извлечения большей ценности данных и тем самым лучше обслуживать операции компании.
С января 2019 года Alibaba постепенно вернула Blink, поддерживаемый внутри компании, сообществу с открытым исходным кодом Flink. Количество добавленных кодов в настоящее время превышает 1 миллион строк. В последней версии Flink1.15 Blink и Flink также были объединены. Пользователями Flink являются отечественные компании, включая Tencent, Xiaomi, Huawei, Bytedance и другие, а также иностранные компании, включая Uber, eBay, Netflix и другие.
Согласно предыдущему описанию, мы знаем, что Flink в основном обрабатывает потоковые данные, ориентируясь на область вычислений в реальном времени. До Flink в области больших данных в реальном времени существовали Storm и SparkStreaming. Storm — это ранний фреймворк для потоковых вычислений, а позже появился SparkStreaming. Для поддержки SQL Spark позже появился StructuredStreamig, отличный фреймворк для вычислений в реальном времени. Так в чём же различия между этими фреймворками? Ниже мы сравниваем три платформы вычислений в реальном времени с разных точек зрения:
продукт | Модель | API | Поддержка SQL | EventTime | Гарантированные сроки | механизм отказоустойчивости | Управление статусами | задерживать | Колебание |
---|---|---|---|---|---|---|---|---|---|
Storm | Нативный (данные обрабатываются сразу после ввода) | Комбинированный API (Базовый API) | Ранние версии не поддерживают более поздние версии. | Ранние версии не поддерживают более поздние версии. | Хотя бы один раз (хотя бы один раз) | Механизм подтверждения | никто | Низкий | Маленький |
SparkStreaming | Mico-Batching (разделение данных маленькой партии) | Декларативный API (инкапсулированный API высокого уровня) | Не поддерживается | Не поддерживается | Ровно один раз (точный один раз) | Отказоустойчивость на основе SparkCheckpoint | На основе DStream | середина | большой |
Structured Streaming | Native/Mico-Batching | Декларативный API (инкапсулированный API высокого уровня) | поддерживать | поддерживать | Ровно один раз (точный один раз) | Отказоустойчивость на основе SparkCheckpoint | На основе набора данных/DataFrame | середина | большой |
Flink | Нативный (данные обрабатываются сразу после ввода) | Декларативный (с инкапсулированным API высокого уровня) | поддерживать | поддерживать | Ровно один раз (точный один раз) | Отказоустойчивость на основе FlinkCheckpoint | На основе операций | Низкий | большой |