Предисловие
Сегодня данные проникли в процесс создания стоимости во всех сферах жизни и стали одним из основных факторов производства. Добыча и применение огромных данных уже принесли первые результаты. Крупные производители также постоянно пытаются использовать новые платформы потоковых вычислений для обработки данных. Среди них Флинк представляет собой весьма примечательное существо. Сегодня эта статья посвящена представлению Flink как механизма обработки потоков в реальном времени и его основных механизмов времени и окон.
Время и окно во Флинке
Существует два классических режима обработки больших данных: пакетная обработка и потоковая обработка. Взяв за основу поток, компания Flink создала высокопроизводительную, высокодоступную распределенную вычислительную систему для больших данных с пакетным потоком, которая обеспечивает распределение данных, связь и отказоустойчивые распределенные вычислительные функции в потоке данных.
В настоящее время Flink основан на механизме потоковых вычислений, который также поддерживает пакетную обработку и предоставляет более сложные сценарии обработки данных, такие как SQL, обработка сложных событий CEP, машинное обучение и графовые вычисления.
Системы потоковой обработки уже давно используются в сценариях, которые обеспечивают низкую задержку, неточные/приблизительные результаты, часто в сочетании с системами пакетной обработки для получения в конечном итоге правильных результатов. Ядром конструкции пакетно-потоковых интегрированных вычислений является окно.
тип времени
Во Flink определены три типа типа времени:
3добрыйтип времени
Эти три метода можно использовать в приложениях Flink. времени, наиболее часто используемыми из которых являются время события и время обработки.
тип окна
Для сегментации и обработки данных Flink предоставляет три типа окон по умолчанию: окна подсчета, временные окна и окна сеанса.
окно подсчета(Count Окно): разделено на скользящее окно подсчета и скользящее окно подсчета.
временное окно ((Time Окно): разделено на скользящее временное окно и скользящее временное окно.
окно сеанса ((Session Окно): Это особый вид окна. Когда окно не получает новые элементы данных в течение определенного периода времени, это считается концом окна. Поэтому длину и количество элементов окна невозможно определить. заранее, и не будет времени между окнами, перекрывающими друг друга.
Водяной знак
Водяные знаки используются для обработки событий, выходящих из строя. Данные всегда могут задерживаться по разным причинам, таким как задержка в сети, нарушение данных, противодавление, аварийное переключение и т. д. Для данных, которые задерживаются слишком долго, мы не можем ждать бесконечно, поэтому должен быть механизм, гарантирующий, что окно будет запущено для расчета через определенное время. Этот механизм запуска — Wartermark.
Логика обработки водяных знаков
краткое содержание
В этой статье кратко описывается контент, связанный со временем и окном, в Flink. Более подробный контент взят из статьи «Deep in Flink: принципы и реализация ядра Flink». В книге систематически представлены базовые знания, связанные с Flink, выполнением ядра, управлением эксплуатацией и обслуживанием, временем и окнами, управлением памятью, отправкой заданий, планированием и выполнением.