Практические ошибки PushGateway и Flink: обсуждение pull и push в модели мониторинга
Практические ошибки PushGateway и Flink: обсуждение pull и push в модели мониторинга

Версия

дата

Примечание

1.0

2021.8.14

Статья впервые опубликована

0. Фон

Недавно я использовал PushGateway (далее PGW) для мониторинга доступа к компонентам потоковой обработки. В результате я столкнулся с множеством подводных камней, поэтому хотел бы поделиться ими здесь.

1. Зачем нажимать (PGW)

Предыдущая реализация извлечения, то есть раскрытие сервисного порта в процессе, следовала протоколу Prometheus (далее именуемому Prom) и позволяла Prom извлекать данные.

Но есть проблема, порт нужно выделить. Наша команда раньше использовала множество проблемных реализаций: распределенные блокировки, хранилище с несколькими состояниями и т. д. Но ей по-прежнему не удается избежать проблем с утечкой портов и непроизводительным использованием (механизм топологической высокой доступности заставит его переключаться между разными машинами, поэтому прежде чем назначенный порт машины бесполезен). Хотя мы также можем отслеживать жизненный цикл топологии, это непросто — в более крупных сценариях топология уровня k является нормальной, но эффективно отслеживать жизненный цикл топологии уровня k, похоже, является большой проблемой.

Мои коллеги сказали мне, что k8s, возможно, сможет решить мою проблему, и я постараюсь следить за внедрением этого технологического стека в будущем.

Мы просто хотим реализовать мониторинг и не хотим беспокоиться о других вещах.

Вот и пришло время снова поговорить на старую тему, что лучше, толкать или тянуть. Моя точка зрения, что рассуждать вне сцены - это просто хулиганить. В этой сцене толчок уместнее.

В конце концов, push требует, чтобы отслеживаемый сервис знал адрес системы мониторинга, поэтому эту информацию необходимо установить в отслеживаемом сервисе. Таким образом, отслеживаемая служба будет в определенной степени зависеть от службы мониторинга; в то время как pull требует, чтобы система мониторинга знала адреса всех отслеживаемых служб, поэтому для каждой дополнительной отслеживаемой службы служба мониторинга должна распознавать ее с помощью некоторых средств, например в качестве поддержки prom. Целевая служба динамически получается из системы обнаружения служб, а flink поддерживает использование диапазона портов для подтверждения местоположения отслеживаемой службы.

Что касается сравнения других моделей push и poll, мы можем проверить таблицу ниже и провести сравнения в соответствии с нашими собственными сценариями:

Размеры

нажмите модель

вытащить модель

обнаружение службы

Быстрее. При запуске агент может автоматически отправлять данные. Таким образом, скорость обнаружения службы не имеет ничего общего с количеством агентов.

помедленнее. Новые сервисы необходимо обнаруживать путем регулярного сканирования адресного пространства. Скорость обнаружения сервисов зависит от количества агентов.

Масштабируемость

лучше. Необходимо развернуть только агенты, а агенты, как правило, не имеют состояния.

Бедный. Нагрузка на систему мониторинга будет увеличиваться линейно с увеличением количества агентов.

безопасность

лучше. Нет необходимости обнаруживать сетевые соединения, можно противостоять удаленным атакам.

Бедный. Возможная подверженность удаленному доступу и атакам типа «отказ в обслуживании».

Операционная сложность

лучше. Просто определите интервал опроса и отслеживайте системный адрес. Брандмауэр необходимо настроить для односторонней передачи данных от агента к сборщику.

Бедный. Систему мониторинга необходимо настроить со списком агентов для опроса, учетными данными безопасности для доступа к агентам и набором показателей для получения. Брандмауэр необходимо настроить так, чтобы обеспечить двустороннюю связь между опросчиком и агентом.

Задерживать

лучше. Своевременность нажатия лучше. Существует также множество протоколов push (например, sFlow), которые реализованы поверх UDP и обеспечивают неблокирующую и недорогую передачу измерений.

Плохая, низкая производительность в реальном времени

На официальном сайте Прома также сообщается, что PGW не применим в большинстве случаев, за исключением:

Usually, the only valid use case for the Pushgateway is for capturing the outcome of a service-level batch job. A "service-level" batch job is one which is not semantically related to a specific machine or job instance (for example, a batch job that deletes a number of users for an entire service). Such a job's metrics should not include a machine or instance label to decouple the lifecycle of specific machines or instances from the pushed metrics. This decreases the burden for managing stale metrics in the Pushgateway. See also the best practices for monitoring batch jobs.

существоватьbest practicse for monitoring batch jobsсередина,Также упоминалось:

There is a fuzzy line between offline-processing and batch jobs, as offline processing may be done in batch jobs. Batch jobs are distinguished by the fact that they do not run continuously, which makes scraping them difficult.

В репозиторий GitHub включено следующее введение:

Язык кода:javascript
копировать
The Prometheus Pushgateway exists to allow ephemeral and batch jobs to expose their metrics to Prometheus. Since these kinds of jobs may not exist long enough to be scraped, they can instead push their metrics to a Pushgateway. The Pushgateway then exposes these metrics to Prometheus.

мое делосистемасуществуетephemeral job(mean the jobs may not exist long enough)Это тоже мой выборPGWважные причины。

2. На какие ловушки вы наступили?

После первоначального подключения к PGW,Все необходимые данные имеются. В результате студенты-испытатели обнаружили, что данные внезапно исчезли во время теста.,я взглянул,Создано большое количество топологий для потоковых задач.,PGW уволился напрямую,В журнале естьout of memoryслова。

После еще двух тестов я обнаружил, что по мере увеличения топологии PGW потребляет все больше памяти и процессора.

Потом я вспомнил, что говорилось на официальном сайте:

The Pushgateway never forgets series pushed to it and will expose them to Prometheus forever unless those series are manually deleted via the Pushgateway's API.

Но я это четко настроилdeleteOnShutdown Эта конфигурация,Объяснение на официальном сайте есть.:Specifies whether to delete metrics from the PushGateway on shutdown.,Но когда я повторно запускаю PGW,Я обнаружил, что соответствующие показатели не были удалены!

Наша команда прошла поиск,Нашел одинIssue:issues.apache.org/jira/browse…

Некоторые думают, что PGW должен использовать TTL, но PGW считает, что это не очень хороший метод. И я думаю, что это то, что Flink должен исправить. Я не знаю, почему это не было исправлено, и в официальной документации сайта нет упоминания об этой ошибке.

Я отправил исправление к документации Flink.,Я надеюсь, что смогу присоединиться как можно скорее——github.com/apache/flin…

3. Резюме

В этой статье рассказывается о подводных камнях, с которыми столкнулась наша команда при объединении PushGateway с Flink, и обсуждается наше первоначальное намерение выбрать PGW. После этого я планирую обратить внимание на InfluxDB и использовать его как пуш-энд для замены PGW. Еще я заметил, что экология новой версии InfluxDB тоже неплохая. В ней есть панели, визуализация данных и сигналы тревоги. простая база данных временных рядов в сочетании с собственной экологией будет становиться все более похожей на prom+grafana.

3.1 Ссылки

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose