Оглавление
3. Часто используемые инструменты ETL
ETL,Это аббревиатура английского Extract-Transform-Load.,используется для описанияданныепрохождение через источникизвлекать(extract)、Конвертировать(transform)、нагрузка(load)процесс до места назначения,Это основа хранилища данных.
Извлекать (Extract)В основном для рассредоточения различных бизнес-систем и разных серверов.данные,После полного понимания определения данных,источники данных и определения данных, необходимые для планирования,Разработка действенных источников данных,Разработайте правила извлечения Приращения и медленных градиентов.
конвертировать(transform)В основном дляданные Модель склада,Добиться преобразования данных из бизнес-модели в аналитическую модель с помощью серии Конвертировать.,Благодаря визуальному перетаскиванию инструментов ETL вы можете напрямую использовать стандартные встроенные функции фрагментов кода, пользовательские сценарии, функции, хранимые процедуры и другие методы расширения.,Реализован различный комплекс Конвертировать,И поддерживает автоматический анализ журналов.,Четко контролируйте состояние данных. Конвертируйте и оптимизируйте модель анализа.
нагрузка(Load)Главным образом через Конвертироватьизданныезагрузить вданные Внутри склада,данные можно загрузить путем прямого подключения к библиотеке данных.,Может полностью отражать эффективность. Вы можете настроить режим работы по извлечению данных в любой момент во время работы приложения.,Может быть гибко интегрирован в другие системы управления.
в сопровожденииданныесклад Библиотекаизразвивать(Портал: восемь этапов развития хранилища данных),данные Сумма от малого к большому,данные В реальном времени от Т+1 до квазиреального времени и реального времени,ETL также постоянно развивается.
В традиционном хранилище данных,данные Небольшое количество,Логика расчета относительно проста,Мы можем напрямую использовать инструменты ETL для реализации конвертации данных (T).,Конвертировать и затем загрузить в целевую библиотеку.,То есть (Извлечение-Преобразование-Загрузка). Но в большой сцене данных,данные Чем больше количество, тем больше,Логика вычислений становится все более сложной,Очистку данных необходимо выполнить в распределенном вычислительном механизме с более мощной вычислительной мощностью.,ETLЭто также сталоELT(Extract-Load-Transform)。
Прямо сейчас:Извлечение-Преобразование-Загрузка >> Extract-Load-Transform
Обычно то, что мы называем ETL, относится ко всему процессу синхронизации и очистки данных и не ограничивается извлечением-преобразованием-загрузкой данных.
В приведенном ниже редакторе представлены несколько типов инструментов ETL (sqoop, DataX, Kettle, canal, StreamSets).
Одна Вся в день часть таблицы, вы также можете разделить один день улья на один. сумма。
Используйте kafka для использования журналов binlog mysql в целевой базе данных. Исходная таблица и целевая база данных представляют собой зеркала 1:1.
Будь то Вся Либо метод «длина», либо метод «Приращение» приведет к потере лишней памяти или удалит дублирование посредством расчета, чтобы получить самую последнюю информацию. объемданные. Чтобы решить эту проблему, Wall Crack рекомендует схему синхронизации данных Kafka. Исходная таблица меняет один элемент, а целевая таблица использует один элемент. Данные целевой таблицы всегда самые последние. объемданные, и синхронизируются в реальном времени.
ps. В крайнем случае цифры могут потеряться. Вам нужно написать несколько скриптов мониторинга (подробнее см. в разделе качество данных) и дополнить скриптами~.
Портал серии «Хранилище данных»:https://blog.csdn.net/weixin_39032019/category_8871528.html