Привет всем, я брат Юэ.
Сегодня я хотел бы поделиться с вами широко используемым инструментом мобилизации данных: DolphinSchedule.
https://dolphinscheduler.apache.org/en-us/download/3.2.2
JDK: загрузите JDK (1.8+), установите и настройте переменную среды JAVA_HOME и добавьте каталог bin под ней к переменной среды PATH. Если он уже существует в вашей среде, вы можете пропустить этот шаг.
В сжатом пакете имеется автономный сценарий запуска, который можно быстро запустить после распаковки.
# Разархивируйте и запустите Standalone Server
tar -xvzf apache-dolphinscheduler-*-bin.tar.gz
chmod -R 755 apache-dolphinscheduler-*-bin
cd apache-dolphinscheduler-*-bin
bash ./bin/dolphinscheduler-daemon.sh start standalone-server
DolphinSchedule (далее — Dolphin) — это инструмент межплатформенной и межбазовой синхронизации и планирования данных. Он обычно используется в качестве инструмента планирования больших данных. Конечно, он также поддерживает планирование реляционных баз данных. рабочий интерфейс, требуется только настройка соответствующих параметров. Быстрое выполнение связанных задач планирования, в настоящее время поддерживается только системы Linux.
Здесь мы используем различные реляционные базы данных для синхронизации данных и знакомим вас с конкретными особенностями использования.
Пароль учетной записи устанавливается администратором во время установки. Адрес по умолчанию:
После входа на домашнюю страницу нам необходимо настроить подключение к базе данных. Нажмите «Центр источников данных» в строке меню, чтобы начать настройку источника данных.
Войдите в центр конфигурации источника данных, нажмите «Создать источник данных» и на всплывающей странице введите информацию о базе данных, к которой вам необходимо подключиться.
Просто заполните соответствующую информацию в базе данных так, как требуется на странице.
После заполнения нажмите «Проверить соединение» и в случае успешного подключения нажмите «ОК».
1) Нажмите «Управление проектом» в строке меню, нажмите «Создать проект» на открывшейся странице и введите имя проекта на всплывающей странице.
2) После успешного создания нажмите на имя созданного проекта, чтобы войти в интерфейс конфигурации проекта.
Нажмите «Определение рабочего процесса» в левой строке меню — «Создать рабочий процесс».
Начните настройку рабочего процесса синхронизации данных на открывшейся странице.
Найдите элемент управления «DataX» среди элементов управления слева (использование DataX было описано ранее).,Конкретное использование можно найти в этой статье.:Инструмент синхронизации данных Alibaba с открытым исходным кодом DataX стабилен, эффективен и невероятно прост в использовании!),Перетащите его в рабочую область справа.,Начать настройку Рабочий процесс
Просто укажите в имени узла задачи, которые необходимо выполнить в текущем рабочем процессе. Другие, отмеченные красным «*», являются обязательными. Просто используйте конфигурацию по умолчанию, чтобы начать настройку задач синхронизации.
Верхняя и нижняя части «оператора SQL» — это исходная база данных и целевая база данных соответственно. Мы можем выбрать соответствующие исходную и целевую базы данных и таблицы.
Затем заполните нужный нам код синхронизации в области «Оператор SQL».
Примечание. Обычно в области операторов SQL можно записать только операторы запроса SELECT. Поскольку источник и цель по умолчанию синхронизируются с помощью операции INSERT INTO, здесь нельзя записать другие операторы DML (добавление, удаление, изменение).
Во-вторых, количество столбцов в операторе SQL должно соответствовать количеству полей в целевой таблице в целевой базе данных. Неизвлеченные поля можно заменить на NULL, но они не могут отсутствовать, иначе это приведет к ошибке. в котором количество извлеченных столбцов данных непостоянно.
3) После успешного создания вернитесь в интерфейс рабочего процесса, нажмите кнопку «Перейти в Интернет» в правой части настроенного рабочего процесса, а затем нажмите кнопку «Выполнить», чтобы проверить успешность настройки.
Если возвращенный статус показывает ошибку, вам необходимо перепроверить содержимое конфигурации рабочего процесса.
1) После успешного отображения статуса выполнения рабочего процесса, что означает, что его можно выполнять в обычном режиме, нажмите кнопку «Запланировать задачу», чтобы начать настройку запланированной задачи.
На открывшейся странице выберите кнопку «Редактировать» справа.
Нажмите «Время» на всплывающей странице, чтобы начать настройку конкретного времени выполнения и цикла выполнения.
Параметры конфигурации аналогичны запланированным задачам Linux. После завершения настройки не забудьте нажать «Время выполнения», чтобы просмотреть конкретное время выполнения следующих 5 раз запланированного задания и убедиться, соответствует ли оно желаемому времени выполнения. .
Убедившись в правильности времени и цикла выполнения, нажмите «ОК», чтобы завершить настройку запланированного задания.
2) После настройки запланированного задания обязательно нажмите «Перейти в Интернет», чтобы изменения вступили в силу. Если вы не нажмете, запланированное задание не будет выполнено вовремя.
1) Нажмите «Экземпляр рабочего процесса» в левой строке меню, чтобы увидеть выполнение нашего рабочего процесса.
Если вы обнаружите статус, отличный от «Успешно», вам необходимо проверить журнал работы рабочего процесса.
2) Нажмите «Экземпляр рабочего процесса», чтобы войти в интерфейс выполнения рабочего процесса, дважды щелкните конкретный рабочий процесс.
После двойного щелчка мы увидим всплывающую страницу настроек узла рабочего процесса.
Нажмите «Просмотреть журнал», чтобы просмотреть последний статус выполнения текущего рабочего процесса.
Обычно, если есть ошибка,Сообщение об ошибке будет отображаться в нескольких строках на странице наконец.,Вы можете настроить Рабочий по подсказкам Процесс Квест.
В процессе извлечения при передаче данных DataX возникнут проблемы с некорректными данными. На данный момент вам необходимо настроить шаблон json, чтобы расширить порог некорректных данных.
1. После редактирования SQL запустите его. Обратите внимание, что запуск завершится неудачей. Найдите в журнале ошибок оператор json, содержащий поля «содержимое» и «настройка».
2. Скопируйте весь оператор json. Обратите внимание, что пароль — «*****», и его необходимо заменить вручную. Используйте этот оператор в качестве значения и добавьте ключ «job», например.
3. Найдите поле «настройки», измените процент и запись, #установите порог максимального количества записей грязных данных (значение записи) или порог доли грязных данных (значение процента, когда количество или процент )
В определении рабочего процесса выберите «Пользовательский шаблон» и скопируйте отредактированный json.
ЯШурин,Каждый деньПоделитесь вопросом на собеседовании по SQL,И со всемиРасскажите о том, что вы видели и слышали в последнее время。
Добро пожаловать на внимание, увидимся в следующем выпуске~