Унифицированные метаданные: определение метамодели, сбор метаданных
Унифицированные метаданные: определение метамодели, сбор метаданных

фон

метаданные Управление можно разделить на следующие5 этапов процесса:Определение метамодели、Сбор метаданных、метаданныеобработка、метаданныехранилище、метаданныеприложение。в,Определение метамоделиэто весьметаданные Предпосылки и нормы управления,используется для определения управляемогометаданныепарадигма。Сбор метаданныхдаметаданныеважный источник,Обеспечить управляемое метаданное сырье,И как сделать масштабируемым и эффективным Сбор метаданные также являются одной из трудностей в метаданном управлении. В этой статье основное внимание будет уделено определению. метамодели、Сбор метаданные двух модулей подробно объяснены.

Определение метамодели

Метамодель — это уровень M2 стандарта метаданных и абстракция уровня метаданных M1.。Для получения более подробной информации см.«Система и стандарты управления информационными активами»

Например: таблица базы данных Hive user.student, поле имеет идентификатор, name, age,Выборочные данные, соответствующие каждому уровню:

  • M0: слой объекта (уровень данных), который может соответствовать записям учащихся, например, {id=1, name='zhangsan', age=18}
  • M1: Слой модели,Прямо сейчасметаданные,Это абстракция уровня данных M0.,определенныйschemaинформация(Определение таблицы библиотеки):{db=user, table=student, columns={id:int, name:string, age: int}}. Определить парадигму данных, основанную на метаданных
  • M2: слой метамодели,Это абстракция слоя модели M1.,Например, метамодель Hive можно понимать как определение связанной таблицы Hive Metastore.
  • M3: слой метамодели

Определение метамодели Hive Metastore показано ниже.,Таблица библиотеки представляет собой метамодель.Цветная библиотечная таблица — это основная метамодель.

  • DBS: определение библиотеки БД
  • TBLS: определение таблицы таблицы, DB_ID библиотеки, связанной с внешним ключом, SD_ID связанного физического хранилища.
  • SDS: связанное с физическим хранилищем таблицы таблиц, сериализация ассоциации внешнего ключа SERDE_ID, связанное поле хранения CD_ID
  • COLUMNS_V2: определение поля таблицы.
  • PARTITION_KEYS: определение поля раздела таблицы, таблица, связанная с внешним ключом: TBL_ID
  • PARTITIONS: сведения о списке разделов таблицы, таблица, связанная с внешним ключом: TBL_ID.

Абстракция метамодели может внести гибкость в метаданное управление,Но это приведет к усложнению системы и высоким затратам на обслуживание.。Следовательно, метамодель неда Чем гибче, тем лучше,Во время проектирования метамодели,Необходимо уделить внимание управлению метамоделями сценарных решений. Для удовлетворения сценариев использования и простоты совместимой системы.,Мы ограничиваем управление настройкой метамодели,Абстрагируются только две фиксированные метамодели:

  • Модель данных улья:поддерживатьметаданные Функциональность онлайн-каталога данных,Внешнее обеспечение и Улей Metastore имеет такую ​​же возможность подключаться к вызовам вычислительного механизма на основе интерфейса Thrift.
  • Общая модель данных:поддерживатьреляционный источник данныхизуправление данными,нравитьсяMySQL、PG、Oracleждатьметаданныеуправлять;

Примечание:нравиться Если документы подлежат рассмотрениюметаданныеждатьсцена,Необходимо расширить метамодель。Определение сложной метамодели、метамодельуправлять МожетссылкаApache Altasсистема типовизвыполнить,Для получения более подробной информации см.«Отраслевые метаданные менеджмент: обзор схемы проектирования»

Сбор метаданных

Архитектура системы

Сбор метаданных – один из важных способов получения метаданных.,Инкапсулируя различные задачи планирования,Сбор метаданные можно разделить на два типа:

  • Вывод метаданных:Читая и анализируяхранилищесистемаизфайл данных,Автоматически идентифицировать и вывести информацию о схеме, соответствующую файлу данных;
  • Поисковый робот метаданныхВ основном через PULL Способность активная синхронизация периодического извлечения метаданной информации;В то же время такжеподдерживать Двигатель запускается сHookиз Способ,Сообщайте метаданные сведения через фиксированный формат сообщений PUSH. В соответствии с различными базовыми механизмами источников данных,В основном делится на два типа:(1). Для традиционных реляционных баз данных (таких как MySQL и т. д.) используйте общее соединение JDBC Способность определить Сборку каждого типа источника данных. оператор метаданныхSQL, сканирующий необходимую метаданную информацию из метаданных встроенной таблицы системной библиотеки базового движка (2); для Чтоонбольшие данныекомпонентыметаданные(Такие как Улей、HBaseждать),метаданные могут не поддерживать соединение JDBC.,Мы настроим расширение исходя из характеристик его источника данных.

Общая архитектура системы Сбор метаданных представлена ​​на рисунке.,Для обеспечения расширения и универсальности,Многомерная гетерогенная адаптация

  • Гетерогенный бизнес:допускайте разнообразиеиз Бизнес-стыковка,Триггер Сбор Задачи метаданных, такие как поддержка вычислений DLC. на озере данные, система управления разработкой данных WeData;
  • Гетерогенная система планирования:поддерживатьдиверсификацияизколлекция Планирование задач,Включает встроенное расписание, Индивидуальное планирование、планирование WeData;
  • Разнородные источники данных
    • Поддерживает несколько типов источников данных JDBC.,PULL Способ вызывает соединение JDBC для получения метаданной информации.
    • Для источников данных, отличных от JDBC,Такие как HBase, Hive и т. д.,поддерживатьCustom PULLСпособ,Получить метаданные информацию;
    • Для специальных компонентов,Такие как Улей,МожетвыполнитькомпонентыHook,Проактивная отчетность на основе PUSH
    • Бизнес метаданные поддерживают упреждающую отчетность PUSH
  • Гетерогенный триггер сбора данных:На основе промежуточного программного обеспечения сообщений,Разделить процесс приобретения и процесс обработки метаданных;

Вывод метаданных

Вывод метаданных(InferSchema):также известный какметаданные Обнаружить,В основном используется в сценариях озера данных.,Используется для вывода схемы。для已хранилищеизфайл данных,Определить информацию о файле,Автоматически обнаруживать и загружать схемыметаданные,Сценарии анализа озера данных, которые упрощают миграцию пользователей одним щелчком мыши.,нравитьсяDLCВычисления на озере данных。

Вывод метаданных считывает и анализирует файлы данных из систем хранения (HDFS, COS и т. д.).,Автоматически идентифицировать и вывести информацию о схеме (поля и атрибуты полей), соответствующую файлу данных.,Основные соображения заключаются в следующем:

  • Права доступа гарантированы
  • поддерживатьиз Типы файлов и сжатие Способ:
    • Типы файлов: текстовые файлы (включая журналы, TXT и т. д.), CSV, Json, Parquet, ORC, AVRO;
    • Сжатый Способ: Несжатый,gz-сжатие,быстрое сжатие
  • Проблемы с производительностью при чтении и идентификации очень больших файлов.

Самый простойизвыполнить МожетпрямойВозможность повторного использования искровой схемы inferSchema,Под конкретные нужды бизнеса будут внесены соответствующие изменения:

Язык кода:java
копировать
val people = spark.read.format("csv")
  .option("sep", ";")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("cos://examples/src/main/resources/people.csv")
val schema = people.schema;

Поисковый робот метаданных

Поисковый робот метаданные, которые являются универсальными метаданных,Обычно существует два типа методов сбора: PULL и PUSH.,Чтобы уменьшить навязчивость источников данных,Рекомендуется отдавать приоритет PULLСпособ.

  • Активный сбор PULL: метаданные системы управления регулярно собирают,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных;
  • Пассивный сбор PUSH: инициируется вручную или активно сообщается внешней системой через API.,При запуске вручную,Этого можно добиться, загрузив метаданный файл вручную или активно запустив задачу сбора.

Методы сбора и реализации компонентов с открытым исходным кодом сообщества резюмируются следующим образом:

компоненты

Способ

выполнить

Apache Atlas

PUSH

Настройте Hive Hook для отправки отчетов в Kafka и необходимости адаптации к различным версиям Hive.

Lyft Amundsen

PULL

Скрипт сбора данных Python для подключения к базе данных метаданных HMS

Linkedin Datahub

PULL

Платформа ORM Python — это SQLAlchemy.

Schemacrawler

PULL

Адаптер JDBC получает метаданные из разных источников данных JDBC (поддерживаются только источники данных JDBC).

Поисковый робот метаданныхвыполнитьлогика:определениеколлекцияпредоставлено извнеиз接口определение,Чтовыполнить В основном делится наКоллекция JDBCНет Коллекция JDBCДве категории。

  1. Коллекция JDBC:В основном на основеJdbcCrawlerвыполнить,в:JdbcConnectorRegistryОтвечает за регистрацию различных источников данных.выполнить,JdbcRetrieverОтветственныйJDBCВсе виды Сбор метаданныхвыполнить,JdbcCrawlerOptionsПереписка по техническому обслуживанию Коллекция JDBCПараметры конфигурации,разделен на:Шаблон SPI,JDBC MetadataДве категории
    1. Шаблон SPI: на основе InformationSchemaViews. Определить операторы SQL механизма;
    2. JDBC Метаданные: на основе connection.getMetaData() получать;
  2. Индивидуальная коллекция:Механизм источника данных НетJDBCсоединять,Настройте характеристики в соответствии с двигателем;

особенный,Помимо поддержки автономного сбора, базовая логика метаданных Поискового робота,Также обеспечивает функцию каталога данных в реальном времени.。нравиться Как показано на картинке,Два сервиса могут быть спроектированы отдельно:

  • метаданные прямого подключения двигателя:Прямо сейчасвыполнено, когда,Получить текущую метаданную информацию о таблицах библиотеки.,В основном используется для поиска или выполнения в реальном времени;
  • Сбор метаданных Служить:Автономное планирование по расписанию,коллекцияметаданные,В основном используется в сценариях управления данными;

Подвести итог

В этой статье представлено определение метамодели、Сбор Некоторые идеи и направления проектирования метаданных。на практике,Поскольку единое метаданное управление тесно связано с конкретными бизнес-сценариями.,Хотя это архитектурное решение не может быть применено напрямую.,Но его также можно использовать при разработке программы.

  • Определение Метамодели не в том, что чем гибче, тем лучше, чем гибче метаданные управления становятся более сложными и непонятными. Определение метамодели Старайтесь быть максимально приближенными к конкретному бизнесу,Просто удовлетворите потребности бизнеса,Нет необходимости резервировать дополнительную масштабируемость;
  • Чтобы уменьшить инвазивное преобразование компонентов источника данных, рекомендуется отдать приоритет PULL Способы выполнить Сбор метаданных;
  • Сбор Когда объем метаданных велик, для разделения сообщений рекомендуется использовать промежуточное программное обеспечение. метаданные и метаданные процедуры обработки, чтобы избежать чрезмерного служебного давления на метаданные;
  • Сбор управление задачами метаданных, если таковые имеются Гетерогенная система планирования,Определение задач можно абстрагировать на метаданном уровне.,Адаптироваться к различным системам планирования;

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024, приходите и разделите со мной приз!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose