Платформа больших данных: единое управление метаданными
Платформа больших данных: единое управление метаданными

Предыстория

Управление метаданнымивключать Сбор метаданных、хранилище、Ключевые аспекты, такие как управление и применение,Это основа и ядро ​​управления данными.。но Управление метаданными На практике обычноСтолкновение с такими проблемами, как многочисленные источники метаданных, разбросанные по разным системам, различные типы метаданных и частые изменения в метаданных.。Поэтому создание единой стандартной спецификации на основе,Универсальное расширяемое Управление Метаданными система имеет решающее значение.

Единые метаданные:Унифицируйте разнородные источники данных、Единые стандарты、Единая эксплуатация и управление системой,Интегрируйте метаданный онлайн-каталог данных и функции автономного анализа управления. Более общее понимание,На рисунке показано озеро данных Tencent Cloud Data Lake.Единые метаданные Архитектура:Поддержка унификации онлайн-каталога данных и автономного управления данными.

тип метаданных

тип метаданных По областям использования и функциям его можно разделить на:Технические метаданные, бизнес-метаданные, операционные метаданные, метаданные управления

  1. технические метаданные:Техническая информация, используемая для описания данных,Требуется следующая информация, включая систему хранения данных.,Формат,координировать,Физическая информация, такая как наслоение
  2. бизнес-метаданные:Используется для описания концепций, связанных с бизнес-областями в системах данных.、Данные о взаимоотношениях и правилах должны включать деловые термины;、Классификация информации、индекс、Статистический калибр и т. д.
  3. Манипулировать метаданными:Используется для описания поведения данных при работе.,Содействие внедрению механизмов подотчетности за управление данными,реализован Безопасность данныхоснова
  4. Управление метаданными:Информация управления данными профиля пользователя,Например, человек, отвечающий за стол,Принадлежность к человеку, жизненному циклу и т.п.;

стандарты метаданных

Стандарт метамодели MOF относится к «Мета-объектной возможности» (Meta-Object Facility). Стандарт объекта (сокращенно MOF), разработанный Организацией управления объектами (Object Management Organization) Management Group,аббревиатураOMG)формулировать。В качестве основного описания спецификации модели,Может описывать различные типы модельных стандартов.,Создайте основу для различных типов управления моделями.

  • Уровень M0: фактический уровень данных, конкретная информация и объекты, хранящиеся в базе данных.
  • этаж М1:Модельслой,Соответствующий экземпляр метамодели,Прямо сейчасметаданные,Структурированное описание данных слоя M0,Например, конкретныйповерхностьопределение
  • Этаж М2:Юань Модель,Например, модель CWM,Определяет структуру и семантику модели этажа М1.,Напримеропределениеметаданныекатегория:Библиотека、поверхность、Поле
  • M3слой:Юань Юань Модель,Это также уровень, на котором расположен сам MOF.,Определены структура и семантика метамодели «Этаж М2». Предоставляет языки и инструменты для построения метамоделей.,Например, пакеты, классы и т. д.

Управление метаданными

Обычное управление метаданными Процесс можно разделить на следующие5 шагов:Определение метамодели、Сбор метаданных、Обработка метаданных、Хранение метаданных、Приложение метаданных。

Определение метамодели

На основе стандарта MOF,Метамодель – это абстрактное описание метаданных.,Используется для определения и организации структур, типов и отношений метаданных. Метамодель предоставляет набор правил и стандартов для описания активов данных.,Обеспечить последовательность, понятность и интерактивность метаданных. Например, Hive Определение базовой таблицы базы данных Metastore — это метамодель, DBS — это метамодель, описывающая базу данных, а TBLS — это метамодель, описывающая таблицы.

Определение метамодели в основном включает в себя: группировку、Модель、свойство、Ключевые элементы, такие как типы данных。Группировка логически кластеризует различные коллекции моделей.,НапримерHiveЮань Модель、MySQLЮань Модель можно разделить на реляционные Юань Модель Группа。Модельопределениеметаданныеструктура объекта,Зависит от Модельсвойствоа также Модель Отношения между。

Сбор метаданных

Сбор метаданныхосновнойвключать:Доступ, адаптация, хранениетри этапа:

По способу доступа к Сбору метаданных его можно разделить на:

  • Активная коллекция:На основе системы планирования,Выполнение запланированного периодического сбора,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных.
  • Пассивная коллекция:Вручную или через внешнюю системуAPIВозьмите на себя инициативу сообщить。При запуске вручную,Вы можете вручную загрузить метаданный файл или активно запустить задачу сбора.

Метод доступа к коллекции должен бытьДинамическая адаптация соответствующего интерфейсного адаптера,Адаптер поддерживаетплагинспособ расширения различных типов источников данных итип метаданных。

К основным процессам хранения метаданных относятся:

  • Найдены изменения:автоматическое распознаваниеметаданныеизменять,включать:Новый、удалить、операция обновления
  • Подтверждение изменения:Может Зависит от Соответствующее ответственное лицо подтверждает вручную,Это также может быть автоматически подтверждено системой; соответствующие записи должны быть сохранены в процессе подтверждения.,Для подготовки к последующей прослеживаемости
  • возобновлятьметаданные:на основеизменятьэлементвозобновлятьметаданные
  • История метаданные Архивы:для очень чувствительныхметаданныекатегория,История должна быть заархивирована до внесения изменений.,Для подготовки к откату в последующих версиях

Обработка метаданных

Обработка метаданные: процесс преобразования исходных метаданных перед хранением в целях удовлетворения требований Управления. метаданными и эксплуатационными потребностями. Обработка метаданных Необходимо соблюдать следующие принципы:Полнота, точность, объективность, масштабируемость。Общие операции преобразования механической обработки включают в себя:

  • Чистый:Коррекция илиудалить Неправильный、неполный、непоследовательный、Дублирующиеся данные
  • вычислить:На основе бизнес-правил или алгоритмоввычислитьиметь дело с,включать Операция、полимеризация、сортировать、слить、такие операции, как сегментация
  • стандартизация:Обязательно соберитеметаданныепоследовательный Формати показатели

Унифицированная обработка идентификаторов данных:метаданные Уникальные данные должны генерироваться внутри системы.ID,Сформируйте отношение сопоставления «один к одному» с идентификатором данных исходной платформы.,Метаданным удобно отслеживать весь процесс и адаптироваться под разные платформы.

Хранение метаданных

Из-за различных структур и сценариев использования метаданных,Часто используются разные типы систем хранения.,в соответствии сметаданные结构Может分为以下категория:

  • структурный типметаданные:Описать в структурном режимеметаданные,Например, библиотеки, таблицы, поля, бизнес-атрибуты, жизненные циклы и т.д.метаданные.,Могут быть представлены и сохранены с использованием структурированных данных (т. е. реляционной базы данных).,Если используется для функции поиска,Оптимизация запросов может выполняться на основе индексной базы данных (например, ES).
  • Соответствующийметаданные:Описать в реляционном режимеметаданные,Например Родословная данных,таблица как вершина,Отношения как описания ребер,Может使用图数据Библиотека Приходитьповерхность Демонстрацияхранилище

Разные структурные типы метаданных предъявляют разные требования к системам хранения, и разные системы хранения необходимо адаптировать. База данных, в которой хранятся метаданные, должна отвечать требованиям:

  • Учитывайте масштабируемость емкости и производительности и поддерживайте активное резервное или распределенное развертывание;
  • Рассмотрим системуТребования к надежности,Поддержка резервного копирования данных и обратного отслеживания;

Приложение метаданных

Приложение Метаданные — это способность использовать метаданные для обнаружения корреляции между данными, помощи в управлении данными и предотвращения «болота данных», вызванного агрегированием больших объемов данных низкого качества. Систему возможностей приложений, предоставляемую метаданными, можно разделить на:

  • Карта данных:Полное понимание текущего состояния и инвентаризации информационных активов.,Обеспечить глобальные метаданные возможности поиска,Достичь визуализации данных,Поддержка обзора данных и диаграммы тенденций изменения данных,Позвольте пользователям быстро выявлять изменяющиеся тенденции в общих ресурсах данных.,Заложить прочную основу для бизнес-приложений и сбора данных;
  • Родословная данных:Поддержка нескольких диалектов(HiveSQL、SparkSQL、FlinkSQLждать)изSQLанализ родословной,Получите ссылку на создание данных, а также восходящие и нисходящие отношения.,Поддержка восходящего отслеживания и нисходящего получения информации о происхождении.,выполнитьповерхностьуровень и Полеуровеньизанализ родословной;
  • Спецификация данных:формулировать Объединение внутри предприятияиз Спецификации стандартов данных,Поддержка пользовательских категорий данных,Построение модели хранилища данных,субъект данных,Создайте систему обмена данными,Разрушьте разрозненность данных,Обеспечьте эффективный обмен данными внутри предприятия.
  • Качество данных:проходить建立一套切实Может行из Качество система мониторинга данных, проектирование данных Правила аудита,Укрепить контроль источников данных,Форма управления качеством данных, охватывающая весь жизненный цикл данных,Реализуйте преобразование необработанных данных озера данных в высококачественные активы;
  • Безопасность данных:проходитьформулировать Полныйиз Безопасность стратегия данных, создание систематической системы безопасности данныхмера、осуществлять Безопасность аудит данных, десенсибилизация конфиденциальных данных, настройки Безопасность данных Механизм оценивания,Осуществлять комплексное управление и контроль безопасности,Убедитесь, что сбор и использование данных являются законными и соответствуют требованиям,Обеспечить безопасную и надежную среду для полного изучения ценности данных;

Подвести итог

Управление метаданными — это основа и ядро ​​управления данными. Чтобы избежать «островов данных», компании обычно создают Единые внутри компании. Метаданная платформа объединяет метаданные для унифицированного управления, предоставляет унифицированные услуги внешнему миру и выполняет унифицированное управление и внутреннюю оптимизацию. Статью написал Предыстория, тип метаданных、стандарты метаданных、Управление метаданными процессами теоретически вводится единое Управление метаданными, каждый подпункт процесса будет подробно объяснен позже.

Для получения более подробной информации, пожалуйста, обратитесь к:

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024, приходите и разделите со мной приз!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose