Фабрика данных против сетки данных
Фабрика данных против сетки данных

концепция

недавно,В сфере управления данными тоже много горячих слов.,Пришедшие из-за границы изпереплетение данных (Data Fabric) и искладка данных (Data Mesh) — это две новые темы, которые часто упоминаются. Чтобы идти в ногу с темпами развития новых технологий,,Я также провел небольшое исследование этих двух концепций.,и Давайте обсудим вместе.

GartnerДаватьпереплетение данных(Data Fabric) определяется следующим образом: Data Fabric is a design concept that serves as an integrated layer of data and connecting processes. переплетение данныхэто дизайнконцепция,выражатьданныеипроцесс подключенияиз Уровень интеграции。

ForresterДаватьвнесетка данных (Data Mesh) определяется следующим образом: Data Mesh is a decentralized sociotechnical approach to share, access and manage analytical data in complex and large-scale environments within or across organizations. сетка данныхэто своего рода дисперсияизсоциотехнический подход,Используется в различных сложных и крупномасштабных средах внутри или между организациями.,Совместное использование, доступ и анализ данных управления.

переплетение данных

Forrester аналитик Noel Yuhanna является самым ранним в 200 Год среднего поколения определение переплетение Один из данныхиз людей. Из концепции, большое переплетение данные по сути являются мета-данными Машинный способ объединить различные наборы инструментов, которые решают ключевые проблемы в крупных проектах обработки данных единым способом с самообслуживанием. В частности, данные Fabric Решения предоставляют возможности в таких областях, как доступ к данным, обнаружение, преобразование, интеграция, безопасность, управление, происхождение и оркестровка. Graph Также часто используется для связи активов данных и пользователей.

Momentum Строительное переплетение Концепция данных, как способ упростить доступ к данным и управление ими во все более разнообразной среде, включает в себя хранилище данных транзакций и операций, хранилище данных, озеро данных и дом у озера. Организации создают больше разрозненных структур, а не меньше, и по мере развития облачных вычислений проблемы, связанные с многообразием, становятся более серьезными, чем когда-либо.

A data fabric consists of multiple data management layers (Image source: Eckerson Group)

С помощью единого переплетения, практически наложенного на различные хранилища данных. данных,Организации могут обеспечить своего рода единое управление для различных изданных источников и последующих потребителей (включающие администраторы, инженеры по данным, специалисты по аналитике данных). Но следует отметить, что из,Управление – это единство из,Вместо фактического из хранилища,Он до сих пор распространяется.

включать Informatica и Talend Некоторые поставщики инструментов предлагают полезные переплетения, которые содержат многие из вышеперечисленных функций. данные, в то время как другие поставщики инструментов, такие как Ataccama и Denodo) обеспечивает специфическое изпереплетение данныхчасть。 Google Cloud также через свой новый Dataplex Поддержка продуктапереплетение данныхметод。переплетение Интеграция между различными компонентами данных обычно осуществляется посредством API универсальная JSON Формат данных обрабатывается.

сетка данных

Хотясетка данные предназначены для решения многих проблем, связанных с данными. данных — это та же проблема, то есть сложность управления данными в гетерогенной среде данных, но она решает проблему совершенно другим способом. Короче говоря, хоть и переплетение данных пытались построить единый уровень виртуального управления поверх распределенных данных, но сетка Данные поощряют распределенные группы команд управлять данными по своему усмотрению, хотя существуют некоторые положения о совместном управлении.

сетка данныхконцепцияпервоначально автором Zhamak Dehghani Написано, что он сейчас Thoughtworks North America Директор инкубатора технологий следующего поколения. Dehghani в ней 2019 Год 5 Ежемесячный отчет «Как выйти за рамки монолитного озера данных к распределенной сетке» данных”разработано всетка данныеизм, многие принципы иконцепции, она впоследствии 2020 Год 12 Месячная публикация под названием «сетка принцип данных и логическая структура» и «отчет».

Как мы уже писали сегодня, водить машинусетка Основной принцип данных состоит в исправлении несоответствий озера данных и данных между хранилищами. Хранилище данных первого поколения было разработано для хранения больших объемов структурированных данных, что позволяет аналитикам использовать их для обратного отслеживания. SQL аналитика, в то время как озера данных второго поколения в основном используются для хранения больших объемов неструктурированных моделей данных, которые специалисты по данным используют для построения прогнозного машинного обучения. Dehghani Написал систему третьего поколения с потоковой передачей в реальном времени и облачными сервисами. (Каппа), но не устраняет потенциальный разрыв в удобстве использования между системами первого и второго поколения.

Многие организации строяти Комплекс в обслуживаниииз ETL Конвейер данных, позволяющий синхронизировать данные. Это также вызывает потребность в «сверхспециализированных инженерах по обработке данных», которым поручено поддерживать византийские системы.

Dehghani Ключевой вывод, связанный с этим вопросом, заключается в том, что преобразование данных не может быть жестко встроено в данные инженерами, а должно представлять собой фильтр, применяемый к общему набору данных, доступному всем пользователям. Поэтому вместо создания сложного набора ETL Конвейер для перемещения данных в различные сообщества мог бы анализировать данные из специальных репозиториев, а не оставлять данные примерно в их исходной форме, и ряд групп, специализирующихся на конкретных областях, будут владеть этими данными по мере того, как они преобразуют данные в продукт. Dehghani израспределеннаясетка данных решает эту проблему посредством новой архитектуры с четырьмя основными функциями:

  • Доменно-ориентированный с децентрализованным владением данными и архитектурой;
  • данные как продукт;
  • В качестве платформы инфраструктуры данных самообслуживания;
  • Федеративное управление вычислениями.

Собственно, сетка Подход к данным признает, что только Data Lake обладает масштабируемостью для удовлетворения сегодняшних потребностей аналитики, но попытки организаций навязать нисходящий стиль управления Data Lake потерпели неудачу. сетка данных Пытаюсь использовать снизу вверхиз Способы переосмысления структур собственности,Предоставьте каждой команде возможность построить систему, отвечающую их собственным потребностям.,Хотя требуется некоторое межкомандное управление.

Сетка против переплетения

Как мы видим,Между методами сетки данныхипереплетения данных есть сходство. но,Есть и некоторые различия, которые следует учитывать.

в соответствии с Forrester из Yuhanna из заявления,сетка данныхипереплетение Основное различие между методами обработки данных заключается в том, что API изAccess метод.

"и [данные] косадругой,сетка данные в основном предназначены для разработчиков из API водить машину [Решение]», Юханна объяснять. “[Data Fabric] исетка данных Вместо этого вы делаете API Напишите код для интерфейса. С другой стороны, переплетение данные являются low-code, без кода, что означает API Интеграция происходит внутри структуры, а не с ее непосредственным использованием, а не сеткой. данных。”

James Serra Это Эрнст энд Янг (Earnst and Young) изданные Менеджер по архитектуре платформы,Ранее работал архитектором складских решений в Microsoft изданныеиданные.,Разница между этими двумя методами заключается в том, где пользователь получает к ним доступ.

“переплетение данныхисетка оба данных обеспечивают доступ к архитектуре данных на нескольких технологиях и платформах, но переплетение данные ориентированы на технологии, а сетка данных ориентированы на организационные изменения», — сказал Серра в 6 Юэ из написал в своем блоге. “[A] сетка данные больше связаны с людьми и процессами, чем с архитектурой, а переплетение Данные — это архитектурный подход, который обрабатывает метасложность данных таким образом, чтобы они хорошо работали вместе и разумно. "

в соответствии с Eckerson Group аналитик David Wells скажем, вы можете использовать обе сетки данныхипереплетение данных,Даже хаб данных

"первый,Это концепция,а не вещи,”Wells В недавнем сообщении в блоге «Архитектура: комплекс ) и Complex (Сложный.)» — написал. «Быть ​​архитектурным концептуально-изданным хабом — это не то же самое, что быть библиотекой данных и зданными хабами. Во-вторых, они являются компонентами, а не заменителями. Архитектура содержит в себе и переплетение. данныхисетка данные практичны из. Они не являются взаимоисключающими. В конце концов, это архитектурные рамки, а не архитектуры. в рамке соответствии Ваши потребности, процессы и терминология корректируются и настраиваются до того, как у вас появится архитектура. "

сетка данныхипереплетение данных — все они имеют место в большом списке данных. При поиске архитектуры для поддержки вашего крупного проекта все сводится к поиску подхода, который лучше всего соответствует вашим конкретным потребностям.

ссылка https://www.datanami.com/2021/10/25/data-mesh-vs-data-fabric-understanding-the-differences/

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose