В этой статье рассказывается о том, что, почему, как и кто использует Data Fabric, включая архитектуру Data Fabric, проблемы, преимущества, основные возможности, поставщиков и многое другое.
За последние несколько лет термин «фабрика данных» стал синонимом интеграции и управления корпоративными данными. Аналитическая компания Gartner называет «переплетение данных» одной из «десяти главных тенденций в области технологий обработки данных и аналитики на 2021 год» и прогнозирует, что к 2024 году 25% поставщиков средств управления данными предоставят полную структуру для переплетения данных — это больше, чем в настоящее время 5%.
В этой статье рассматривается, что, почему, как и кто занимается объединением данных, приводятся его определение, цель, архитектура, проблемы, лучшие практики, преимущества, поставщики и список возможностей объединения данных.
Data Fabric демократизирует доступ к данным в масштабе всего предприятия. Это единая унифицированная архитектура с интегрированным набором технологий и сервисов, предназначенных для доставки интегрированных и обширных данных нужным потребителям данных в нужное время и правильным способом — для поддержки рабочих и аналитических рабочих нагрузок.
Data Fabric сочетает в себе ключевые технологии управления данными, такие как каталог данных, управление данными, интеграцию данных, конвейеры данных и оркестрацию данных.
Gartner: A data fabric stitches together integrated data from many different sources and delivers it to various data consumers.
Обслуживает широкий спектр бизнес-, технологических и организационных факторов согласования.
бизнес-драйверы
Gartner: Идеальная, законченная структура Data Fabric со множеством компонентов.
Архитектура сетки данных решает четыре ключевые проблемы управления данными:
Объединение данных идеально подходит для проектирования сеток данных, поскольку оно создает интегрированный связанный уровень данных для широкого спектра источников данных, обеспечивая мгновенную и полную видимость бизнеса, включая аналитические и операционные рабочие нагрузки.
Data Fabric устанавливает семантические определения различных продуктов данных, шаблоны приема данных и необходимые политики управления для защиты данных.
Кроме того, различные направления бизнеса координируют развертывание дополнительных узлов объединения данных, что позволяет им контролировать конвейеры данных и сервисы.
Архитектура сетки данных легко реализуется с помощью объединения данных. Переплетение данных, позволяющее управлять, подготавливать и доставлять данные в режиме реального времени, создает идеальное ядро сетки данных. Конечно, у архитектуры сетки данных есть свои проблемы с реализацией, но Data Weaving легко с ними справляется:
Проблемы реализации сетки данных | Как Data Fabric с ними справляется |
---|---|
Требования к опыту интеграции данных. Интеграция данных во многих различных исходных корпоративных системах часто требует опыта работы с конвейерами данных для конкретной предметной области. | Данные как продукт: когда продукты данных представляют собой бизнес-объекты, управляемые на виртуальном уровне данных, домену не нужно иметь дело с базовой исходной системой. |
Федерация против независимости. Достичь правильного баланса между опорой на центральную группу данных и независимостью домена непросто. | Сотрудничество в масштабе всего предприятия: команды, специализирующиеся на конкретной области, сотрудничают с группами централизованных данных для создания API и конвейеров для своих потребителей данных, контроля и управления доступом, а также мониторинга использования. |
Пакетные данные, а также в режиме реального временииданные партиидоставлять:данныепродукт Должно быть на одной платформе Безопасностьэффективнопоставлять Дарить офлайнионлайнданныепотребитель。 | Аналитика и операционные рабочие нагрузки: Data Fabric собирает и обрабатывает данные из базовых систем для доставки продуктов данных по запросу для вариантов использования в автономном и онлайн-режиме. |
Независимо от того, насколько велик объем данных, его можно масштабировать вверх и вниз динамически и плавно. Поддержка операционных и аналитических рабочих нагрузок корпоративного уровня.
Поддерживает все режимы доступа к данным, источники данных и типы данных, а также интегрирует статические или динамические основные и транзакционные данные. Получайте и унифицируйте данные в любом формате (структурированном или неструктурированном) из локальных и облачных систем. Уровень логического доступа к структуре данных должен обеспечивать возможность потребления данных независимо от того, где и как данные хранятся или распространяются, поэтому не требуется глубоких знаний базового источника данных.
Data Fabric должна быть доступна для развертывания в мультиоблачных, локальных или гибридных средах. Чтобы поддерживать целостность транзакций и возможности управления данными, Data Fabric должна поддерживать интеллектуальные стратегии виртуализации данных.
Если данные сохраняются, они должны быть зашифрованы и замаскированы в соответствии с правилами конфиденциальности данных. Структура данных должна иметь возможность передавать учетные данные пользователя в исходную систему, чтобы доступ был должным образом проверен и предоставлен.
Чтобы объяснить, как Data Fabric дополняет и улучшает хранилище больших данных для рабочих нагрузок, полезно сравнить Data Fabric, озера данных и базы данных.
На диаграмме ниже суммированы плюсы и минусы каждого хранилища данных применительно к крупномасштабным, объемным операционным сценариям использования.
преимущество | недостаток | ||
---|---|---|---|
хранилище данных, СХД | Поддержка сложных запросов к структурированным и неструктурированным данным. | Не оптимизирован для запросов с одним объектом, что приводит к медленному времени ответа. Не поддерживает данные в реальном времени, поэтому постоянно обновляемые данные либо ненадежны, либо доставляются с неприемлемым временем ответа. | |
реляционная база данных | Поддержка SQL, широкое распространение и простота использования. | Нелинейная масштабируемость, требующая дорогостоящего оборудования (сотни узлов) для TB Выполнение сложных запросов к данным высокого уровня практически в реальном времени.Высокий параллелизм, вызывающий проблемы со временем отклика | |
NoSQL Database | Распределенная архитектура хранения данных поддерживает линейное расширение. | SQL не поддерживается и требует специальных навыков. Для поддержки запросов к данным требуются предопределенные индексы или встроенная сложная логика приложения, что ограничивает время выхода на рынок и гибкость. | |
Сбор данных | полный SQL поддерживать Распределенная архитектура хранения данных поддерживает линейное расширение.Высокий параллелизмподдержка, производительность в режиме реального времени для рабочих нагрузок, что позволяет выполнять сложные запросы к одному бизнес-объекту, поддерживать один бизнес-объект Все интегрированные методы для сложных запросов поддержкаподдержка Масштабная подготовка данных для аналитических задач и конвейерная передача в озеро и хранилище данных Динамическое управление данными |
реляционная база данных
NoSQL Database
Сбор данныхполный SQL поддерживать
Таким образом, хотя Data Fabric является отличным решением для крупномасштабных рабочих нагрузок, это также взаимовыгодная технология для озер данных и баз данных для рабочих нагрузок автономной аналитики. Для таких рабочих нагрузок Data Fabric может: Вводить в нее новые надежные данные для автономного анализа. Получите от них бизнес-аналитику для внедрения в сценарии оперативного использования в режиме реального времени.
В корпоративных операциях существует множество вариантов использования, требующих крупномасштабных высокоскоростных архитектур данных, способных выполнять тысячи одновременных транзакций. Примеры включают в себя:
Обеспечьте единое представление о клиенте для IVR самообслуживания, агентов по обслуживанию клиентов (CRM), портала самообслуживания клиентов (веб- или мобильного), чат-ботов и технических специалистов по обслуживанию на местах.
Обеспечьте соответствие требованиям людей, систем и данных с помощью гибких решений для автоматизации рабочих процессов и данных, разработанных с учетом текущих и будущих норм.
Расширение возможностей инженеров по обработке данных для подготовки и доставки новых, надежных данных — из всех источников ко всем целям — быстро и в большом масштабе.
Создайте хранилище тестовых данных и автоматически доставляйте его тестировщикам и CI/CD трубопроводдоставлять Анонимное тестированиеданные,и имеет полную целостность данных
Безопасность переносит данные из устаревших систем в Data Weaving, а затем использует эту структуру в качестве базы данных для новых приложений.
Защитите конфиденциальную информацию о держателях карт, шифруя и маркируя необработанные данные, чтобы избежать утечки данных.
Поэтому Data Fabric должна включать в себя встроенные механизмы обработки:
Непрерывные обновления операционной системы (от миллионов до миллиардов обновлений в день)
Терабайты данных разбросаны по десяткам огромных баз данных/таблиц, часто с использованием разных технологий.
Предоставляйте значимую информацию в режиме реального времени и влияйте на результаты бизнеса
Например, получить полные данные по конкретному клиенту, местоположению, устройству и т. д.
Обработка тысяч запросов в секунду
Data Fabric предлагает множество преимуществ по сравнению с другими подходами к управлению данными, такими как управление основными данными, концентраторы данных и озера данных, в том числе:
Позволяет автоматически извлекать, проверять и пополнять данные — без каких-либо сценариев преобразования или сторонних инструментов.
использовать инновационный механизм для управления и синхронизации данных, полностью поддерживать SQL и встроенный Web уровень обслуживания
Соответствует корпоративным стандартам, имеет надежный уровень базы данных и механизм обработки.
Положитесь на архитектуру, которая позволяет выполнять каждый запрос с небольшим объемом данных с обработкой в памяти.
Устраняет возможность крупномасштабной утечки данных благодаря сложному механизму многоключевого шифрования.
Эксплуатационные преимущества, которые Data Fabric предоставляет предприятиям, включают:
Операторы, которые интегрируют внешние базы данных, бизнес-логику, маскирование, синтаксический анализ и потоковую обработку.
Генерируйте данные из производственных систем и предоставляйте высококачественные тестовые данные команде тестирования.
Настраивайте, управляйте и проверяйте запросы на доступ субъектов данных, связанные с правилами конфиденциальности данных, такими как GDPR, CCPA, LGPD и другими.
Настраивайте, отслеживайте и управляйте данными с помощью инструментов административного управления, интуитивно понятных визуальных студий и инструментов веб-управления.
Положитесь на производительность памяти на обычном оборудовании、полный Линейная банка Расширятьсекси Безрисковая интеграция
Есть многопоставщикпоставлять Интегрированный набор функций поставляетсяподдерживать Data Fabric архитектура. высший рейтинг 5 кусочек Data Fabric Поставщики следующие:
Strengths | Concerns | ||
---|---|---|---|
K2View | Единая интегрированная платформа, объединяющая всю структуру данные Функциональные данные, уникально организованные бизнес-субъектом для конвейеров данных в реальном времени. Крупномасштабные рабочие нагрузки «x360», требующие интеграции данных в реальном времени. Большие мобильные рабочие нагрузки данных. Комплексный анализ поддержки. Операционные рабочие нагрузки развертываются быстро (обычно в течение нескольких недель). адаптироваться, поддерживать гибкое развитие CI/CD низкая совокупная стоимость владения (TCO) | Ориентирован на крупные предприятия с относительно небольшим количеством клиентов среднего размера. Высокая концентрация развертываний на рынках телекоммуникаций, здравоохранения и финансовых услуг. Мало партнеров по системной интеграции за пределами Северной Америки и Европы. | |
Denodo | Целью виртуализации данных является использование каталога в качестве единой точки входа для управления. анализ | Сложность управления и манипулирования структурами данных не применима к большим операционным нагрузкам. Дополнительные процессы и работа, необходимые для обеспечения производительности распределенных запросов на платформе. | |
Talend | Направленность и преимущества интеграции данных в мультиоблачных и гибридных экосистемах. Обширные возможности обработки данных. Обширный набор разъемов для различных источников данных. | Не подходит для больших объемов рабочих Лучше всего подходит для сценариев использования аналитики. Требуется сложная оркестровка данных и дополнительные операции с конвейером данных. Ограниченные. возможности виртуализации данных | |
Informatica | использовать AI и ML Улучшить интеграцию и качество данных, оптимизировать анализ, миграцию данных и MDM Преимущества интеграции данныхможет Расширятькподдерживатьсложныйинтеграция данныхплан | Сложное и дорогое развертывание и настройка Необходимость виртуализации данных Ограниченные возможности конвейера данных в реальном времени, что делает его менее подходящим для рабочих нагрузок, требующих интеграции данных в реальном времени.Множество разрозненных инструментов, приобретенных с течением времени и еще не интегрированных в единую платформу. | |
IBM Cloud Pak for Data | мощныйпродукт Может Расширятьсексисексспособный к диверсификацииинтеграция данныхдоставлять Способи Архитектура Виртуализация данных и управление метаданными Улучшенные возможности интеграции, переработанные в Cloud Pak for Data | состоит из нескольких независимыхпродуктсостоит изструктура данные, вносящие неопределенность в структуру, стоимость и развертывание платформы Сложная архитектура делает модернизацию сложной и Требуются возможности самообслуживания и облачной интеграции данных. |
Denodo
Talend
Informatica
IBM Cloud Pak for Data
Организации обычно думают,Data Weave создан для анализа больших данных — в частности, анализа тенденций, прогнозной аналитики, машинного обучения и бизнес-аналитики — которые будут выполняться специалистами по обработке данных в автономном режиме.,для получения бизнес-информации.
Но переплетение данных является точным для зависимостей.、Варианты оперативного использования полных и свежих данных (например, прогнозирование оттока клиентов)、кредитный рейтинг、Соответствие конфиденциальности данных、Обнаружение мошенничества、в реальном времениданныеуправлениеи 360 мнение клиента) не менее важно.
Группы обработки данных не хотят иметь одно решение для объединения данных для анализа данных и другое для оперативной разведки. Им нужна единая структура данных для обоих.
Идеальное сочетание данных оптимизирует работу каждого субъекта бизнеса (клиента).、продукт、Заказы и т. д.) Видение и глубина понимания. Это чисто для бизнеса.、Свежие данные анализа офлайн-данных и анализ онлайн-операций в режиме реального времени.、Действенные данные.
Data Fabric одновременно поддерживает автономный анализ данных и оперативную онлайн-аналитику.
K2View — единственное средство обработки данных, способное реагировать на запросы данных, ориентированных на объекты, и рабочие нагрузки операционной аналитики в режиме реального времени и в любом масштабе.
Вот 5 причин, по которым крупнейшие предприятия мира выбирают K2View для обработки данных:
K2View патент Micro-Database™ обеспечивает непревзойденную производительность, простоту доступа, целостность данных и универсальный язык в бизнесе. IT между. K2View Data Fabric Объедините данные для каждого бизнес-объекта из всех базовых исходных систем в единую базу микроданных, по одной для каждого экземпляра бизнес-объекта.
Например,База микроданных клиентов объединяет знания компании о конкретном клиенте, включая все взаимодействия (электронные письма, телефонные звонки, посещения веб-портала, чаты...), транзакции (заказы, счета, платежи...) и основные данные - независимо от базовых данных. исходная система, технология и формат данных. в этом случае,Управляйте микробазой данных для каждого клиента.
Базы микроданных можно пополнять новыми полями, которые фиксируются или динамически вычисляются, например. KPI、Информация о согласии、Тенденция к истощению и т. д.。это Можетклегко определить,Автоматическое обнаружение использования,Извлеките предложенные шаблоны данных из базовой системы.
База микроданных представляет собой знания предприятия о конкретном бизнес-объекте.
Каждая микро-БД зашифрована своим уникальным ключом, поэтому каждый объект уникален. Это обеспечивает высочайший уровень безопасности статических данных.
K2View Data Fabric Можетк Расширятьк Управляйте сотнями миллионов одновременно Безопасностьминиатюраданные Библиотека,и развернуты в распределенных локальных, облачных или гибридных архитектурах.
K2View разработала действенную систему данных, которая может получать данные из любого источника, любым методом доставки данных, а затем преобразовывать их для доставки в любой пункт назначения за миллисекунды.
K2View Data Fabric представляет собой среду с минимальным использованием кода или без него для создания и отладки микросервисов. Использовать визуальный конструктор перетаскивания,Можетк Быстрая настройкаи Договариватьсямикросервисыкподдерживать Любой вариант оперативного использования。Этот подход помогаетданныерассматривается какпродуктиподдерживатьсетка Архитектура。
Пользователям или токенам, которым необходим доступ к микросервису, назначается роль, которая определяет уровень доступа к данным, который они имеют. После развертывания микросервиса K2View Data Fabric Будет контролировать аутентификацию и авторизацию,тем самым соответствующим образом ограничивая доступ пользователей。
Платформа K2View — центральный дата-центр,Получите в режиме реального времени достоверное и целостное представление о любом бизнес-объекте в любом потребляющем приложении, озере данных или хранилище данных. поэтому,Существует множество вариантов использования объединения данных.,и во многих подразделениях предприятия.
интеграция данных、Конвертировать、Богатый、Подготовитьидоставлять——интегрированы в один Может Расширятьплатформа
Переплетение корпоративных данных,Создан для поддержки операций в реальном времени,Обеспечивает двунаправленное перемещение данных между источником и целью.
Интегрированные достоверные данные,Доставка в режиме реального времени в потребляющие приложения,или конвейер в озеро данных и хранилище данных для анализа