введение
Единая платформа данных в реальном времени упрощает и оптимизирует архитектуру данных за счет объединения обработки транзакций, потоковой передачи и аналитической обработки в разных хранилищах данных в «унифицированную» платформу. Платформа обеспечивает сверхнизкую задержку, горизонтальную масштабируемость, надежную безопасность и надежность дисков при работе с разрозненными, разнообразными и распределенными источниками данных.
В этой статье будет представлен обзор единой платформы данных в реальном времени и ее ключевых компонентов, а также выделены некоторые весьма актуальные случаи, основанные на этом архитектурном подходе. Основное содержание включает в себя:
Единая платформа данных в реальном времени
По словам Gartner, «Единая платформа данных в реальном времени сочетает в себе большую часть или все возможности платформы обработки потока событий (ESP) с интегрированной СУБД или сеткой данных в памяти и программируемым механизмом приложений. Унифицированная платформа представляет собой относительно новое инфраструктурное программное обеспечение. который может быть применен к операционному бизнесу или аналитическому бизнесу. Он поддерживает как обработку динамических потоковых данных, так и обработку статических исторических данных и ESP. Как и другие платформы, унифицированные платформы могут выполнять пользовательскую бизнес-логику и функции анализа, такие как выводы и правила машинного обучения. Однако у них также есть функции, которых нет у платформ ESP, особенно поддержка синхронизации, взаимодействия запросов и ответов и управления. способность ссылаться на данные и данные о состоянии с течением времени».
Проще говоря, Единая платформа данных в реальном времени плавно сочетает в себе динамическую потоковую передачу данных и статическую историю данных с вычислительными возможностями, что позволяет предприятию работать на сверхзатратном уровне. задержка обрабатывает сложные аналитические, потоковые и транзакционные рабочие нагрузки. Использование этой технологии может включать в себя что угодно: от обнаружения выбросов (например, в реальном времени, синхронно, случаи обнаружения мошенничества) до ситуационного принятия решений (например, обучение и исполнение с помощью моделей машинного обучения для повышения стандартов контроля качества).
Единая платформа данных в реальном времени
Единая платформа данных в реальном временикомпозиция
Единая платформа данных в реальном временипревзойтинизкая задержка Предоставлять обновленияданныеистатическийданныеиз Обработка функция анализа данных. Это выдвигает определенные технические требования к архитектуре платформы. Давайте более подробно рассмотрим эти требования на примере, с которым мы все должны быть хорошо знакомы: обнаружение и предотвращение мошенничества с кредитными картами.
Оптимизированный рабочий процесс предотвращения мошенничества с кредитными картами
Предположим, житель Нью-Йорка использует кредитную карту для оплаты на заправочной станции в Лос-Анджелесе. Чтобы сообщить нам, является ли эта транзакция мошеннической,Нам также необходимо понять и другие варианты использования этой карты. Например,Если человек арендовал автомобиль в аэропорту Лос-Анджелеса или недавно купил билет в Лос-Анджелес с помощью той же карты.,Тогда сделка, вероятно, будет удачной. но,Если бы они заплатили за еду в Нью-Йорке два часа назад,Тогда мы знаем, что что-то не так. поэтому,Чтобы определить, является ли атомарная транзакция по этой кредитной карте подлинной или мошеннической.,我们必须查看一些较旧из交易(часы、несколько дней、несколько недель назад)или исторические параметры для вынесения суждений。
Это означает, что с точки зрения предотвращения мошенничества ключевые шаги для того, чтобы отметить или утвердить транзакцию по кредитной карте, включают:
Традиционный процесс предотвращения мошенничества с кредитными картами
Традиционный подход состоит в том, чтобы извлечь транзакции по кредитным картам из потока событий (если механизм потоковой обработки может вообще контролировать обработку событий), выполнить интеллектуальные запросы к хранилищу данных транзакций, затем объединить события с соответствующими историческими данными и передать их в модель выполнения. ИИ-приложения. Затем выходные данные отправляются обратно в хранилище транзакционных данных.
Как видите, перемещение данных происходит за границы приложения, и хотя весь процесс можно выполнить относительно быстро, существуют способы его оптимизации и уменьшения сквозной задержки процесса.
Это Единая платформа данных в реальном Где время может вступить в игру. Путем объединения потоковой обработки с хранением данных AI/ML Выполнение модели в совокупности ограничивает перемещение данных за границы приложения. Итак, что это значит для единой платформы? Ну, он должен иметь возможность обрабатывать потоковые данные и потоки событий. Он также должен иметь возможность сохранять соответствующие исторические и транзакционные данные и выполнять сложные AI/ML рабочие нагрузки и делать все это со сверхнизкой задержкой. Кроме того, было бы еще лучше, если бы можно было обучить модель новым входящим транзакциям, сделав новую модель более актуальной и точной, а затем развернуть новую модель при следующем входящем событии. Системы обнаружения мошенничества постоянно совершенствуются и становятся умнее с каждым днем.
Оптимизированный процесс предотвращения мошенничества с кредитными картами для повышения производительности.
Единая платформа данных в реальном временииз主要功能
Как видно из приведенного выше примера, Единая платформа данных в реальном времени можно разбить на следующие шесть ключевых функций:
Воспользуйтесь преимуществами Единой платформа данных в реальном времениизпредприятиевариант использования
Предотвращение мошенничества с кредитными картами Just Единая платформа данных в реальном времени Пример того, как легко можно добавить дифференцированную ценность. Есть несколько таких случаев использования, требующих Единую платформа данных в реальном многомерная функциональность времени. Вот некоторые из наиболее распространенных категорий вариантов использования, в которых используется Единая платформа данных в реальном время продемонстрировало немедленное улучшение производительности и масштаба:
Определите уровень риска, реализуя сложные математические модели потоковой передачи данных из нескольких источников, максимально приближенных к реальному времени. Это распространено среди финансовых учреждений, особенно на рынках капитала банковской отрасли.
Обработка потоковых данных в реальном времени и выполнение бизнес-правил, AI/ML Модельная или математическая оптимизация для принятия решений в реальном времени. Интеллектуальное принятие Примером решений может быть коммунальное предприятие или производственное предприятие, использующее Единую платформа данных в реальном времени для обработки данных датчиков, анализа данных и автоматического принятия соответствующих мер по исправлению положения.
Выполняйте аналитические модели в контексте транзакций, часто интегрированных с потоковыми данными или системами OLTP. Пример предотвращения мошенничества с кредитными картами, который мы обсуждали ранее, может попасть в эту категорию, где нам приходилось обрабатывать события в рамках транзакции по карте, изменять данные событий и выполнять сложный анализ. Другими примерами могут быть проведение нормативных проверок во время выполнения транзакции с активами или применение скидок к покупкам на кассе.
Центры обработки данных с малой задержкой консолидируют данные из различных систем учета и позволяют манипулировать данными и управлять ими для целевых приложений или аудиторий. любая необходимость 360° Посмотрите окружающую информацию, иначе действия будут предприняты из Единой платформа данных в реальном Получил большую выгоду от развертывания модели центра цифровой интеграции. Например, извлекайте информацию из различных внутренних финансовых приложений и объединяйте потоки с рынков (геополитика, погода и т. д.) для принятия более разумных торговых решений, лучшего взаимодействия с клиентами или консультативной деятельности.
Масштабируемая, надежная и надежная обработка транзакций для приложений с низкой задержкой и высокой пропускной способностью. В некотором смысле это может быть подмножеством некоторых из упомянутых выше вариантов использования, когда требуется высокопроизводительная обработка транзакций для выполнения анализа транзакций со сверхнизкой задержкой. Конечно, масштабируемость и параллельная обработка просто облегчают поддержку растущих рабочих нагрузок транзакций.
Единая платформа данных в реальном временидляпредприятиеиз重要性
要了解Единая платформа данных в реальном Важность предприятия для серьезного подхода к стратегии данных. Давайте сначала посмотрим, что на самом деле означает «предприятие» данных в современном мире.
Данные должны быть очень близки к реальному времени.
Мы живем в мире мгновенного удовлетворения. От безумных кликов по потоковым шоу и контенту в социальных сетях до бизнес-тенденций, таких как умные фабрики и алгоритмическая или высокочастотная торговля, — все это стимулирует тенденции в технологических инновациях, таких как искусственный интеллект, Интернет вещей и 5G. Как потребители, так и предприятия привыкли и требуют информацию в режиме реального времени или как можно более близкого к реальному времени.
Объем корпоративного домена данных превышает объем корпоративного брандмауэра.
Давно прошли те времена, когда мир данных вращался вокруг единой системы транзакций. Даже такие технологии, как оперативное хранение данных или хранилища данных, которые объединяют данные из различных источников, неадекватны необходимости доступа и обработки данных в режиме реального времени для извлечения полной дифференцированной ценности из данных. Бизнес уязвим к геополитическим ситуациям, климату/стихийным катастрофам или финансовым решениям на другом конце света. Они должны понимать эти события практически в реальном времени, чтобы иметь возможность соответствующим образом реагировать и корректировать их.
Производительность всей экосистемы данных
Это не означает, что хранилища операционных данных или хранилища данных работают недостаточно быстро. Все эти технологии обработки данных (хранилище транзакционных данных, хранилища данных, обработка потока событий и т. д.) были значительно улучшены и в сочетании с высокими скоростями сети также позволяют быстро перемещать данные.
Все данные предоставляются в режиме реального времени на момент рождения. Однако, когда данные выходят за пределы разрозненных приложений и границ, это приводит не только к задержке, но и к риску для поддержания целостности и безопасности данных. Чем больше разрозненных хранилищ в экосистеме данных, тем выше задержка и выше риск нарушения целостности и безопасности данных. Не говоря уже о том, что большее количество движущихся частей приводит к большей сложности и более высокой совокупной стоимости владения.
Экосистемы данных с увеличенной задержкой при перемещении данных между хранилищами
Объединив несколько компонентов типичной предпринимательской экосистемы, можно создать единую платформа данных в реальном Со временем предприятие может достичь трех очень важных целей: 1) оптимизировать движение данных в экосистеме и сделать его максимально простым, 2) упростить архитектуру и 3) снизить риски с точки зрения интеграции данных и безопасности.
Как показано на рисунке ниже, экосистеме данных необходимо пересекать меньше границ данных, тем самым уменьшая задержку перемещения данных внутри предприятия и упрощая архитектуру. Это снижает общую стоимость владения. Если эта Единая платформа данных в реальном времени можно масштабировать и запускать где угодно (локально, в облаке или на нескольких облачных платформах одновременно), поэтому оно может работать на сверхвысоких скоростях. Задержка с легкостью поддерживает растущий спрос на предприятия.
Упрощенная и оптимизированная экосистема данных
Единая платформа данных в реальном Преимущества времени: по сравнению с другими аналогичными технологиями обработки данных
Традиционные СУБД и хранилище данных
Традиционные СУБД, озера данных, многомодельные СУБД и базы данных в памяти — это простые хранилища данных, интегрированные с той или иной формой взаимодействия. По определению, это гранулированные хранилища данных, созданные с использованием данных фиксированного формата.
Сетка данных в памяти
Сетка данных в памяти (IMDG) — очень эффективный способ реализации Обработки в памяти. данных, обеспечивая при этом горизонтальную масштабируемость и возможности параллельной обработки. Это очень мощное средство повышения производительности для параллельного выполнения больших объемов обработки. Хотя IMDG Не обязательно работает так же хорошо, как защищенный задержанный центр или хранилище данных, но его можно использовать как Единую платформа данных в реальном базовую архитектуру времени, что делает ее более производительным и масштабируемым решением.
Платформа обработки потока событий
Платформы обработки потока событий (ESP) передают события из точки А в точку Б через конвейеры данных. Они выполняют вычисления непрерывно, создавая потоковые данные, что обеспечивает немедленное понимание и действие, или просто сохраняют результаты этих вычислений для использования в будущем.
Gartner,Платформа обработки потока Два варианта использования событий, Руководство по рынку потоковой обработки событий, 2023 г. Год 5 луна
Однако платформы ESP не хранят данные и поэтому не могут применять или предоставлять контекстную или историческую информацию для реальной обработки событий в реальном времени. Вместо этого платформы ESP полагаются на увеличение данных (данные в хранилище данных) и временные окна для анализа потоков событий, и все это увеличивает задержку на несколько минут или более.
Единая платформа данных в реальном время — это комплексная и гибкая Обработка решения для аналитики данных, которые обеспечивают сверхбыструю реализацию путем анализа и обработки потоков данных и хранения данных в рамках обработки сложных рабочих нагрузок. задержка устраняет многие ограничения этих других технологий.
Первый продукт платформы данных в реальном времени в Китае: TapData Live Data Platform
Поскольку спрос предприятий на обработку данных в реальном времени продолжает расти, начинают появляться аналогичные решения на уровне продукта. Среди них, первая платформа данных реального времени собственной разработки в Китае, платформа TapData Live Data Platform, которая с момента своего запуска быстро превратилась в лидера, опираясь на основное преимущество перемещения данных с малой задержкой. накопилось более 1000 облачных и корпоративных версий.
Механизм работы платформы данных реального времени TapData
TapData — это современный инструмент платформы данных, который поддерживает централизацию основных данных предприятия в централизованной платформе данных в реальном времени и предоставляет свежие данные в реальном времени для последующих интерактивных приложений, микросервисов или интерактивного анализа через API или данные обратной синхронизации. Типичные случаи использования включают репликацию между базами данных, прием данных в хранилище данных или озеро данных, а также обработку ETL общего назначения.
TapData Сосредоточьтесь на обеспечении эффективного финансирования для предприятия задержкаизданныеплан управления,Направлен на решение давних проблем интеграции данных более инновационным способом.,Встречайте современностьпредприятиев реальном времениданные资源挖掘及应用из严苛нуждаться。Его основные функциональные особенности включают в себя:в реальном времениданныетрубопровод、Централизованная архитектура шины данных、соединитель данных、Обработка данные, централизованный кеш, подключение к нескольким таблицам и материализованное представление и т. д., гибко удовлетворяют потребности интеграции данных в различных сценариях и имеют как собственные задержка、Преимущества низкого кода. Путем интеграции обработки транзакций、Потоковая обработка,Беспрепятственная интеграция данных из разных источников данных в единую платформу.,Предоставление предприятию следующих ключевых преимуществ: