Полное руководство по единой платформе данных в реальном времени
Полное руководство по единой платформе данных в реальном времени

введение

Единая платформа данных в реальном времени упрощает и оптимизирует архитектуру данных за счет объединения обработки транзакций, потоковой передачи и аналитической обработки в разных хранилищах данных в «унифицированную» платформу. Платформа обеспечивает сверхнизкую задержку, горизонтальную масштабируемость, надежную безопасность и надежность дисков при работе с разрозненными, разнообразными и распределенными источниками данных.

В этой статье будет представлен обзор единой платформы данных в реальном времени и ее ключевых компонентов, а также выделены некоторые весьма актуальные случаи, основанные на этом архитектурном подходе. Основное содержание включает в себя:

  • Поймите глубже, что такое Единая платформа данных в реальном времени
  • 了解Единая платформа данных в реальном Случаи применения, охватываемые временем
  • Единая платформа данных в реальном Сравнение времени с другими архитектурами данных

Единая платформа данных в реальном времени

По словам Gartner, «Единая платформа данных в реальном времени сочетает в себе большую часть или все возможности платформы обработки потока событий (ESP) с интегрированной СУБД или сеткой данных в памяти и программируемым механизмом приложений. Унифицированная платформа представляет собой относительно новое инфраструктурное программное обеспечение. который может быть применен к операционному бизнесу или аналитическому бизнесу. Он поддерживает как обработку динамических потоковых данных, так и обработку статических исторических данных и ESP. Как и другие платформы, унифицированные платформы могут выполнять пользовательскую бизнес-логику и функции анализа, такие как выводы и правила машинного обучения. Однако у них также есть функции, которых нет у платформ ESP, особенно поддержка синхронизации, взаимодействия запросов и ответов и управления. способность ссылаться на данные и данные о состоянии с течением времени».

Проще говоря, Единая платформа данных в реальном времени плавно сочетает в себе динамическую потоковую передачу данных и статическую историю данных с вычислительными возможностями, что позволяет предприятию работать на сверхзатратном уровне. задержка обрабатывает сложные аналитические, потоковые и транзакционные рабочие нагрузки. Использование этой технологии может включать в себя что угодно: от обнаружения выбросов (например, в реальном времени, синхронно, случаи обнаружения мошенничества) до ситуационного принятия решений (например, обучение и исполнение с помощью моделей машинного обучения для повышения стандартов контроля качества).

Единая платформа данных в реальном времени

Единая платформа данных в реальном временикомпозиция

Единая платформа данных в реальном временипревзойтинизкая задержка Предоставлять обновленияданныеистатическийданныеиз Обработка функция анализа данных. Это выдвигает определенные технические требования к архитектуре платформы. Давайте более подробно рассмотрим эти требования на примере, с которым мы все должны быть хорошо знакомы: обнаружение и предотвращение мошенничества с кредитными картами.

Оптимизированный рабочий процесс предотвращения мошенничества с кредитными картами

Предположим, житель Нью-Йорка использует кредитную карту для оплаты на заправочной станции в Лос-Анджелесе. Чтобы сообщить нам, является ли эта транзакция мошеннической,Нам также необходимо понять и другие варианты использования этой карты. Например,Если человек арендовал автомобиль в аэропорту Лос-Анджелеса или недавно купил билет в Лос-Анджелес с помощью той же карты.,Тогда сделка, вероятно, будет удачной. но,Если бы они заплатили за еду в Нью-Йорке два часа назад,Тогда мы знаем, что что-то не так. поэтому,Чтобы определить, является ли атомарная транзакция по этой кредитной карте подлинной или мошеннической.,我们必须查看一些较旧из交易(часы、несколько дней、несколько недель назад)или исторические параметры для вынесения суждений

Это означает, что с точки зрения предотвращения мошенничества ключевые шаги для того, чтобы отметить или утвердить транзакцию по кредитной карте, включают:

  • Обработка потока транзакций из торговых систем;
  • Чтобы разобраться в этом, вам также следует сосредоточиться на каких исторических сделках;
  • Запросить хранилище данных для получения этих исторических транзакций;
  • Запускайте эти текущие (динамические данные) и исторические (статические данные) транзакции в качестве входных данных. AI/ML Модель;
  • Определите результат этого запуска и предпримите соответствующие действия, чтобы заблокировать транзакцию или продолжить обработку (проверить баланс, кредитный лимит, обновить запись счета с суммой транзакции и т. д.) запроса платежа.

Традиционный процесс предотвращения мошенничества с кредитными картами

Традиционный подход состоит в том, чтобы извлечь транзакции по кредитным картам из потока событий (если механизм потоковой обработки может вообще контролировать обработку событий), выполнить интеллектуальные запросы к хранилищу данных транзакций, затем объединить события с соответствующими историческими данными и передать их в модель выполнения. ИИ-приложения. Затем выходные данные отправляются обратно в хранилище транзакционных данных.

Как видите, перемещение данных происходит за границы приложения, и хотя весь процесс можно выполнить относительно быстро, существуют способы его оптимизации и уменьшения сквозной задержки процесса.

Это Единая платформа данных в реальном Где время может вступить в игру. Путем объединения потоковой обработки с хранением данных AI/ML Выполнение модели в совокупности ограничивает перемещение данных за границы приложения. Итак, что это значит для единой платформы? Ну, он должен иметь возможность обрабатывать потоковые данные и потоки событий. Он также должен иметь возможность сохранять соответствующие исторические и транзакционные данные и выполнять сложные AI/ML рабочие нагрузки и делать все это со сверхнизкой задержкой. Кроме того, было бы еще лучше, если бы можно было обучить модель новым входящим транзакциям, сделав новую модель более актуальной и точной, а затем развернуть новую модель при следующем входящем событии. Системы обнаружения мошенничества постоянно совершенствуются и становятся умнее с каждым днем.

Оптимизированный процесс предотвращения мошенничества с кредитными картами для повышения производительности.

Единая платформа данных в реальном временииз主要功能

Как видно из приведенного выше примера, Единая платформа данных в реальном времени можно разбить на следующие шесть ключевых функций:

Воспользуйтесь преимуществами Единой платформа данных в реальном времениизпредприятиевариант использования

Предотвращение мошенничества с кредитными картами Just Единая платформа данных в реальном времени Пример того, как легко можно добавить дифференцированную ценность. Есть несколько таких случаев использования, требующих Единую платформа данных в реальном многомерная функциональность времени. Вот некоторые из наиболее распространенных категорий вариантов использования, в которых используется Единая платформа данных в реальном время продемонстрировало немедленное улучшение производительности и масштаба:

  • Управление рисками в режиме реального времени

Определите уровень риска, реализуя сложные математические модели потоковой передачи данных из нескольких источников, максимально приближенных к реальному времени. Это распространено среди финансовых учреждений, особенно на рынках капитала банковской отрасли.

  • Интеллектуальное принятие решений

Обработка потоковых данных в реальном времени и выполнение бизнес-правил, AI/ML Модельная или математическая оптимизация для принятия решений в реальном времени. Интеллектуальное принятие Примером решений может быть коммунальное предприятие или производственное предприятие, использующее Единую платформа данных в реальном времени для обработки данных датчиков, анализа данных и автоматического принятия соответствующих мер по исправлению положения.

  • Анализ транзакций в реальном времени

Выполняйте аналитические модели в контексте транзакций, часто интегрированных с потоковыми данными или системами OLTP. Пример предотвращения мошенничества с кредитными картами, который мы обсуждали ранее, может попасть в эту категорию, где нам приходилось обрабатывать события в рамках транзакции по карте, изменять данные событий и выполнять сложный анализ. Другими примерами могут быть проведение нормативных проверок во время выполнения транзакции с активами или применение скидок к покупкам на кассе.

  • Обзор на 360 градусов с низкой задержкой

Центры обработки данных с малой задержкой консолидируют данные из различных систем учета и позволяют манипулировать данными и управлять ими для целевых приложений или аудиторий. любая необходимость 360° Посмотрите окружающую информацию, иначе действия будут предприняты из Единой платформа данных в реальном Получил большую выгоду от развертывания модели центра цифровой интеграции. Например, извлекайте информацию из различных внутренних финансовых приложений и объединяйте потоки с рынков (геополитика, погода и т. д.) для принятия более разумных торговых решений, лучшего взаимодействия с клиентами или консультативной деятельности.

  • Высокопроизводительная онлайн-обработка транзакций (OLTP)

Масштабируемая, надежная и надежная обработка транзакций для приложений с низкой задержкой и высокой пропускной способностью. В некотором смысле это может быть подмножеством некоторых из упомянутых выше вариантов использования, когда требуется высокопроизводительная обработка транзакций для выполнения анализа транзакций со сверхнизкой задержкой. Конечно, масштабируемость и параллельная обработка просто облегчают поддержку растущих рабочих нагрузок транзакций.

Единая платформа данных в реальном временидляпредприятиеиз重要性

要了解Единая платформа данных в реальном Важность предприятия для серьезного подхода к стратегии данных. Давайте сначала посмотрим, что на самом деле означает «предприятие» данных в современном мире.

Данные должны быть очень близки к реальному времени.

Мы живем в мире мгновенного удовлетворения. От безумных кликов по потоковым шоу и контенту в социальных сетях до бизнес-тенденций, таких как умные фабрики и алгоритмическая или высокочастотная торговля, — все это стимулирует тенденции в технологических инновациях, таких как искусственный интеллект, Интернет вещей и 5G. Как потребители, так и предприятия привыкли и требуют информацию в режиме реального времени или как можно более близкого к реальному времени.

Объем корпоративного домена данных превышает объем корпоративного брандмауэра.

Давно прошли те времена, когда мир данных вращался вокруг единой системы транзакций. Даже такие технологии, как оперативное хранение данных или хранилища данных, которые объединяют данные из различных источников, неадекватны необходимости доступа и обработки данных в режиме реального времени для извлечения полной дифференцированной ценности из данных. Бизнес уязвим к геополитическим ситуациям, климату/стихийным катастрофам или финансовым решениям на другом конце света. Они должны понимать эти события практически в реальном времени, чтобы иметь возможность соответствующим образом реагировать и корректировать их.

Производительность всей экосистемы данных

Это не означает, что хранилища операционных данных или хранилища данных работают недостаточно быстро. Все эти технологии обработки данных (хранилище транзакционных данных, хранилища данных, обработка потока событий и т. д.) были значительно улучшены и в сочетании с высокими скоростями сети также позволяют быстро перемещать данные.

Все данные предоставляются в режиме реального времени на момент рождения. Однако, когда данные выходят за пределы разрозненных приложений и границ, это приводит не только к задержке, но и к риску для поддержания целостности и безопасности данных. Чем больше разрозненных хранилищ в экосистеме данных, тем выше задержка и выше риск нарушения целостности и безопасности данных. Не говоря уже о том, что большее количество движущихся частей приводит к большей сложности и более высокой совокупной стоимости владения.

Экосистемы данных с увеличенной задержкой при перемещении данных между хранилищами

Объединив несколько компонентов типичной предпринимательской экосистемы, можно создать единую платформа данных в реальном Со временем предприятие может достичь трех очень важных целей: 1) оптимизировать движение данных в экосистеме и сделать его максимально простым, 2) упростить архитектуру и 3) снизить риски с точки зрения интеграции данных и безопасности.

Как показано на рисунке ниже, экосистеме данных необходимо пересекать меньше границ данных, тем самым уменьшая задержку перемещения данных внутри предприятия и упрощая архитектуру. Это снижает общую стоимость владения. Если эта Единая платформа данных в реальном времени можно масштабировать и запускать где угодно (локально, в облаке или на нескольких облачных платформах одновременно), поэтому оно может работать на сверхвысоких скоростях. Задержка с легкостью поддерживает растущий спрос на предприятия.

Упрощенная и оптимизированная экосистема данных

Единая платформа данных в реальном Преимущества времени: по сравнению с другими аналогичными технологиями обработки данных

Традиционные СУБД и хранилище данных

Традиционные СУБД, озера данных, многомодельные СУБД и базы данных в памяти — это простые хранилища данных, интегрированные с той или иной формой взаимодействия. По определению, это гранулированные хранилища данных, созданные с использованием данных фиксированного формата.

Сетка данных в памяти

Сетка данных в памяти (IMDG) — очень эффективный способ реализации Обработки в памяти. данных, обеспечивая при этом горизонтальную масштабируемость и возможности параллельной обработки. Это очень мощное средство повышения производительности для параллельного выполнения больших объемов обработки. Хотя IMDG Не обязательно работает так же хорошо, как защищенный задержанный центр или хранилище данных, но его можно использовать как Единую платформа данных в реальном базовую архитектуру времени, что делает ее более производительным и масштабируемым решением.

Платформа обработки потока событий

Платформы обработки потока событий (ESP) передают события из точки А в точку Б через конвейеры данных. Они выполняют вычисления непрерывно, создавая потоковые данные, что обеспечивает немедленное понимание и действие, или просто сохраняют результаты этих вычислений для использования в будущем.

Gartner,Платформа обработки потока Два варианта использования событий, Руководство по рынку потоковой обработки событий, 2023 г. Год 5 луна

Однако платформы ESP не хранят данные и поэтому не могут применять или предоставлять контекстную или историческую информацию для реальной обработки событий в реальном времени. Вместо этого платформы ESP полагаются на увеличение данных (данные в хранилище данных) и временные окна для анализа потоков событий, и все это увеличивает задержку на несколько минут или более.

Единая платформа данных в реальном время — это комплексная и гибкая Обработка решения для аналитики данных, которые обеспечивают сверхбыструю реализацию путем анализа и обработки потоков данных и хранения данных в рамках обработки сложных рабочих нагрузок. задержка устраняет многие ограничения этих других технологий.

Первый продукт платформы данных в реальном времени в Китае: TapData Live Data Platform

Поскольку спрос предприятий на обработку данных в реальном времени продолжает расти, начинают появляться аналогичные решения на уровне продукта. Среди них, первая платформа данных реального времени собственной разработки в Китае, платформа TapData Live Data Platform, которая с момента своего запуска быстро превратилась в лидера, опираясь на основное преимущество перемещения данных с малой задержкой. накопилось более 1000 облачных и корпоративных версий.

Механизм работы платформы данных реального времени TapData

TapData — это современный инструмент платформы данных, который поддерживает централизацию основных данных предприятия в централизованной платформе данных в реальном времени и предоставляет свежие данные в реальном времени для последующих интерактивных приложений, микросервисов или интерактивного анализа через API или данные обратной синхронизации. Типичные случаи использования включают репликацию между базами данных, прием данных в хранилище данных или озеро данных, а также обработку ETL общего назначения.

TapData Сосредоточьтесь на обеспечении эффективного финансирования для предприятия задержкаизданныеплан управления,Направлен на решение давних проблем интеграции данных более инновационным способом.,Встречайте современностьпредприятиев реальном времениданные资源挖掘及应用из严苛нуждаться。Его основные функциональные особенности включают в себя:в реальном времениданныетрубопровод、Централизованная архитектура шины данных、соединитель данных、Обработка данные, централизованный кеш, подключение к нескольким таблицам и материализованное представление и т. д., гибко удовлетворяют потребности интеграции данных в различных сценариях и имеют как собственные задержка、Преимущества низкого кода. Путем интеграции обработки транзакций、Потоковая обработка,Беспрепятственная интеграция данных из разных источников данных в единую платформу.,Предоставление предприятию следующих ключевых преимуществ:

  • Конвейер данных в реальном времени:в наше времяданные Под управлением,CDC(Change Data Технология захвата, изменения данных становится все более важной. CDC Основные сценарии применения включают репликацию в реальном времени, синхронизацию и обновления хранилища. Фиксируя и документируя изменения данных, CDC Это может обеспечить согласованность и производительность данных в реальном времени. По сравнению с пакетной обработкой Традиции ETL,CDC Эта технология может значительно сократить задержку передачи данных, позволяя обрабатывать и передавать данные сразу после генерации, повышая эффективность синхронизации и обновления данных. TapData Использование конвейера данных в реальном времени CDC технологии, достигая более эффективной Обработки данныхиинтегрированный。
  • Архитектура централизованного центра обработки данных:TapData Поддерживает централизованную центральную архитектуру данных, которая упрощает пути потока данных, уменьшает количество двухточечных конвейеров данных и улучшает управляемость и масштабируемость системы. Управляя всеми передачами данных из центрального узла, данные можно интегрировать более эффективно, особенно в средах данных между несколькими системами.
  • Разъем для передачи данных:существоватьданные Возможности подключения,TapData предоставил 100+ встроенный CDC разъем, опоры из SQL приезжать NoSQL Различные подключения к библиотекам данных. Такая широкая совместимость гарантирует, что предприятие сможет беспрепятственно интегрировать различные источники данных, повышая гибкость и эффективность управления данными.
  • Обработка данных:为了满足复杂из Обработка данныхнуждаться,TapData Поддерживает пользовательские функции (UDF), позволяя пользователям писать собственные Javascript и Python логика. Эта функция делает такие задачи, как очистка, преобразование и агрегирование, более гибкими и мощными, адаптируясь к различным потребностям бизнеса.
  • Централизованное кэширование:TapData Использование технологии централизованного кэширования эффективно оптимизирует производительность системы и использование ресурсов. За счет сокращения повторяющейся Обработки передача данных, существенно улучшено централизованное кэширование Обработка Скорость запроса данных гарантирует, что предприятие может эффективно использовать ресурсы данных.
  • Объединения нескольких таблиц и материализованные представления:существовать实际场景下предприятие Часто необходимо объединить несколькоданные源из信息,и выполнять сложные запросы и анализ. TapData может помочь ему создавать более сложные запросы и попытки данных.,Это создаст удобство для последующего анализа данных.
boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose