GreenPlum с закрытым исходным кодом? Вы можете узнать об отечественной CBDB (базе данных Cloudberry)
GreenPlum с закрытым исходным кодом? Вы можете узнать об отечественной CBDB (базе данных Cloudberry)

Введение

Cloudberry База данных (или «CBDB» или «CloudberryDB» для краткости) — это база данных, ориентированная на аналитику и AI Следующее поколение единой базы данных с открытым исходным кодом, созданной сценой, оснащенной PostgreSQL 14.4 Ядро,совместимый PostgreSQL и Greenplum Database экология,использовать Apache License 2.0 Лицензионное соглашение,Зависит от ПекинКлассные данныеHashDataРазработано компанией Technology Co., Ltd.,Исходный код в настоящее время общедоступен.

️Адрес GitHub: https://github.com/cloudberrydb/cloudberrydb. ️Официальная домашняя страница: https://cloudberrydb.org/

Официальная документация: https://cloudberrydb.org/zh/docs/.

Производитель

Классные данные

Официальный сайт

https://cloudberrydb.org/zh

Публичный аккаунт WeChat

HashData

Город штаб-квартиры

Пекин

14 июля 2023 г. была выпущена база данных Cloudberry v1.0.0.

Особенности продукта

Эффективный запрос в нескольких сценариях

  • Cloudberry Database поддерживатьпользовательсуществоватьсреда анализа больших данныхи Распределенная среда Действительно для следующегоиз Запрос:
  • среда анализа больших данных:Cloudberry Database Используйте встроенный PostgreSQL из оптимизатора для лучшего правления Распределенная среда. Это означает, что он может создавать более эффективные планы запросов при выполнении больших задач анализа.
  • Распределенная среда:использовать Оптимизатор с открытым исходным кодом GPORCA Оптимизатор, специально адаптированный для удовлетворения Распределенной окружающая среда Внизиз потребности в оптимизации запросов.
  • Обеспечить статическое и динамическое сокращение разделов.、совокупное понижение、использовать фильтрацию и другие технологии, помогающие пользователям работать быстрее、Точные результаты запроса.
  • предоставил средства оптимизации на основе правилиззапроса Оптимизация на основе затрат на запросы означает помощь пользователям в создании более эффективных планов выполнения запросов.

полиморфное хранилище данных

База данных Cloudberry поддерживает множество различных форматов хранения, включая хранилище кучи, хранилище строк AO и хранилище столбцов AOCS, для различных сценариев применения. В то же время база данных Cloudberry также поддерживает секционированные таблицы. Пользователи могут определить метод секционирования таблицы в соответствии с определенными условиями. При запросе подтаблицы, которые не требуется запрашивать, автоматически фильтруются в соответствии с условиями запроса для повышения эффективности. запроса данных.

Многоуровневая защита данных

Cloudberry Database Усиление защиты данных пользователей, поддержка функции шифрования и дешифрования, а также прозрачное шифрование и дешифрование данных. Прозрачное шифрование и дешифрование означает, что процесс шифрования и дешифрования выполняется пользователем без его ведома. Cloudberry Database Ядро завершено. В настоящее время поддерживаются следующие форматы данных. Heap Стол, АО Хранение строк, AOCS Колонное хранилище. При этом помимо широко используемых алгоритмов шифрования AES В дополнение к другим алгоритмам он также поддерживает алгоритм национальной секретности. Пользователи могут легко расширить свои собственные алгоритмы для прозрачного шифрования данных.

Загрузка данных

Cloudberry Database Обеспечивает ряд эффективных и гибких возможностей из Загрузки. решения для обработки данных для удовлетворения различных потребностей в обработке данных, включая распараллеливание и сохранение данных и з Загрузка данных, поддерживают гибкие изданные исходные форматы и форматы файлов, интегрированные многочисленные ETL инструмент、поддерживатьпотоковая передача Загрузка данных、поставлятьвысокая производительностьизданныедоступ。

Несколько уровней отказоустойчивости

Cloudberry Database Чтобы обеспечить безопасность данных и непрерывность обслуживания, страницы данных, контрольная сумма, конфигурация зеркального узла, узел управление резервным копированием с помощью многоуровневого механизма отказоустойчивости.

Широкая поддержка анализа данных

Cloudberry Database поставлятьмощныйизданныеанализировать Функция,Повышает эффективность обработки, запроса и анализа данных.,Удовлетворение всех видов сложной обработки, анализа и запросов.

Гибкое управление рабочей нагрузкой

Cloudberry Database Предоставляет комплексные возможности управления рабочей нагрузкой, предназначенные для эффективного использования и оптимизации базы. ресурсы данных для обеспечения эффективной и стабильной работы. Управление рабочей нагрузкой в ​​основном включает в себя управление уровнем соединения, управление уровнем сеанса, SQL Управление уровнями Три уровня контроля.

Множественная совместимость

Cloudberry Database Совместимость показана на SQL грамматика、компоненты、Инструменты и программы、Аппаратная платформа и операционная система и другие аспекты, что позволяет гибко работать с различными инструментами.、Платформа и язык.

Введение в архитектуру

В большинстве случаев Морошка Database существовать SQL поддержка, функции, параметры конфигурации и функциональность конечного пользователя и PostgreSQL Очень похоже. Пользователь базы данных против. Cloudberry Database Интерактивность базы данных очень близка к работе на одном компьютере. PostgreSQL взаимодействовать.

База данных Cloudberry использует технологию архитектуры MPP, которая обрабатывает большие объемы данных, распределяя рабочую нагрузку по обработке данных между несколькими серверами или хостами.

MPP Также называемая архитектурой массово-параллельной обработки, да относится к системе с несколькими хостами, которые совместно выполняют одну и ту же операцию. Каждый хост имеет собственный процессор, память, диск, сетевые ресурсы и операционную систему. Морошка База данных использует эту высокопроизводительную системную архитектуру для распределения нагрузки больших объемов данных и может использовать все ресурсы системы параллельно для обработки запросов.

С точки зрения пользователя, Cloudberry Database Это полноценная система управления реляционными базами данных. (СУБД). С физической точки зрения он содержит множество PostgreSQL Пример. Для достижения нескольких независимых PostgreSQL Пример разделения труда и сотрудничества, Морошка Database существующие осуществляет распределенную кластеризацию, обработку хранилищ данных, вычисления, а также связь и управление на разных уровнях. Морошка Database Хотя да является кластером, для пользователей он инкапсулирует все распределенные детали и предоставляет пользователям единую логическую базу. данные. Такая инкапсуляция значительно освобождает работу разработчиков, а также персонала по эксплуатации и техническому обслуживанию.

Схема архитектуры базы данных Cloudberry выглядит следующим образом:

  • Узел управления (координатор) да Cloudberry Database база система данных из портала, принимающая клиентов SQL Запрашивайте и назначайте работу экземплярам узлов данных. Пользователь и Cloudberry Database Для взаимодействия используйте клиентскую программу (например. psql) или приложение Программный интерфейс (API) (например. JDBC、ODBC или libpq PostgreSQL C API)соединятьприезжатьузел управления。
  • узел управления. Местоположение глобального системного каталога существует, глобальный системный каталог представляет собой набор системных таблиц, содержащих информацию о Cloudberry Database база данныхсама системаиз Юаньданные。
  • узел управления не содержит никаких пользовательских данных, данные сохраняются только на существующем экземпляре узла.
  • узел управления аутентифицирует соединение клиента, обрабатывает входящие SQL Заказ,существующие данные распределяют рабочую нагрузку между узлами,Координируйте каждый узел данных для возврата результатов.,и представить окончательный результат клиентской программе.
  • Cloudberry Database использовать журнал упреждающей записи (WAL) для узла управления/Standby зеркало。существоватьна основе WAL изLogging,Все изменения будут регистрироваться перед записью на диск.,Обеспечить целостность любых внутрипроцессных операций.
  • Узел данных (сегмент) Экземпляр независим от Postgres В процессе каждый узел данных сохраняет часть данных и выполняет соответствующий частичный запрос. Когда пользователь передает узел управлениясоединятьприезжатьбаза Когда data и отправляет запрос запроса, на каждом узле данных будет создан процесс для обработки запроса. Определено пользователем из таблицы и ее индексного распределения. Cloudberry Database Среди всех доступных узлов данных в издании каждый узел данных содержит разные части данныхиз, и разные части данных из процесса существуют соответствующие изданные узлы. Пользователь по узлу Управляющие узлы для взаимодействия с узлом данных существуют, называемые узлом данных, на котором работает сервер. Хост узла данных обычно выполняет 2 приезжать 8 узлов данных, в зависимости от процессора, памяти, хранилища, сетевых интерфейсов и рабочей нагрузки. Хост узла данных требует сбалансированной конфигурации, поскольку Cloudberry Ключом к достижению максимальной производительности является равномерное распределение рабочей нагрузки между узлами, чтобы все узлы начали работать над задачей одновременно и завершили работу одновременно.
  • Межсоединение да Cloudberry Database Сетевой уровень в архитектуре системы. Внутреннее соединениедаобратитесь кузел управления, связь узлов данных опирается на сетевую инфраструктуру, использует стандартную коммутационную структуру Ethernet. Из соображений производительности рекомендуется использовать 10 GB или Быстрее из сети. По умолчанию использование модуля соединения с управлением потоком (UDPIFC) из UDP Протоколы, позволяющие осуществлять связь для отправки сообщений по сети. Морошка Database Выполнение проверки отправленных пакетов превышено UDP Предлагается вне диапазона, что означает, что надежность эквивалентна использованию. TCP протокол, а производительность и масштабируемость превосходят TCP протокол. Если внутри соединение Изменить наиспользовать TCP соглашение, тогда Cloudberry Database масштабируемость ограничена 1000 индивидуальныйданныеузел。использовать UDPIFC При использовании в качестве протокола по умолчанию это ограничение не применяется.
  • Cloudberry Database Используйте многоверсионный контроль (Multiversion Concurrency Control/MVCC) Гарантированная согласованность данных. Это означает существование базы запросов данных, каждая транзакция просматривает только даданные снимки, что гарантирует, что текущая транзакция не будет просматривать другие транзакции, существующие в той же записи, на предмет изменений. Соответственно, это база данныеиз обеспечивает изоляцию транзакций для каждой транзакции. MVCC чтобы не давать базу Режим явной блокировки транзакций сводит к минимуму конфликты блокировок и обеспечивает производительность в многопользовательских средах. существуют аспекты управления параллелизмом, использовать MVCC Без использования запирающего механизма самое большое преимущество да, MVCC не сохраняет конфликт существования для запроса (чтения) из блокировки и записи из блокировки.,А чтение и письмо никогда не блокируют друг друга.

Сценарии использования

Сценарий 1: Хранилище данных с пакетной обработкой в ​​автономном режиме и построение витрины данных (хранилища данных и витрины данных)

  • Строитьвысокая производительностьиз Cloudberry Database Хранилище данных и базар данных, используемые в хранилищах для запроса крупномасштабных коллекций данных, включая исходный уровень, уровень детализации, сводный уровень и т. д., под Построение модели исходного поста, построение нормализованной модели, построение таблицы измерений и таблицы фактов и т. д., поддержка нескольких способов интеграции источника Загрузка данныхкданныесклад。
  • поддерживаются различные типизданные обработки.
  • поддерживать Высокий параллелизм、высокая производительность、Низкие эксплуатационные расходы и техническое обслуживание изданных складов и строительство базара данных.
  • поддерживают сложные изданные анализы и требования к запросам,включатьданныеполимеризация、многомерный анализ、Связанный запрос ждать.

Сценарий 2. Создание хранилища данных в реальном времени.

  • поддерживают высокие сроки строительства изданных складов,поддерживают потоковую передачу данных, сбор и обработку,Анализ данных в реальном времени.

Сценарий 3: Строительство центра обработки данных

  • Созданы поддерживаемые Тайчжунский MPP платформы данных, поддерживаются распределенная архитектура параллельной обработки.
  • поддерживатьданные Средняя платформаданныескладизстроительство,поддерживать разнообразие мейнстрима ETL Инструменты для стыковки.

Сцена 4: Комплексное строительство озера и склада.

  • Поддержка интегрированного строительства предприятий и складов, поддержка озера данных и эффективный обмен данными между складами.

Сценарий 5: Замена существующей базы данных MPP

  • поддерживать Невнутреннийбаза замена данных, например. Oracle、TeraData、Greenplum、Vertical ждать.
  • Поддержка других типов MPP база замена данных, например. Gbase 8a、GaussDB ждать.

Сценарий 6: Приложения географической информационной системы (ГИС)

  • существовать Cloudberry Database ГИС (GIS) приложение。
  • хранилищеи Проверьте данные о местоположении,поддерживатькосмосданныеанализировать、Геокодированиеи Визуализация карты и т. д.Функция。
  • Можно ли использовать приложение в городском планировании、географический анализ、Карта навигации и другие поля.

Сравнение функций с Greenplum

База данных Cloudberry на 100% совместима с Greenplum и предоставляет все необходимые функции Greenplum.

Кроме того, база данных Cloudberry имеет некоторые функции, которые Greenplum в настоящее время не имеет или не поддерживает, как подробно описано ниже.

Общее сравнение функций

иллюстрировать

  • существуют в следующем виде: ✅ Олицетворяет поддержку, ❌ Представитель это не поддерживает.
  • Сравнение в следующей таблице на основе версии Greenplum 7.0 Beta.3.

Имя функции

Cloudberry Database

Greenplum

существовать EXPLAIN Посмотреть в результатах WAL информация об использовании

Тип мультидиапазона

Очистка индекса B-дерева снизу вверх

Индекс покрытия GiST (ВКЛЮЧИТЬ)

✅(будет выпущен)

Range_agg Агрегатная функция типа диапазона

CREATE ACCESS METHOD

✅(будет выпущен)

Поддержка сжатия LZ4 в таблицах TOAST.

JSONB читает элементы по индексу

Настройка максимального резервирования WAL для слота репликации

Проверьте целостность резервной копии (pg_verifybackup)

Клиентам может потребоваться привязка канала SCRAM.

Вакуумный «Аварийный режим»

Аутентификация сертификата с использованием postgres_fdw

UPSERT

✅(будет выпущен)

COPY FROM Where

ВАКУУМ/АНАЛИЗ пропуск заблокированных таблиц

HASH-таблица разделов

CTE (SEARCH и CYCLE)

OUT параметры хранимой процедуры

Ограничения внешнего ключа для таблиц внешнего ключа

Параметр тайм-аута для pg_terminate_backend

Автоматическое переключение координатора при отказе

поддерживатьсуществовать Kubernetes Развернуть на

Сравнение ТТХ

Имя функции

Cloudberry Database

Greenplum

Параллельное перестроение индекса REINDEX CONCURRENTLY

Сброс операции агрегации

CREATE STATISTICS - OR и IN/ANY статистика

Инкрементная сортировка

Оконная функция из Инкрементная сортировка

Конвейер запросов

Индекс BRIN (мультимин-макс, цветение)

Параллелизм запросов

Сортировка по сокращенным ключам

Поддержка WAL для хэш-индексов

postgres_fdw агрегатное нажатие

Добавление столбцов без переписывания всей таблицы

Операция соединения таблиц поддерживает фильтр времени выполнения (фильтр времени выполнения).

Таблицы AppendOnly поддерживают сканирование индекса.

Сравнение функций безопасности

Имя функции

Cloudberry Database

Greenplum

Прозрачное шифрование данных (TDE)

Доверенное расширение

SCRAM-SHA-256

Зашифрованные соединения TCP/IP при использовании GSSAPI

Политика безопасности на уровне строк

ссылка

https://cloudberrydb.org/zh/docs/

https://mp.weixin.qq.com/s/ME-rufZOF5_c9WgL9DqRyw

https://mp.weixin.qq.com/s/ZuVeEsLG1uoeEIREjKAbuQ

https://www.modb.pro/wiki/7408

https://github.com/cloudberrydb/cloudberrydb

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose