Дорис от Baidu большая данные Министерство исследований и разработок,звонил раньшеБайду Пало,Открытый исходный код в 2017 году.,Внесен вклад в 2018 году Apache После общины имя было изменено на Дорис.
Apache Dorisдаодинмодернизацияизна основеMPP(массово-параллельная обработка)технологияиз Аналитические продукты для баз данных。Проще говоря, MPP распределяет задачи по множеству серверов и узлов параллельно. После завершения расчета на каждом узле результаты каждой части суммируются для получения окончательного результата (аналогично Hadoop).。Получайте результаты запроса с временем ответа менее секунды,Эффективная поддержка анализа данных в реальном времени.
Apache Doris может удовлетворить различные потребности в анализе данных,НапримерФиксированные исторические отчеты, анализ данных в реальном времени, интерактивный анализ данных и исследовательский анализ данных.ждать。сделать тебяиз Работа по анализу данных становится проще и эффективнее。
MPP (массовая параллельная обработка), то есть крупномасштабная параллельная обработка. В кластере базы данных без общего доступа каждый узел имеет независимую дисковую систему хранения, а бизнес-данные распределяются по каждому узлу в соответствии с моделью базы данных и приложением. Характеристики каждого узла Узлы данных соединены друг с другом через выделенную сеть или общую коммерческую сеть, сотрудничают друг с другом для вычислений и предоставляют услуги базы данных в целом. Кластеры баз данных без общего доступа обладают такими преимуществами, как полная масштабируемость, высокая доступность, высокая производительность, отличная экономическая эффективность и совместное использование ресурсов. Проще говоря, MPP распределяет задачи по множеству серверов и узлов параллельно. После завершения расчета на каждом узле результаты соответствующих частей агрегируются для получения конечного результата (аналогично Hadoop).
TPC-H и TPC-DS имеют лучшие характеристики,Высокая стоимость исполнения,Высокий параллельный запрос,100Тайваньский кластер доступен10w QPS,Потоковый импорт в один узел50MB/s,Небольшая задержка пакетного импорта в миллисекундах
Высокая совместимость с протоколом MySql, поддерживает высокоинтегрированные онлайн-изменения структуры таблиц и не зависит от внешних систем хранения;
Элегантная архитектура, один кластер можно горизонтально расширить до более чем 200 единиц.
Множественные копии, высокая доступность метаданных
OLTP — это аббревиатура онлайн-обработки транзакций; OLAP — это аббревиатура онлайн-аналитической обработки;
Запросы OLTP обычно обращаются только к небольшому количеству записей и большую часть времени используют индексы. Например, наиболее распространенные операции CRUD на основе первичных ключей.
Запросы OLAP обычно требуют сканирования для сканирования большого объема данных. В большинстве случаев доступ осуществляется только к некоторым столбцам. Требования к агрегированию (сумма, количество, максимальное, минимальное и т. д.) будут более детальными (запрос исходных подробных данных). ).
HTAP — это аббревиатура гибридной транзакционной/аналитической обработки.
База данных HTAP, основанная на инновационной среде вычислений и хранения, может одновременно поддерживать операции бизнес-системы и сценарии OLAP с одними и теми же данными, избегая большого объема взаимодействия данных между онлайн- и офлайн-базами данных в традиционной архитектуре. Кроме того, HTAP основан на распределенной архитектуре, поддерживает эластичное расширение, может расширять пропускную способность или хранилище по требованию и легко справляется со сценариями с высоким уровнем параллелизма и большими объемами данных.
В настоящее время существует не так много баз данных, реализующих HTAP, в основном это TiDB от PingCAP, HybridDB для MySQL от Alibaba Cloud, Baidu BaikalDB и т. д. Среди них TiDB — первая распределенная база данных HTAP с открытым исходным кодом в Китае.
MOLAP:путем предварительного вычисления,Обеспечить стабильные данные срезов,Реализация нескольких запросов и одного расчета,Уменьшает нагрузку на расчет времени запроса,Гарантированная стабильность запросов,да“пространство для времени”излучший путь。Осуществленныйна основеBitmapиз Алгоритм дедупликации,Поддерживает весовые индикаторы в различных измерениях и статистику в реальном времени.,Более высокая эффективность.
ROLAP:на основев реальном времениизмассово-параллельные вычисления,Требования к кластеризации относительно высоки. Механизм MPP извлекает данные по,Чтобы добиться распределения ресурсов ЦП, ввода-вывода и памяти.,улучшить возможности параллельных вычислений. В случае, когда текущее хранилище данных в основном дисковое.,Для сканирования данных требуется большой объем дискового ввода-вывода,А параллелизм приводит к высокой загрузке ЦП,Есть еще недостатки в ресурсах. поэтому,Высокочастотная и крупномасштабная сводная статистика,Возможности параллелизма столкнутся с более серьезными проблемами,Это зависит от возможностей параллельных вычислений аппаратного обеспечения кластера. Традиционные алгоритмы дедупликации требуют больших вычислительных ресурсов.,Крупномасштабные индикаторы дедупликации в реальном времени представляют собой огромную проблему как для процессора, так и для памяти. В настоящее время последняя версия Doris уже поддерживает алгоритм Bitmap.,В сочетании с предварительными вычислениями он вполне может решить сценарии дублирования приложений.
dorisдаодининдивидуальныйРОЛАП-движок, Может удовлетворить следующие потребности
Сравните другие OLAP-системы
Таким образом, в сценариях приложений с изменяющимися размерами, непредустановленными размерами и детальной статистикой использование режима ROLAP, управляемого механизмом MPP, может упростить разработку модели, снизить стоимость предварительных вычислений и благодаря мощным вычислительным возможностям в реальном времени. он может поддерживать хороший интерактивный опыт в реальном времени.
Подведите итог:
На рисунке выше показан конкретный сценарий использования всего Doris, в основном его источника данных, его общего модуля и, наконец, его визуального представления. Позже будет более подробная картина, где будет представлен весь источник и окончательный поток данных, который можно вывести.
Как правило, исходные данные пользователя, такие как журналы или данные в транзакционных базах данных, импортируются в Doris после обработки системой потоковой передачи или в автономном режиме для запроса с помощью инструментов отчетности верхнего уровня или аналитиков данных.