Привет, я Вуконг.
В области анализа данных в режиме реального времени в отечественных базах данных постепенно появился проект с открытым исходным кодом. StarRocks,Эта аналитическая библиотека данных меняет наше представление об обработке данных в реальном времени.
Что за продукт представляет собой StarRocks? Какую позицию вы занимаете в экосистеме больших данных? Какие особенности есть? Как спектакль?
Пристегните ремни, обмен знаниями в базе данных отключен.
StarRocks — это проект Linux Foundation. Это новое поколение чрезвычайно быстрой полнофункциональной базы данных MPP, использующей протокол с открытым исходным кодом Apache 2.0. Он имеет простую архитектуру, использует комплексный механизм векторизации и оснащен недавно разработанным оптимизатором CBO для достижения скорости выполнения запросов менее секунды, особенно запросов, связанных с несколькими таблицами. StarRocks также поддерживает современные материализованные представления для дальнейшего ускорения запросов.
Поскольку объем данных увеличивается, а требования продолжают расти, первоначальная экосистема больших данных с Hadoop в качестве ядра не может удовлетворить потребности предприятий с точки зрения производительности, эффективности, сложности в эксплуатации и обслуживании, а также гибкости, с которыми сталкиваются базы данных OLAP. Постоянно растущие проблемы возникают все больше и больше, и трудно иметь базу данных, которая может адаптироваться к большинству предприятий. В настоящее время существуют сложенные приложения с несколькими стеками технологий, такие как Hive, Druid, CK, ES, Presto. и т. д. Хотя это может решить проблему, разработка и стоимость и сложность эксплуатации и обслуживания также увеличиваются.
В качестве аналитической базы данных с архитектурой MPP StarRocks может поддерживать объемы данных уровня PB, имеет гибкий метод моделирования и может создавать чрезвычайно быстрый и унифицированный уровень анализа с помощью таких методов оптимизации, как механизмы векторизации, материализованные представления, растровые индексы и разреженные индексы. .Система хранения данных.
В общей экосистеме больших данных:
После серии моделирования данные в StarRocks могут использоваться в различных сценариях потребления, таких как бизнес-отчеты, мониторинг показателей в реальном времени, интеллектуальный многомерный анализ, выбор группы клиентов и бизнес-аналитика самообслуживания.
Архитектурный дизайн StarRocks объединяет идеи дизайна базы данных MPP и распределенных систем и имеет минималистские архитектурные характеристики. Вся система состоит из интерфейсных узлов (FE) и внутренних узлов (BE и CN). Такая конструкция упрощает развертывание и обслуживание StarRocks, одновременно повышая надежность и масштабируемость системы.
Эти функции делают StarRocks отличным средством обработки и анализа данных, а также обеспечивают эффективную поддержку многопользовательского режима и управления ресурсами.
Тест производительности сценария с одним столом SSB: StarRocks, ClickHouse и Druid
По 13 запросам стандартного набора тестовых данных общая производительность запросов StarRocks в 2,1 раза выше, чем у ClickHouse, и в 8,7 раза выше, чем у Apache Druid.
После включения Bitmap Index в StarRocks общая производительность запросов в 1,3 раза выше, чем при его отключении. На данный момент общая производительность запросов в 2,8 раза выше, чем у ClickHouse, и в 11,4 раза выше, чем у Apache Druid.
“использовать 3x16core 64GB Хост облака памяти, в 6 Был протестирован масштаб данных в миллиарды строк. Источник: https://docs.starrocks.io/zh/docs/benchmarking/SSB_Benchmarking/
Тест TPC-H: таблицы Hive StarRocks и запросы Trino
Сравнительное тестирование проводилось на наборе данных масштаба TPC-H 100G. Общее время запроса к локальному хранилищу StarRocks составило 17 с, общее время запроса к таблице StarRocks Hive — 92 с, а общее время запроса Trino — 187 с.
“Должентест Содержит 8 таблицу, объем данных можно установить из 1 GB~3 TB Нет, подожди. Источник: https://docs.starrocks.io/zh/docs/benchmarking/TPC-H_Benchmarking/
Тест производительности TPC-DS: StarRocks против Trino
Используя для тестирования набор данных TPC-DS1TB, StarRocks и Trino запросили одну и ту же копию данных файла Parquet, хранящегося в формате таблицы Apache Iceberg. Общее время ответа на запрос StarRocks было в 5,54 раза быстрее, чем у Trino.
“источник:https://mp.weixin.qq.com/s/kEqyRO_aOnOnsROXllwA2g
В сложной и постоянно меняющейся области анализа данных маловероятно, что существует универсальное решение. StarRocks действительно превосходит других в некоторых областях, например в скорости запросов, особенно при работе с большими наборами данных.
Однако не всем предприятиям требуется такая высокая производительность в режиме реального времени. Для некоторых предприятий может быть достаточно пакетной обработки или анализа в режиме, близком к реальному времени. Если вы работаете с небольшими наборами данных или простыми запросами, это может быть излишним. Но для компаний, которым необходимо принимать бизнес-решения и получать информацию посредством анализа в режиме реального времени, StarRocks может быть лучшим решением. Что касается выбора StarRocks, он должен основываться на техническом сравнении и тестировании собственных потребностей, а также потребностей компании. ресурсы и долгосрочная стратегия. Углубленная оценка.
“ссылка: https://zhuanlan.zhihu.com/p/532302941 https://docs.starrocks.io/docs/introduction/StarRocks_intro/ https://mp.weixin.qq.com/s/kEqyRO_aOnOnsROXllwA2