Форматы файлов и таблиц с открытым исходным кодом представляют большой интерес для индустрии данных из-за их потенциала совместимости, который позволяет многим технологиям безопасно работать с одной копией данных. Большая совместимость не только снижает сложность и стоимость использования нескольких инструментов и механизмов обработки, но также предотвращает привязку к поставщику.
Хотя многие люди уже используют открытые файловые и табличные форматы, существует множество взаимозависимых ограничений между механизмом и каталогом, которые создают блокировки, снижающие ценность открытых стандартов Iceberg. Это создает дилемму для архитекторов данных и инженеров данных: как обойти эти ограничения и найти компромисс между сложностью и привязкой. Чтобы улучшить совместимость, сообщество Apache Iceberg разработало открытый стандарт протокола REST. Открытая спецификация API — это большой шаг к совместимости, позволяющий Iceberg работать на любом хранилище, независимо от поставщика.
Поэтому Snowflake запустила каталог Polaris, чтобы предоставить предприятиям и сообществу Iceberg новый выбор, включая совместимость Apache Iceberg с Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce и т. д., одновременно поддерживая корпоративный уровень. Безопасность.
Многие организации обычно используют различные механизмы обработки для выполнения определенных рабочих нагрузок и хотят иметь возможность легко добавлять или заменять механизмы обработки. Короче говоря, им нужна свобода безопасного использования нескольких механизмов для одной копии данных, чтобы минимизировать перемещение данных. Или стоимость избыточности данных, вызванная выбором нескольких вариантов хранения.
Каталоги играют жизненно важную роль в многоядерных архитектурах, они делают операции с таблицами надежными, поддерживая атомарные транзакции. Это означает, что несколько пользователей могут изменять таблицу одновременно и гарантировать точность результатов запроса. Для этого все операции чтения и записи таблицы Iceberg (даже из разных механизмов) перенаправляются через Каталог.
Стандартизированный протокол каталога для всех механизмов обеспечивает совместимость нескольких механизмов, и, к счастью, сообщество Apache Iceberg создало спецификацию с открытым исходным кодом для протокола REST. Поскольку эта спецификация REST API обеспечивает совместимость, все больше и больше открытых и коммерческих механизмов и каталогов добавляют поддержку этой спецификации REST API.
Каталог Polaris реализует открытый API REST Iceberg. В настоящее время поддерживаются механизмы Apache Doris, Apache Flink, Apache Spark, PyIceberg, StarRocks, Trino и Dremio. Конечно, вы также можете использовать Snowflake для чтения и записи таблиц Iceberg через каталог Polaris.
Каталог Polaris с открытым исходным кодом может размещаться в облаке AI Data Cloud компании Snowflake или в собственной инфраструктуре с использованием таких контейнеров, как Docker или Kubernetes, при этом базовую инфраструктуру можно свободно заменить в любое время.
После интеграции Snowflake Horizon с каталогом Polaris возможности управления и обнаружения Snowflake Horizon (политики маскировки столбцов, политики доступа к строкам, тегирование объектов и совместное использование) могут работать в каталоге Polaris. Таким образом, независимо от того, созданы ли таблицы Iceberg в каталоге Polaris с помощью Snowflake или другого движка, такого как Flink или Spark, вы можете расширить функциональность Snowflake Horizon на эти таблицы, как если бы они были собственными объектами Snowflake.
Оригинальная ссылка:
https://www.snowflake.com/blog/introducing-polaris-catalog/?utm_cta=website-polaris-end-cta