Платформы больших данных с открытым исходным кодом, созданные самостоятельно, столкнутся с проблемами роста корпоративных данных: низкая производительность, длительные циклы расширения, плохая стабильность платформы, сложность эксплуатации и обслуживания, а также высокие инвестиционные затраты. Здесь мы начнем с EMR Введение、Сравнительные преимущества EMR и Hadoop собственной разработка, самостоятельное создание и миграция в облако для ознакомления с практическими примерами EMR Как решить эти проблемы.
Elastic MapReduce (EMR) — это безопасная, недорогая и высоконадежная платформа больших данных с открытым исходным кодом, основанная на облачной технологии и экологической технологии с открытым исходным кодом Hadoop. Компоненты полностью созданы сообществом открытого исходного кода. IDC или собственные большие данные в облаке. Кластер данных легко и плавно переносится в Tencent Cloud EMR.
Продукты Tencent Cloud EMR объединяют популярные в сообществе компоненты, включая, помимо прочего, Hadoop, Hive, Hbase, Spark, Presto, Impala, Flink, Sqoop, Hue, Iceberg, Starrocks и т. д., которые могут удовлетворить ваши потребности в больших данных. онлайн- и офлайн-бизнес /Потребности универсальных сценариев, таких как онлайн-хранилище данных, создание облачных озер данных и потоковые вычисления в реальном времени.
Возможности основного продукта Tencent Cloud Elastic EMR показаны на рисунке ниже:
● EMR интегрирует более 30 компонентов больших данных с открытым исходным кодом и предоставляет пользователям наборы компонентов Hadoop2/3 с несколькими версиями. Вы можете выбрать компоненты для использования в соответствии со сценарием и запустить облачную платформу больших данных за считанные минуты одним щелчком мыши.
● Облачная платформа больших данных поддерживает разделение архитектуры хранения и вычислений для решения проблем, связанных с отставанием в расширении емкости и низким использованием ресурсов традиционных платформ собственной сборки. В рамках архитектуры разделения хранения и вычислений можно реализовать многоуровневое хранилище на основе данных COS, а вычислительные ресурсы можно использовать гибко по требованию, улучшая использование ресурсов и сокращая затраты на простой.
● Во время использования вы можете визуально управлять кластером через интерфейс консоли EMR, включая запуск и остановку служб, управление конфигурацией, распространение сценариев и т. д. Он также предоставляет в общей сложности более 1000 расширенных индикаторов мониторинга, охватывающих кластеры, узлы и службы. и поддерживает сигналы тревоги многоканальной конфигурации; EMR также предоставляет функции анализа высокого уровня, такие как запрос заданий Yarn, анализ запросов Impala и анализ хранилища файлов HDFS, чтобы помочь вам значительно повысить эффективность кластеров больших данных, а также бизнес-операций и обслуживания.
По сравнению с созданием собственной платформы больших данных с использованием дистрибутива Hadoop с открытым исходным кодом Tencent Cloud EMR имеет следующие основные преимущества:
1) Кластер легко построить, а функции управления эксплуатацией и обслуживанием богаты и просты в использовании, что упрощает его использование и обслуживание.
i. Создание платформы больших данных на основе программного обеспечения Hadoop с открытым исходным кодом имеет длительный цикл, высокую техническую сложность, неполную поддержку разработки, эксплуатации и обслуживания, мониторинга и других инструментов, а также не может получить эффективную техническую поддержку, что требует больших инвестиций в трудозатраты. для поддержки и обслуживания.
ii. Tencent Cloud EMR позволяет быстро создать кластер одним щелчком мыши, а релизная версия полностью протестирована и проверена на совместимость; консоль предоставляет множество инструментов для эксплуатации, обслуживания и мониторинга из коробки, что значительно снижает затраты на использование, эксплуатацию и обслуживание; Кроме того, Tencent предоставляет профессиональную техническую поддержку, которая также может помочь клиентам быстро обнаружить и решить проблемы.
2) Вычислительные ресурсы могут использоваться гибко по требованию, данные могут храниться в слоях, а степень использования ресурсов высока.
i. Самостоятельно созданным платформам больших данных обычно необходимо заранее оценивать ресурсы серверов и делать определенные резервы для пиковых нагрузок в бизнесе, что приводит к низкому использованию ресурсов и очень негибкой реакции на резкие изменения спроса на вычисления.
ii. Tencent Cloud EMR поддерживает гибкое эластичное масштабирование. Ресурсы можно использовать по требованию, масштабирование можно выполнить за считанные минуты, а вычислительные ресурсы можно автоматически масштабировать в соответствии с меняющимися бизнес-нагрузками или периодами времени. Кроме того, ваши службы больших данных также могут быть развернуты в контейнерных службах; аспект хранения также поддерживает разделение архитектуры хранения и вычислений, которая может хранить данные в слоях, что значительно снижает стоимость хранения и вычислительных ресурсов для клиентов.
3) Компоненты с открытым исходным кодом постоянно совершенствуются и оптимизируются для достижения большей стабильности и производительности.
i. Платформы больших данных, созданные самостоятельно, обычно используют компоненты версии сообщества с открытым исходным кодом, поэтому проблемы совместимости и дефекты компонентов необходимо решать самостоятельно. Производительность также необходимо оптимизировать самостоятельно. Если вам нужно использовать новые версии компонентов от сообщества или передовые технологические стеки, стоимость сборки и тестирования будет высокой.
ii. Tencent Cloud EMR объединяет внутренний крупномасштабный практический опыт. Основные компоненты, такие как Hadoop, Hbase и т. д., представили версию Tianqiong Oteam, которая совместима с открытым исходным кодом и обеспечивает эффективное усиление стабильности. Кроме того, новые стеки технологий предоставляют множество полезных функций. Например, Iceberg поддерживает оптимизацию Z-Order, которая может повысить производительность на основе сцен более чем в 10 раз. Благодаря гибкой итерации облачных продуктов пользователи также могут легко создавать кластеры на основе последних стабильных версий компонентов сообщества и легко использовать новые технологии озерного хранилища в реальном времени, такие как StarRocks и Iceberg.
4) Комплексная стратегия защиты безопасности, облачная среда и данные более безопасны.
i. Самостоятельно созданная платформа больших данных должна создавать свои собственные возможности безопасности от нижнего уровня до уровня обслуживания. Она очень сложна, имеет неполный охват, неполные вспомогательные возможности аудита и содержит множество скрытых опасностей и рисков.
ii. Tencent Cloud EMR предоставляет полный набор простых в использовании возможностей защиты оборудования, сети, операционной системы и служб больших данных. Обеспечивает защиту хоста CVM и аварийные сигналы тревоги; поддерживает шифрование облачных дисков и шифрование COS хранилища объектов; сетевой уровень поддерживает управление изоляцией сети VPC и настройки групп сетевой безопасности; кластер поддерживает архитектуру безопасности Kerberos + LDAP, а аутентификация личности обеспечивает безопасность доступа к кластеру. и обеспечивает управление правами на данные на основе нескольких стратегий Ranger.
5) Беспрепятственное подключение к облачным экологическим службам и быстрое создание полных вспомогательных возможностей.
i. Самостоятельно создаваемые платформы для больших данных, такие как инструменты разработки данных и другие вспомогательные возможности, необходимо создавать самостоятельно, что является дорогостоящим и занимает много времени.
ii. Tencent Cloud EMR может легко и беспрепятственно подключаться к платформе разработки данных Wedata и продуктам анализа бизнес-аналитики, помогая клиентам снизить порог и быстро построить интеграцию данных, разработку данных, визуализацию данных и другие услуги. Кроме того, EMR также поддерживает периферийные сервисы, такие как облачный мониторинг и облачный аудит, помогая клиентам быстро построить корпоративную интеллектуальную экосистему в облаке.
3. Лучшие примеры самостоятельной миграции в облако
【Информация о клиенте】
Этот клиент является лидером в области онлайн-образования в Китае. Он стремится использовать научные и технологические средства для продвижения инклюзивного образования. Он использует передовые технологии, такие как искусственный интеллект и большие данные, чтобы предоставить учащимся, учителям и родителям более эффективные услуги. решения для обучения и образования, а также интеллектуальные аппаратные продукты ждут.
[Основные болевые точки]
Прежде чем использовать услуги Tencent Cloud EMR, клиенты в основном применяют собственные методы CDH для поддержки собственных кластеров больших данных с открытым исходным кодом. Однако с бурным ростом бизнеса объем данных резко возрос. Чтобы удовлетворить требования своевременности в различных бизнес-сценариях, этот клиент пытался принять множество технических решений и постоянно расширял масштабы автономных кластеров. по-прежнему не могла полностью удовлетворить потребности бизнеса. Она построила собственную систему ульев на основе CDH. Основные отчеты не могут быть подготовлены вовремя, что серьезно влияет на работу по анализу данных и принятию бизнес-решений.
【Решение】
В ответ на основные требования клиентов к своевременности создания крупных автономных хранилищ данных и безопасности после миграции в облако эластичная система MapReduce от Tencent Cloud предлагает два решения:
Интегрированное решение для озер и складов:Управление озером данныхicebergВнедрение технологии,Уникальные возможности Iceberg в Тенсент ОблакоEMR,Помогите клиентам перенести системы отчетности петабайтного уровня на основе кустов в озеро данных Iceberg.,Производительность расчета отчета значительно улучшена после оптимизации Z-Order.,Повышение эффективности основной отчетности,В то же время всесторонне сократить расходы;
Единое решение по разрешениям:Ведение единой схемы разделения разрешений на хранение и учет,Возможности унифицированного управления полномочиями и контроля на основе продуктов,Повышение масштабируемости,В этом решении хранилище объектов (cos) используется в качестве ресурса для управления разрешениями.,Единое управление разрешениями,Решить проблему несогласованного управления и контроля разрешений;
[Эффект миграции]
Эффективность запросов на основе сценариев выросла в 10 раз:проходить Тенсент Облако Эластичный MapReduce Оптимизация функций Iceberg, ускорение кэширования, разделение хранилища и вычислений, интеллектуальное многоуровневое распределение и другие приложения повысили производительность запросов на основе сценариев почти в 10 раз. Кроме того, благодаря внешней функции Matastore Iceberg, предоставляемой Tencent Cloud EMR, стоимость преобразования метаданных клиента снижается, а доступ к метаданным Iceberg достигается практически с нулевым преобразованием.
Фиксированная вычислительная мощность уменьшена на 5000 ядер:проходитьEMRВычислительный узелэластичность Масштабирование、Облачные возможности, такие как автономное планирование ресурсов контейнера, позволяют избежать бесполезной траты простаивающих ресурсов.、Сокращение общих затрат.
【Информация о клиенте】
Ведущий китайский поставщик корпоративных облачных бизнес-решений и маркетинговых решений, а также ведущий поставщик услуг точного маркетинга в Китае. Чтобы лучше обслуживать собственные бизнес-сценарии клиентов, поиск, маркетинг, рекомендации и другие бизнес-сценарии, необходимо стабильное и высокопроизводительное решение для обработки больших данных.
[Основные болевые точки]
В связи с быстрым развитием бизнеса клиентов и резким увеличением объема данных платформа больших данных, изначально построенная на основе физических машин Blackstone + CDH, постепенно разработала новые бизнес-сценарии, такие как цикл расширения узла Blackstone длительный, версии компонентов CDH старые, небогат и не может покрыть недостатки озера данных. В то же время из-за большого количества компонентов кластера CDH и длительного среднего цикла устранения ошибок клиентам приходится вкладывать больше рабочей силы в эксплуатацию и обслуживание. Вообще говоря, чтобы поддержать быстрое развитие бизнеса, команда клиента по работе с большими данными должна инвестировать много средств и рабочей силы в расширение самостоятельно построенных кластеров, поддержку новых бизнес-сценариев, стабильность платформы, ее эксплуатацию и обслуживание.
【Решение】
Tencent Cloud EMR предоставляет возможности создания кластеров одним щелчком мыши для гибкого расширения и сжатия на уровне минут в часы пик. Он глубоко интегрирует компоненты кластерных вычислений и хранения для удовлетворения требований клиентов к мультитенантности и детальной авторизации на уровне таблиц и полей. возможности.
Возможность автоматического расширения и сжатия позволяет эластично масштабировать вычислительные узлы на основе двух стратегий: времени и нагрузки, чтобы удовлетворить потребности клиентов в ресурсах в различные периоды времени в сценариях автономного и специального анализа. Аутентификация входа в систему и возможности управления разрешениями индексирования на уровне полей документа обеспечивают надежную гарантию безопасного доступа к кластеру. Встроенная функция COS объектного хранилища упрощает резервное копирование. Возможность зоны множественной доступности обеспечивает кластеру защиту от аварийного восстановления в случае сбоев в работе городского энергоснабжения или сети.
[Эффект миграции]
Благодаря внедрению Tencent Cloud EMR эффективность доставки клиентских кластеров выросла в 10 раз.
Возможность эластичности кластера на минутном уровне помогает клиентам легко справляться с резким ростом трафика во время мероприятий.
Система безопасности Tencent Cloud EMR обеспечивает более надежную гарантию безопасности бизнеса и высокой доступности.
Друзья, заинтересованные в эластичном MapReduce, могут присоединиться к коммуникационной группе Tencent Cloud Big Data EMR.