Самостоятельно созданные и перенесенные практические примеры EMR
Самостоятельно созданные и перенесенные практические примеры EMR

Платформы больших данных с открытым исходным кодом, созданные самостоятельно, столкнутся с проблемами роста корпоративных данных: низкая производительность, длительные циклы расширения, плохая стабильность платформы, сложность эксплуатации и обслуживания, а также высокие инвестиционные затраты. Здесь мы начнем с EMR Введение、Сравнительные преимущества EMR и Hadoop собственной разработка, самостоятельное создание и миграция в облако для ознакомления с практическими примерами EMR Как решить эти проблемы.

один, Введение продукта

Elastic MapReduce (EMR) — это безопасная, недорогая и высоконадежная платформа больших данных с открытым исходным кодом, основанная на облачной технологии и экологической технологии с открытым исходным кодом Hadoop. Компоненты полностью созданы сообществом открытого исходного кода. IDC или собственные большие данные в облаке. Кластер данных легко и плавно переносится в Tencent Cloud EMR.

Продукты Tencent Cloud EMR объединяют популярные в сообществе компоненты, включая, помимо прочего, Hadoop, Hive, Hbase, Spark, Presto, Impala, Flink, Sqoop, Hue, Iceberg, Starrocks и т. д., которые могут удовлетворить ваши потребности в больших данных. онлайн- и офлайн-бизнес /Потребности универсальных сценариев, таких как онлайн-хранилище данных, создание облачных озер данных и потоковые вычисления в реальном времени.

Возможности основного продукта Tencent Cloud Elastic EMR показаны на рисунке ниже:

● EMR интегрирует более 30 компонентов больших данных с открытым исходным кодом и предоставляет пользователям наборы компонентов Hadoop2/3 с несколькими версиями. Вы можете выбрать компоненты для использования в соответствии со сценарием и запустить облачную платформу больших данных за считанные минуты одним щелчком мыши.

● Облачная платформа больших данных поддерживает разделение архитектуры хранения и вычислений для решения проблем, связанных с отставанием в расширении емкости и низким использованием ресурсов традиционных платформ собственной сборки. В рамках архитектуры разделения хранения и вычислений можно реализовать многоуровневое хранилище на основе данных COS, а вычислительные ресурсы можно использовать гибко по требованию, улучшая использование ресурсов и сокращая затраты на простой.

● Во время использования вы можете визуально управлять кластером через интерфейс консоли EMR, включая запуск и остановку служб, управление конфигурацией, распространение сценариев и т. д. Он также предоставляет в общей сложности более 1000 расширенных индикаторов мониторинга, охватывающих кластеры, узлы и службы. и поддерживает сигналы тревоги многоканальной конфигурации; EMR также предоставляет функции анализа высокого уровня, такие как запрос заданий Yarn, анализ запросов Impala и анализ хранилища файлов HDFS, чтобы помочь вам значительно повысить эффективность кластеров больших данных, а также бизнес-операций и обслуживания.

два, Сравнительные преимущества EMR и Hadoop собственной разработки

По сравнению с созданием собственной платформы больших данных с использованием дистрибутива Hadoop с открытым исходным кодом Tencent Cloud EMR имеет следующие основные преимущества:

1) Кластер легко построить, а функции управления эксплуатацией и обслуживанием богаты и просты в использовании, что упрощает его использование и обслуживание.

i. Создание платформы больших данных на основе программного обеспечения Hadoop с открытым исходным кодом имеет длительный цикл, высокую техническую сложность, неполную поддержку разработки, эксплуатации и обслуживания, мониторинга и других инструментов, а также не может получить эффективную техническую поддержку, что требует больших инвестиций в трудозатраты. для поддержки и обслуживания.

ii. Tencent Cloud EMR позволяет быстро создать кластер одним щелчком мыши, а релизная версия полностью протестирована и проверена на совместимость; консоль предоставляет множество инструментов для эксплуатации, обслуживания и мониторинга из коробки, что значительно снижает затраты на использование, эксплуатацию и обслуживание; Кроме того, Tencent предоставляет профессиональную техническую поддержку, которая также может помочь клиентам быстро обнаружить и решить проблемы.

2) Вычислительные ресурсы могут использоваться гибко по требованию, данные могут храниться в слоях, а степень использования ресурсов высока.

i. Самостоятельно созданным платформам больших данных обычно необходимо заранее оценивать ресурсы серверов и делать определенные резервы для пиковых нагрузок в бизнесе, что приводит к низкому использованию ресурсов и очень негибкой реакции на резкие изменения спроса на вычисления.

ii. Tencent Cloud EMR поддерживает гибкое эластичное масштабирование. Ресурсы можно использовать по требованию, масштабирование можно выполнить за считанные минуты, а вычислительные ресурсы можно автоматически масштабировать в соответствии с меняющимися бизнес-нагрузками или периодами времени. Кроме того, ваши службы больших данных также могут быть развернуты в контейнерных службах; аспект хранения также поддерживает разделение архитектуры хранения и вычислений, которая может хранить данные в слоях, что значительно снижает стоимость хранения и вычислительных ресурсов для клиентов.

3) Компоненты с открытым исходным кодом постоянно совершенствуются и оптимизируются для достижения большей стабильности и производительности.

i. Платформы больших данных, созданные самостоятельно, обычно используют компоненты версии сообщества с открытым исходным кодом, поэтому проблемы совместимости и дефекты компонентов необходимо решать самостоятельно. Производительность также необходимо оптимизировать самостоятельно. Если вам нужно использовать новые версии компонентов от сообщества или передовые технологические стеки, стоимость сборки и тестирования будет высокой.

ii. Tencent Cloud EMR объединяет внутренний крупномасштабный практический опыт. Основные компоненты, такие как Hadoop, Hbase и т. д., представили версию Tianqiong Oteam, которая совместима с открытым исходным кодом и обеспечивает эффективное усиление стабильности. Кроме того, новые стеки технологий предоставляют множество полезных функций. Например, Iceberg поддерживает оптимизацию Z-Order, которая может повысить производительность на основе сцен более чем в 10 раз. Благодаря гибкой итерации облачных продуктов пользователи также могут легко создавать кластеры на основе последних стабильных версий компонентов сообщества и легко использовать новые технологии озерного хранилища в реальном времени, такие как StarRocks и Iceberg.

4) Комплексная стратегия защиты безопасности, облачная среда и данные более безопасны.

i. Самостоятельно созданная платформа больших данных должна создавать свои собственные возможности безопасности от нижнего уровня до уровня обслуживания. Она очень сложна, имеет неполный охват, неполные вспомогательные возможности аудита и содержит множество скрытых опасностей и рисков.

ii. Tencent Cloud EMR предоставляет полный набор простых в использовании возможностей защиты оборудования, сети, операционной системы и служб больших данных. Обеспечивает защиту хоста CVM и аварийные сигналы тревоги; поддерживает шифрование облачных дисков и шифрование COS хранилища объектов; сетевой уровень поддерживает управление изоляцией сети VPC и настройки групп сетевой безопасности; кластер поддерживает архитектуру безопасности Kerberos + LDAP, а аутентификация личности обеспечивает безопасность доступа к кластеру. и обеспечивает управление правами на данные на основе нескольких стратегий Ranger.

5) Беспрепятственное подключение к облачным экологическим службам и быстрое создание полных вспомогательных возможностей.

i. Самостоятельно создаваемые платформы для больших данных, такие как инструменты разработки данных и другие вспомогательные возможности, необходимо создавать самостоятельно, что является дорогостоящим и занимает много времени.

ii. Tencent Cloud EMR может легко и беспрепятственно подключаться к платформе разработки данных Wedata и продуктам анализа бизнес-аналитики, помогая клиентам снизить порог и быстро построить интеграцию данных, разработку данных, визуализацию данных и другие услуги. Кроме того, EMR также поддерживает периферийные сервисы, такие как облачный мониторинг и облачный аудит, помогая клиентам быстро построить корпоративную интеллектуальную экосистему в облаке.

3. Лучшие примеры самостоятельной миграции в облако

Случай 1. Некий руководитель отдела образования

【Информация о клиенте】

Этот клиент является лидером в области онлайн-образования в Китае. Он стремится использовать научные и технологические средства для продвижения инклюзивного образования. Он использует передовые технологии, такие как искусственный интеллект и большие данные, чтобы предоставить учащимся, учителям и родителям более эффективные услуги. решения для обучения и образования, а также интеллектуальные аппаратные продукты ждут.

[Основные болевые точки]

Прежде чем использовать услуги Tencent Cloud EMR, клиенты в основном применяют собственные методы CDH для поддержки собственных кластеров больших данных с открытым исходным кодом. Однако с бурным ростом бизнеса объем данных резко возрос. Чтобы удовлетворить требования своевременности в различных бизнес-сценариях, этот клиент пытался принять множество технических решений и постоянно расширял масштабы автономных кластеров. по-прежнему не могла полностью удовлетворить потребности бизнеса. Она построила собственную систему ульев на основе CDH. Основные отчеты не могут быть подготовлены вовремя, что серьезно влияет на работу по анализу данных и принятию бизнес-решений.

【Решение】

В ответ на основные требования клиентов к своевременности создания крупных автономных хранилищ данных и безопасности после миграции в облако эластичная система MapReduce от Tencent Cloud предлагает два решения:

Интегрированное решение для озер и складов:Управление озером данныхicebergВнедрение технологии,Уникальные возможности Iceberg в Тенсент ОблакоEMR,Помогите клиентам перенести системы отчетности петабайтного уровня на основе кустов в озеро данных Iceberg.,Производительность расчета отчета значительно улучшена после оптимизации Z-Order.,Повышение эффективности основной отчетности,В то же время всесторонне сократить расходы;

Единое решение по разрешениям:Ведение единой схемы разделения разрешений на хранение и учет,Возможности унифицированного управления полномочиями и контроля на основе продуктов,Повышение масштабируемости,В этом решении хранилище объектов (cos) используется в качестве ресурса для управления разрешениями.,Единое управление разрешениями,Решить проблему несогласованного управления и контроля разрешений;

[Эффект миграции]

Эффективность запросов на основе сценариев выросла в 10 раз:проходить Тенсент Облако Эластичный MapReduce Оптимизация функций Iceberg, ускорение кэширования, разделение хранилища и вычислений, интеллектуальное многоуровневое распределение и другие приложения повысили производительность запросов на основе сценариев почти в 10 раз. Кроме того, благодаря внешней функции Matastore Iceberg, предоставляемой Tencent Cloud EMR, стоимость преобразования метаданных клиента снижается, а доступ к метаданным Iceberg достигается практически с нулевым преобразованием.

Фиксированная вычислительная мощность уменьшена на 5000 ядер:проходитьEMRВычислительный узелэластичность Масштабирование、Облачные возможности, такие как автономное планирование ресурсов контейнера, позволяют избежать бесполезной траты простаивающих ресурсов.、Сокращение общих затрат.

Кейс 2. Главный заказчик инструментов в определенной отрасли.

【Информация о клиенте】

Ведущий китайский поставщик корпоративных облачных бизнес-решений и маркетинговых решений, а также ведущий поставщик услуг точного маркетинга в Китае. Чтобы лучше обслуживать собственные бизнес-сценарии клиентов, поиск, маркетинг, рекомендации и другие бизнес-сценарии, необходимо стабильное и высокопроизводительное решение для обработки больших данных.

[Основные болевые точки]

В связи с быстрым развитием бизнеса клиентов и резким увеличением объема данных платформа больших данных, изначально построенная на основе физических машин Blackstone + CDH, постепенно разработала новые бизнес-сценарии, такие как цикл расширения узла Blackstone длительный, версии компонентов CDH старые, небогат и не может покрыть недостатки озера данных. В то же время из-за большого количества компонентов кластера CDH и длительного среднего цикла устранения ошибок клиентам приходится вкладывать больше рабочей силы в эксплуатацию и обслуживание. Вообще говоря, чтобы поддержать быстрое развитие бизнеса, команда клиента по работе с большими данными должна инвестировать много средств и рабочей силы в расширение самостоятельно построенных кластеров, поддержку новых бизнес-сценариев, стабильность платформы, ее эксплуатацию и обслуживание.

【Решение】

Tencent Cloud EMR предоставляет возможности создания кластеров одним щелчком мыши для гибкого расширения и сжатия на уровне минут в часы пик. Он глубоко интегрирует компоненты кластерных вычислений и хранения для удовлетворения требований клиентов к мультитенантности и детальной авторизации на уровне таблиц и полей. возможности.

Возможность автоматического расширения и сжатия позволяет эластично масштабировать вычислительные узлы на основе двух стратегий: времени и нагрузки, чтобы удовлетворить потребности клиентов в ресурсах в различные периоды времени в сценариях автономного и специального анализа. Аутентификация входа в систему и возможности управления разрешениями индексирования на уровне полей документа обеспечивают надежную гарантию безопасного доступа к кластеру. Встроенная функция COS объектного хранилища упрощает резервное копирование. Возможность зоны множественной доступности обеспечивает кластеру защиту от аварийного восстановления в случае сбоев в работе городского энергоснабжения или сети.

[Эффект миграции]

Благодаря внедрению Tencent Cloud EMR эффективность доставки клиентских кластеров выросла в 10 раз.

Возможность эластичности кластера на минутном уровне помогает клиентам легко справляться с резким ростом трафика во время мероприятий.

Система безопасности Tencent Cloud EMR обеспечивает более надежную гарантию безопасности бизнеса и высокой доступности.

Друзья, заинтересованные в эластичном MapReduce, могут присоединиться к коммуникационной группе Tencent Cloud Big Data EMR.

Облако больших данных Коммуникационная группа TencentEMR
Облако больших данных Коммуникационная группа TencentEMR
boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose