Облачная платформа Ant для разработки хаоса с открытым исходным кодом

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Облачная платформа Ant для разработки хаоса с открытым исходным кодом — ChaosMeta

ChaosMeta Это облачная платформа для создания хаоса с открытым исходным кодом, созданная Ant Group. Он воплощает в себе методологии, технологии и продукты, которые Ant Group накопила за многие годы в практике крупномасштабных наступательных и оборонительных учений красных и синих на уровне компании. «Каталог рисков» (внутреннее руководство по сценариям общих рисков для технических компонентов в различных областях) служит теоретическим руководством в сочетании с технической практикой для защиты различных крупных рекламных мероприятий Ant Group на протяжении многих лет.

ChaosMeta Это платформа, предназначенная для поддержки всех этапов анализа неисправностей и охватывающая возможности платформы на нескольких этапах, такие как обнаружение доступа, внедрение трафика, внедрение ошибок, измерение ошибок, восстановление после сбоев и измерение восстановления. Повышая производительность пользователей, он также реализует будущую форму хаос-инжиниринга: автоматизированные тренировки одним щелчком мыши и даже интеллектуальные тренировки.

Основные преимущества

Простой и удобный в использовании, предоставляет пользовательский интерфейс, низкий порог использования.

Поддержка визуализациипользовательский интерфейс、Kubernetes API, командная строка, HTTP и другие методы использования.

Полностью проверено большим практическим опытом, высокая функциональная надежность.

Команда Ant Blue Army уже много лет активно участвует в индустрии хаос-инженерии. Ежегодно она проводит внутри компании крупномасштабные учения по атаке и обороне на уровне компании для всех подразделений компании, и многие предприятия также проводят их круглосуточно и без выходных. тренировки и ежемесячные обычные тренировки.

Типы объектов внутренних упражнений охватывают облачные продукты, Kubernetes, операторские приложения, базы данных (OceanBase, Etcd и т. д.), промежуточное программное обеспечение (очереди сообщений, распределенное планирование, центры конфигурации и т. д.), бизнес-приложения (приложения Java, приложения C++, приложения Golang).

Высокая гибкость для поддержки различных потребностей пользователей

Нужна ли пользователю полная платформа для проектирования хаоса?,Или вам просто нужны базовые возможности платформы, такие как удаленное внедрение, оркестровка и планирование?,Или даже просто хотите, чтобы в одиночной игре была возможность внесения исправлений.,Или Управление целевыми объектами в облаке и за его пределами и внесение ошибок,Существуют соответствующие решения по развертыванию, которые могут удовлетворить

Широкие возможности внедрения ошибок, облачная технология хаоса

Поскольку Ant Group придает большое значение наступательным и оборонительным учениям,,Содействие крупномасштабным и частым учениям.,что, в свою очередь, способствовало различнымизвозможность внесения дефекты строительства. А поскольку Ant имеет огромный масштаб внутренней инфраструктуры и низкую финансовую отказоустойчивость, у него очень высокие требования к стабильности такой инфраструктуры, как Kubernetes и промежуточное программное обеспечение. Поэтому Ant Chaos Engineering основан на Ant Chaos Engineering. Родное месторождение накопило относительно богатый потенциал разломов и опыт бурения.

Платформа обладает мощными функциями, поддерживает полный «жизненный цикл хаос-инжиниринга» и ориентирована на автоматизацию.

ChaosMeta охватывает возможности платформы на нескольких этапах, таких как обнаружение допуска, внедрение трафика, внедрение ошибок, измерение ошибок, восстановление после ошибок, измерение восстановления и т. д., и служит технической основой «автоматизированного проектирования хаоса».

Помимо поддержки возможностей платформы для процесса бурения, еще одной серьезной проблемой для автоматизированных буров является планирование экспериментов. В настоящее время трудно полностью полагаться на машины для автоматического проектирования. Однако мы можем систематически абстрагировать многократно используемый опыт и организовывать его в том. При проведении упражнений по хаос-инжинирингу на компонентах одного и того же типа мы можем быстро повторно использовать его. Это первоначальная цель каталога рисков.

ChaosMeta будет основана на «Жизненном цикле разработки хаоса» в качестве технической основы и «Каталоге рисков» в качестве теоретической основы.,выполнитьФизический осмотр в один кликизавтоматизация Функция обхода,Непосредственный вывод целевого показателя стабильности,Значительно освобождает пользователей от инвестиций в рабочую силу в хаос-инжиниринг.

Обзор архитектуры

Пользовательский уровень (Клиент)

Пользовательский уровень в основном состоит из chaosmeta-platform Он состоит из компонентов. Его основная задача — снизить порог пользователя и предоставить визуальный интерфейс для облегчения планирования, оркестрации, экспериментальной настройки, деталей экспериментальных записей и управления агентами (поды/узлы кластеров k8s, межкластерные объекты). и физические машины, отличные от k8s), /контейнеры и т. д.) и другие функции платформы.

Уровень двигателя (Двигатель)

Уровень механизма включает в себя основные возможности платформы ChaosMeta и реализацию некоторых облачных возможностей устранения ошибок, включая следующие компоненты:

chaosmeta-CRD：ChaosMeta Возможности платформы основаны на Operator В рамках этой структуры каждый тип возможностей имеет соответствующий CRD, а затем соответствующий Оператор контролирует состояние и выполняет соответствующие операции. Такие как возможность внесения неисправностейиз CRD для experiments.inject.chaosmeta.io И соответствует мониторингу operator для оператор хаосмета-инъекции. Таким образом, пользователи могут пройти Kubectl или Kubernetes-Client Создайте соответствующий CR Экземпляр для выполнения соответствующей функции;
chaosmeta-inject-operator：Отслеживать создание пользователейиз Связанные с внесением неисправностейиз CR Например, в цикле управления поместите кластер в CR Сравните фактическое состояние с желаемым, чтобы выполнить соответствующую логику внесения ошибок и поток состояний, и настройте фактическое состояние на желаемое. в соответствии с CR Типы сбоев, определенные экземпляром, выполняют разные операции. Например: если это сбой системного ресурса, вам необходимо. chaosmeta-daemonset или HTTP или Командный канал для дистанционного впрыска, если он облачный; родной тип неисправности будет зависеть от Kubernetes APIServer Выполняется внедрение, и если происходит сбой динамического допуска, будет сделан запрос. chaosmeta-webhook Обновить правила взлома и правила перехвата;
chaosmeta-webhook：каждый APIServer из API Все процедуры обработки должны пройти аутентификацию, аутентификацию и доступ, а этап доступа будет проходить через Mutating Admission Webhook (фальсификация) и Validating Admission Webhook Фаза (проверки), chaosmeta-webhook Правила сопоставления ресурсов будут обновлены в соответствии с определением ошибки, и пользователь будет Kubernetes Запросы на создание ресурсов могут быть перехвачены, изменены, задержаны, исключены и выполнены другие операции. Это полезно для Operator Применение и Kubernetes Сценарии детализации неисправностей, связанные с надежностью вашего собственного кластера, очень значимы.
chaosmeta-measure-operator：Используется для выполнения функции измерения.изкомпоненты,В основном используется в два этапа: измерение отказов и измерение восстановления. Измерение неисправностей является мерой эффективности внедрения неисправностей.,Метрика восстановления — это мера способности восстановления и эффективности защитной платформы. Измерительная Способность – это ключевая способность реализовать хаос, автоматизацию и интеллект. Например, ожидаемый эффект от неудачной тренировки заключается в том, что количество успешных запросов на определенную услугу упадет на 50%, а соответствующий уровень защиты, как ожидается, будет Станцию можно обнаружить за 5 минут и восстановить за 10 минут, а способ выполнения достигается за счет загрузки ЦП. Затем этап измерения неисправности должен найти неисправность по сравнению с Число успешных запросов на обслуживание до внедрения сократилось.50%измомент времени（Эффективная точка неисправности）。На этапе измерения восстановления необходимо найти соответствующие сигналы тревоги.изпроизводитьмомент времени（Точка обнаружения неисправности）,Также необходимо найти точку обнаружения неисправности и запросить успешную сумму для восстановления уровня воды и момент времени перед бурением (точка устранения неисправности). Наконец, был создан отчет об анализе этого упражнения.,Предоставьте области для улучшения защитной платформы.
chaosmeta-workflow-operator：Обеспечить оркестровку ошибокизспособность。потому чтодляв реальности,За исключением одного сценария отказа. Существует также большое количество сложных сценариев неисправностей и требований.,Это требует моделирования посредством последовательного и параллельного сочетания различных моделей. И оркестровка не останавливается на внесении ошибок.,Он также может включать в себя различные типы возможностей, такие как внедрение потока, обнаружение допуска ошибок, измерение ошибок, измерение восстановления и т. д. из узлов оркестровки.,Это также ключевая способность, позволяющая двигаться в сторону автоматизации.
chaosmeta-flow-operator：Это используется для выполненияпотокинъекцияизкомпоненты,В основном используется в имитационных целевых бизнес-изпотоках. Потому что мы проводили тренировку по устранению неисправностей,Для достижения эффекта неисправности часто требуется удовлетворение потока. Например, вы хотите активировать сигнал тревоги о задержке обслуживания для определенного бизнеса.,Тогда недостаточно только внести задержку в сеть этого бизнеса.,Если нет запроса потока,Соответствующая сигнализация мониторинга не сработает.

Ядро

Уровень ядра в основном включает в себя возможность использования одной машины. внесения неисправности реализации, в основном включают в себя chaosmetad компонент, который предоставляет резиденту HTTP Метод службы и метод выполнения командной строки также инкапсулируют соответствующие daemonset компоненты（chaosmeta-daemonset）。Гибкость для удовлетворения различных потребностейиз Платформа для упражнений。

Возможности текущей версии

Выпущена текущая версия: пользовательская. интерфейс、Двигатель планирования впрыска неисправностей、Механизм показателей、двигатель с впрыском потока、Инструменты для устранения неисправностей одиночной машины и другие компоненты

пользовательский интерфейс

Предоставление экспериментальных возможностей оркестровки,Понизить порог использования (текущая версия интерфейса не поддерживает узлы типа инъекции потока и типа измерения);
Предоставляет возможность внедрения и фильтрации удаленных целей внутри пода/узла кластера (в будущем интерфейс будет поддерживать цели за пределами кластера);
Предоставляет возможности управления пространством и может разделять данные и управлять ими по требованию;
Предоставьте систему управления разрешениями учетной записи.

возможность внесения неисправностей

Аномальные системные ресурсы: процессор, память, сеть, диск, процесс, файл и т. д.;
Исключение ресурсов ядра: fd, nproc и т. д.;
Динамическое внедрение JVM: задержка вызова функции, подделка возвращаемого значения функции, исключения выдачи функций и т. д.;
контейнер Винаинъекция：убийствоконтейнер、паузаконтейнер,контейнер ВнутриCPU、Память、сеть、диск、процесс、документ、Экспериментальные сценарии, такие как внедрение JVM;
Внедрение Kubernetes: выполняйте экспериментальные сценарии, такие как внедрение ЦП, памяти, сети, диска, процесса, файла, внедрение JVM в любой модуль;
облачный родной сбой: Аномальные ресурсы кластера, такие как большое количество ожидающих Накопление капсул, завершено Накопление заданий и т. д. и Deployment, Node, Pod и т. д. облачный родной Аномалии экземпляра ресурса, такие как расширение и сжатие копии экземпляра развертывания, внедрение финализатора экземпляра Pod и т. д.

Измерительная способность

монитор: сделать ожидаемое суждение о ценности объекта мониторинга, например, определенной машины. cpu Поддерживается ли значение мониторинга использования более 90 %, поддерживается по умолчанию. prometheus
капсула: да pod Соответствующие данные для вынесения ожидаемых суждений, например, определенное приложение. pod Превышает ли количество экземпляров 3
http: Да http Запрос на ожидаемое суждение, например, указание http При запросе возвращается ли код состояния для200
TCP: Да tcp Запрос ожидаемого решения, например проверка доступности порта 8080 определенного сервера.

Возможность введения трафика

http：http потокинъекция

Инструкция по применению

Быстро опробуйте возможности автономного внедрения

# Загрузите образ и запустите его
docker run --privileged -it registry.cn-hangzhou.aliyuncs.com/chaosmeta/chaosmetad-demo:v0.3.9 /bin/bash

# Запустить тестовый сервис
cd /tmp && python -m SimpleHTTPServer 8080 > server.log 2>&1 &
curl 127.0.0.1:8080

# Создайте эксперимент, добавьте сетевую задержку в 2 с на сетевую карту lo и автоматически восстановите ее через 10 минут.
chaosmetad inject network delay -i lo -l 2s --uid test-fg3g4 -t 10m

# Просмотр экспериментальной информации и результатов испытаний
chaosmetad query
curl 127.0.0.1:8080

# эксперимент по искусственному восстановлению
chaosmetad recover test-fg3g4

планирование

Будущее развитие возможностей платформы ChaosMeta разделено на три основных этапа.

Этап 1. Ручная настройка

Цель, которую необходимо достичь, — открыть все компоненты схемы архитектуры для внешнего мира. На данный момент она может поддерживать полный жизненный цикл проектирования хаоса и войти в область первичного автоматизированного проектирования хаоса, используя «каталог рисков». теоретическая справка, ручная настройка может быть выполнена после автоматического выполнения. Порядок открытия внешнему миру следующий (если у вас есть соответствующие потребности, вы можете подать заявку, и приоритетные корректировки будут рассмотрены):

[x] Инструмент для выявления неисправностей одной машины: chaosmetad
[x] Неисправность двигателя с дистанционным впрыском: chaosmeta-inject-operator
[x] Интерфейс платформы: chaosmeta-платформа
[x] Механизм оркестрации: chaosmeta-workflow-operator
[x] Механизм измерения: chaosmeta-measure-operator
[x] двигатель с впрыском потока：chaosmeta-flow-operator
[ ] Каталог рисков: Руководство по общим сценариям рисков для технических компонентов в различных областях.
[ ] облачный роднойдинамический приемвозможность внесения неисправностей：chaosmeta-webhook

Этап 2 – Автоматизация

На этом этапе «каталог рисков» будет играть большую роль. Он не только дает риски типа приложения, но также соответствующие предложения по предотвращению и чрезвычайным ситуациям, а также оценку каждого элемента, и ChaosMeta будет «Каталогом рисков». » интегрирован в пакет физического обследования рисков с общими компонентами, обеспечивающими возможность «физического обследования» одним щелчком мыши, ввод информации о целевом приложении и непосредственный вывод оценки риска и отчета об анализе риска.

Третий этап – интеллект

Изучите направления объединения искусственного интеллекта для автоматического создания большего количества неизвестных сценариев риска.

возможность внесения неисправностей

Следующее только для классификации возможностей отказа,Предоставить конкретныеиз原子Винаспособность Посмотреть подробности[Винаспособностьиллюстрировать]https://chaosmeta.gitbook.io/chaosmeta-cn/gong-neng-shi-yong-shuo-ming（Предложения приветствуютсяissue,Выдвинуть новые требования к возможностям,Те, у кого более высокий спрос, будут предоставлены в первую очередь):

Репозиторий Github: https://github.com/traas-stack/chaosmeta, ChaosMeta соответствует лицензии Apache 2.0.

Рекомендация

Категории

контейнер Открытый исходный код облачный родной автоматизация поток

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

Облачная платформа Ant для разработки хаоса с открытым исходным кодом — ChaosMeta

Основные преимущества

Простой и удобный в использовании, предоставляет пользовательский интерфейс, низкий порог использования.

Полностью проверено большим практическим опытом, высокая функциональная надежность.

Высокая гибкость для поддержки различных потребностей пользователей

Широкие возможности внедрения ошибок, облачная технология хаоса

Платформа обладает мощными функциями, поддерживает полный «жизненный цикл хаос-инжиниринга» и ориентирована на автоматизацию.

Обзор архитектуры

Пользовательский уровень (Клиент)

Уровень двигателя (Двигатель)

Ядро

Возможности текущей версии

пользовательский интерфейс

возможность внесения неисправностей

Измерительная способность

Возможность введения трафика

Инструкция по применению

Быстро опробуйте возможности автономного внедрения

планирование

Этап 1. Ручная настройка

Этап 2 – Автоматизация

Третий этап – интеллект

возможность внесения неисправностей

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose