Всем привет, мы снова встретились, я ваш друг Цюаньчжаньцзюнь.
Предисловие: Сейчасбольшие данныеТакой популярный, такой активныйтестперсонал, как нам проводить крупномасштабныеданныетест-тест? Какие тестовые способности необходимы?
Первый шаг в тестировании больших данных, также называемый этапом перед Hadoop, включает в себя следующие проверки: 1. Ресурсы данных должны быть проверены со всех сторон, чтобы гарантировать загрузку правильных данных в систему. 2. Сравните исходные данные с данными, отправленными в систему Hadoop, чтобы убедиться, что они совпадают. 3. Убедитесь, что правильные данные извлечены и загружены в правильное место в HDFS. На этом этапе вы можете использовать инструменты Talend или Datameer для проверки уровня данных.
Вторым шагом в тестировании больших данных является проверка MapReduce. На этом этапе тестер выполняет проверку бизнес-логики на каждом узле, а затем проверяет их после запуска нескольких узлов, чтобы убедиться в корректности следующих операций: 1. Процессы Map и Reduc работают нормально. 2. Реализация правил агрегирования или изоляции данных. 3. Сгенерируйте пары ключ-значение 4. Проверьте данные после выполнения процессов Map и сокращения.
Заключительный или третий этап тестирования больших данных — это процесс проверки результатов. Создавайте файлы выходных данных и перемещайте их в EDW (хранилище корпоративных данных) или любую другую систему по требованию. Мероприятия на этапе 3 включают в себя: 1. Проверьте правильность применения правил преобразования. 2. Проверьте целостность данных и успешную загрузку данных в целевую систему. 3. Убедитесь, что данные не повреждены, сравнив целевые данные с данными файловой системы HDFS.
Hadoop обрабатывает большие объемы данных и требует больших ресурсов. Таким образом, архитектурное тестирование имеет решающее значение для обеспечения успеха вашего проекта по работе с большими данными. Неправильная или неправильная конструкция системы может привести к ухудшению производительности и несоответствию системы требованиям. Как минимум, тестирование производительности и отказоустойчивости сервисов должно проводиться в среде Hadoop.
Тестирование производительности включает в себя тестирование времени выполнения заданий, использования памяти, пропускной способности данных и аналогичных системных показателей. Целью службы тестирования аварийного переключения является проверка бесперебойности обработки данных в случае сбоя узла данных.
Тестирование производительности больших данных включает в себя два основных действия. Сбор данных и общий процесс. На этом этапе тестировщики проверяют, как быстрая система использует данные из различных источников данных. Тестирование включает в себя определение различных сообщений, которые очередь может обработать в течение заданного периода времени. Здесь также рассказывается, как быстро вставлять данные в базовые хранилища данных, например в базы данных Mongo и Cassandra.
Обработка данных: включает проверку скорости выполнения запроса или задания по уменьшению карты. Это также включает в себя независимое тестирование обработки данных, поскольку базовое хранилище данных заполняет набор данных. Например, запуск задания Map сокращения на базовой HDFS.
Производительность подкомпонентов: эти системы состоят из нескольких компонентов, и каждый компонент должен тестироваться индивидуально. Например, насколько быстро индексируются и используются сообщения, задания Mapreduce, производительность запросов, поиск и т. д.
Тестирование производительности приложений с большими данными включает в себя тестирование больших объемов структурированных и неструктурированных данных, и для проверки этих огромных объемов данных требуются специальные методы тестирования.
1. Процесс начинается с создания кластера больших данных, на котором будет проверяться производительность. 2. Определите и спланируйте соответствующую рабочую нагрузку. 3. Подготовка индивидуальных клиентов (создание индивидуального сценария) 4. Выполнить тест и проанализировать результаты (если цели не достигнуты, откорректировать компонент и выполнить повторно) 5. Оптимальная конфигурация (параметры для тестирования производительности)
1. Хранение данных: как данные хранятся в разных узлах 2. Журнал коммитов: до какого размера может увеличиваться журнал коммитов? 3. Параллелизм: сколько потоков могут выполнять операции записи и чтения. 4. Кэш: настройте параметры кэша «кэш строк» и «кэш ключей». 5. Тайм-аут: значение тайм-аута соединения, значение тайм-аута запроса и т. д. 6. Параметры JVM: размер кучи, алгоритм сбора мусора и т. д. 7. Карты снижают производительность: сортировка, объединение и т.д. 8. Очередь сообщений: скорость сообщений, размер и т. д.
Требования к тестовой среде зависят от типа тестируемого приложения. Для тестирования больших данных тестовая среда должна содержать 1. Должно быть достаточно места для хранения и обработки больших объемов данных. 2. Он должен иметь кластер распределенных узлов и данных. 3. Он должен иметь минимальную загрузку ЦП и памяти для поддержания высокой производительности.
Автоматизированное тестирование больших данных требует людей с техническими знаниями. Кроме того, автоматизированные инструменты не способны справиться с непредвиденными проблемами, возникающими во время тестирования.
Это неотъемлемый этап тестирования. Задержка виртуальной машины может вызвать проблемы с синхронизацией при тестировании больших данных в реальном времени. Управление изображениями в больших данных также представляет собой проблему.
1. Необходимо проверить больше данных, и сделать это нужно быстрее. 2. Нужна работа по автоматизированному тестированию. 3. Необходимо иметь возможность тестировать на разных платформах.
1. Несколько комбинаций технологий. Каждый подкомпонент относится к отдельной технологии и требует отдельного тестирования. 2. Недоступность конкретных инструментов. Ни один инструмент не может выполнить сквозное тестирование. Например, NoSQL может не подойти для очередей сообщений. 3. Тестовые сценарии. Для разработки тестовых сценариев и тестовых примеров требуется высокий уровень написания сценариев. 4. Тестовая среда: большой объем данных требует специальной тестовой среды. 5. Решения для мониторинга: существуют ограниченные решения, которые могут контролировать всю среду. 6. Диагностические решения: необходимы индивидуальные решения, чтобы получить представление об узких местах производительности.
Связанныйбольшие данные Ссылка для скачивания ресурса:Загрузка данных Ресурсы включают в себя:
Издатель: Full stack программист и руководитель стека, укажите источник для перепечатки: https://javaforall.cn/136096.html Исходная ссылка: https://javaforall.cn