механизм обновления и удаления данных elasticsearch
механизм обновления и удаления данных elasticsearch

Предисловие: Elasticsearch — это распределенная система поиска и анализа с открытым исходным кодом, которая обеспечивает хорошие возможности вставки данных и гибкий метод обновления данных. Далее следует большое количество документов, удаленных в результате операций обновления. В то же время многим пользователям необходимо удалить данные индекса elasticsearch по разным причинам при использовании elasticsearch. Также будет создано большое количество документов doc.deleted.

1. Почему elasticsearch генерирует документ doc.deleted при выполнении операции обновления;

1. Как elasticsearch обновляет данные.

Bulk: метод обновления массовой вставки.

Язык кода:javascript
копировать
POST _bulk
{ "index" : { "_index" : "test", "_id" : "1" } }
{ "field1" : "value1" }
{ "delete" : { "_index" : "test", "_id" : "2" } }
{ "create" : { "_index" : "test", "_id" : "3" } }
{ "field1" : "value3" }
{ "update" : {"_id" : "1", "_index" : "test"} }
{ "doc" : {"field2" : "value2"} }

обновление: точно обновить указанные данные на основе идентификатора.

Язык кода:javascript
копировать
POST /<index>/_update/<_id>

update_by_query: Сопоставьте и обновите данные в соответствии с указанными условиями запроса.

Язык кода:javascript
копировать
POST my-index-000001/_update_by_query?conflicts=proceed

2.Принцип обновления данных elasticsearch

Когда клиент инициирует операцию обновления, elasticsearch сначала найдет соответствующий документ на основе условий обновления (например: _id, переданный API обновления, или оператор сопоставления, переданный update_by_query). Elasticsearch использует уникальный идентификатор документа (_id) для поиска документа. Когда документ, который нужно обновить, найден, elasticsearch сначала пометит исходный старый документ как удаленный. Новый документ будет вставлен в индекс. Новый документ имеет тот же уникальный идентификатор (_id) для реализации операции обновления документа.

Язык кода:javascript
копировать
  @Override
    protected void searchToString(StringBuilder b) {
        super.searchToString(b);
        if (script != null) {
            b.append(" updated with ").append(script);
        }
    }

Кроме того, elasticsearch также предоставляет метод обновления сценария, когда клиент выполняет операции обновления.

Инициирование операции update_by_query будет реализовано через этот класс.

Язык кода:javascript
копировать
public class UpdateByQueryAction extends ActionType<BulkByScrollResponse> {
    public static final UpdateByQueryAction INSTANCE = new UpdateByQueryAction();
    public static final String NAME = "indices:data/write/update/byquery";

    private UpdateByQueryAction() {
        super(NAME, BulkByScrollResponse::new);
    }
}

В этом классе определен статический объект INSTANCE, представляющий одноэлементный экземпляр UpdateByQueryAction. В то же время определяется константа NAME, указывающая, что имя действия — «indices:data/write/update/byquery». В конструкторе вызывается конструктор super(NAME, BulkByScrollResponse::new) родительского класса. Здесь передаются имя действия и функция обратного вызова для создания объекта BulkByScrollResponse.

BulkByScrollResponse — это объект, возвращаемый после выполнения операции обновления. Включая время выполнения, статус выполнения и другую информацию.

Используйте этот конструктор в BulkByScrollResponse для пакетной прокрутки объектов операции.

Язык кода:javascript
копировать
 Получает следующие параметры:
-  took : Указывает время, затраченное на операцию. 
-  status : Указывает состояние задачи пакетной прокатки, которая BulkByScrollTask.Status объект. 
-  bulkFailures : представляет список неудачных пакетных операций. List<Failure> объект. 
-  searchFailures : представляет список неудачных поисков, List<ScrollableHitSource.SearchFailure> объект. 
-  timedOut : Указывает, истекло ли время ожидания операции. 

Язык кода:java
копировать
 private TimeValue took;
 private BulkByScrollTask.Status status;
 private List<Failure> bulkFailures;
 private List<ScrollableHitSource.SearchFailure> searchFailures;
 private boolean timedOut;
 private static final String TOOK_FIELD = "took";
 private static final String TIMED_OUT_FIELD = "timed_out";
 private static final String FAILURES_FIELD = "failures";
 public BulkByScrollResponse(
        TimeValue took,
        BulkByScrollTask.Status status,
        List<Failure> bulkFailures,
        List<ScrollableHitSource.SearchFailure> searchFailures,
        boolean timedOut
    ) {
        this.took = took;
        this.status = requireNonNull(status, "Null status not supported");
        this.bulkFailures = bulkFailures;
        this.searchFailures = searchFailures;
        this.timedOut = timedOut;
    }
 public BulkByScrollResponse(Iterable<BulkByScrollResponse> toMerge, @Nullable String reasonCancelled) {
        long mergedTook = 0;
        List<BulkByScrollTask.StatusOrException> statuses = new ArrayList<>();
        bulkFailures = new ArrayList<>();
        searchFailures = new ArrayList<>();
        for (BulkByScrollResponse response : toMerge) {
            mergedTook = max(mergedTook, response.getTook().nanos());
            statuses.add(new BulkByScrollTask.StatusOrException(response.status));
            bulkFailures.addAll(response.getBulkFailures());
            searchFailures.addAll(response.getSearchFailures());
            timedOut |= response.isTimedOut();
        }
        took = timeValueNanos(mergedTook);
        status = new BulkByScrollTask.Status(statuses, reasonCancelled);
    }

Конкретные шаги обновления:

  1. Сначала клиент отправляет запрос на обновление узлу Elasticsearch. Запрос содержит индекс, тип и уникальный идентификатор (_id) обновляемого документа, а также обновляемые поля и их новые значения.
  2. Когда узел Elasticsearch получает запрос на обновление, он направляет запрос на узел, содержащий сегмент, содержащий обновляемый документ.
  3. На уровне сегмента Elasticsearch сначала считывает обновляемый документ с диска и загружает его в память.
  4. Далее Elasticsearch обновляет значения полей документа в памяти. Обычно это включает в себя синтаксический анализ и обработку полей и значений в запросе на обновление и применение их к документу.
  5. Обновленные документы записываются обратно на диск для обеспечения постоянного хранения. Обычно это предполагает сериализацию документа в сохраняемый формат (например, JSON или двоичный формат) и запись его в соответствующий файл данных на диске.
  6. Когда операция обновления завершится, elasticsearch отправит ответ клиенту, чтобы уведомить о результате операции обновления.

2. Удаление данных в elasticsearch

1. Метод удаления данных эластичного поиска

  • Удалить индекс

Преимущества: Можно сразу освободить место на диске.

Недостаток: все данные во всем индексе будут удалены. Необходимость удаления только части данных удовлетворить невозможно.

  • delete_by_query

Преимущества: Гибкая работа, возможность удаления определенных данных в зависимости от входящих условий.

Недостатки: Процесс удаления метки занимает много времени и дисковое пространство освобождается медленно. Этот метод можно использовать для удаления данных, когда на диске достаточно места.

2.Принцип delete_by_query для удаления данных

При выполнении операции удаления elasticsearch найдет документ, который нам нужно удалить, на основе переданных нами условий (например: _id, переданный с помощью API-интерфейса удаления, или оператор сопоставления, переданный в delete_by_query). Документы для удаления затем помечаются как удаленные, и документы не удаляются с диска сразу после пометки. Это необходимо для повышения производительности и предотвращения потери данных. Документы, помеченные как удаленные, все еще существуют в индексе, но отфильтровываются при поиске и запросах. Впоследствии elasticsearch автоматически объединит сегменты документов, помеченные для удаления.

Язык кода:javascript
копировать
public class DeleteByQueryAction extends ActionType<BulkByScrollResponse> { 
    public static final DeleteByQueryAction INSTANCE = new DeleteByQueryAction(); 
    public static final String NAME = "indices:data/write/delete/byquery"; 
    private DeleteByQueryAction() { 
        super(NAME, BulkByScrollResponse::new); 
    } 
}

Когда elasticsearch выполняет действие удаления, он также определяет статический объект INSTANCE, представляющий одноэлементный экземпляр «DeleteByQueryAction». В то же время определяется константа `NAME`, указывающая, что имя действия — «indexes:data/write/delete/byquery».

В конструкторе вызывается конструктор родительского класса super(NAME, BulkByScrollResponse::new)`. Здесь передаются имя действия и функция обратного вызова для создания объекта BulkByScrollResponse.

Общая информация, возвращаемая BulkByScrollResponse, в основном такая же, как описано ранее.

Стоит отметить, что операции обновления и удаления генерируют большое количество doc.deleted. Мы обнаружим интересное явление.

Когда выполняется большое количество операций обновления, использование диска нашим кластером эластичного поиска в определенной степени увеличится. Через определенный период времени использование диска уменьшится и станет соответствовать использованию диска до операции обновления данных.

Аналогичным образом, часто, когда мы удаляем данные с помощью delete_by_query, мы наблюдаем за использованием диска кластером и обнаруживаем, что использование диска не падает сразу, а постепенно снижается очень медленно.

Это связано с тем, что в elasticsearch, когда документ помечается как удаленный, elasticsearch выполняет операцию слияния (также называемую объединением сегментов).

О том, как elasticsearch объединит сгенерированный документ doc.deleted после операции обновления и какие проблемы могут возникнуть в процессе слияния, мы обсудим в последующих статьях.

я участвуюНа третьем этапе специального тренировочного лагеря Tencent Technology Creation 2023 года будет проводиться конкурс сочинений. Соберите команду, чтобы выиграть приз!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose