механизм обновления и удаления данных elasticsearch

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Предисловие: Elasticsearch — это распределенная система поиска и анализа с открытым исходным кодом, которая обеспечивает хорошие возможности вставки данных и гибкий метод обновления данных. Далее следует большое количество документов, удаленных в результате операций обновления. В то же время многим пользователям необходимо удалить данные индекса elasticsearch по разным причинам при использовании elasticsearch. Также будет создано большое количество документов doc.deleted.

1. Почему elasticsearch генерирует документ doc.deleted при выполнении операции обновления;

1. Как elasticsearch обновляет данные.

Bulk: метод обновления массовой вставки.

POST _bulk
{ "index" : { "_index" : "test", "_id" : "1" } }
{ "field1" : "value1" }
{ "delete" : { "_index" : "test", "_id" : "2" } }
{ "create" : { "_index" : "test", "_id" : "3" } }
{ "field1" : "value3" }
{ "update" : {"_id" : "1", "_index" : "test"} }
{ "doc" : {"field2" : "value2"} }

обновление: точно обновить указанные данные на основе идентификатора.

POST /<index>/_update/<_id>

update_by_query: Сопоставьте и обновите данные в соответствии с указанными условиями запроса.

POST my-index-000001/_update_by_query?conflicts=proceed

2.Принцип обновления данных elasticsearch

Когда клиент инициирует операцию обновления, elasticsearch сначала найдет соответствующий документ на основе условий обновления (например: _id, переданный API обновления, или оператор сопоставления, переданный update_by_query). Elasticsearch использует уникальный идентификатор документа (_id) для поиска документа. Когда документ, который нужно обновить, найден, elasticsearch сначала пометит исходный старый документ как удаленный. Новый документ будет вставлен в индекс. Новый документ имеет тот же уникальный идентификатор (_id) для реализации операции обновления документа.

  @Override
    protected void searchToString(StringBuilder b) {
        super.searchToString(b);
        if (script != null) {
            b.append(" updated with ").append(script);
        }
    }

Кроме того, elasticsearch также предоставляет метод обновления сценария, когда клиент выполняет операции обновления.

Инициирование операции update_by_query будет реализовано через этот класс.

public class UpdateByQueryAction extends ActionType<BulkByScrollResponse> {
    public static final UpdateByQueryAction INSTANCE = new UpdateByQueryAction();
    public static final String NAME = "indices:data/write/update/byquery";

    private UpdateByQueryAction() {
        super(NAME, BulkByScrollResponse::new);
    }
}

В этом классе определен статический объект INSTANCE, представляющий одноэлементный экземпляр UpdateByQueryAction. В то же время определяется константа NAME, указывающая, что имя действия — «indices:data/write/update/byquery». В конструкторе вызывается конструктор super(NAME, BulkByScrollResponse::new) родительского класса. Здесь передаются имя действия и функция обратного вызова для создания объекта BulkByScrollResponse.

BulkByScrollResponse — это объект, возвращаемый после выполнения операции обновления. Включая время выполнения, статус выполнения и другую информацию.

Используйте этот конструктор в BulkByScrollResponse для пакетной прокрутки объектов операции.

 Получает следующие параметры:
-  took : Указывает время, затраченное на операцию. 
-  status : Указывает состояние задачи пакетной прокатки, которая BulkByScrollTask.Status объект. 
-  bulkFailures : представляет список неудачных пакетных операций. List<Failure> объект. 
-  searchFailures : представляет список неудачных поисков, List<ScrollableHitSource.SearchFailure> объект. 
-  timedOut : Указывает, истекло ли время ожидания операции.

 private TimeValue took;
 private BulkByScrollTask.Status status;
 private List<Failure> bulkFailures;
 private List<ScrollableHitSource.SearchFailure> searchFailures;
 private boolean timedOut;
 private static final String TOOK_FIELD = "took";
 private static final String TIMED_OUT_FIELD = "timed_out";
 private static final String FAILURES_FIELD = "failures";
 public BulkByScrollResponse(
        TimeValue took,
        BulkByScrollTask.Status status,
        List<Failure> bulkFailures,
        List<ScrollableHitSource.SearchFailure> searchFailures,
        boolean timedOut
    ) {
        this.took = took;
        this.status = requireNonNull(status, "Null status not supported");
        this.bulkFailures = bulkFailures;
        this.searchFailures = searchFailures;
        this.timedOut = timedOut;
    }
 public BulkByScrollResponse(Iterable<BulkByScrollResponse> toMerge, @Nullable String reasonCancelled) {
        long mergedTook = 0;
        List<BulkByScrollTask.StatusOrException> statuses = new ArrayList<>();
        bulkFailures = new ArrayList<>();
        searchFailures = new ArrayList<>();
        for (BulkByScrollResponse response : toMerge) {
            mergedTook = max(mergedTook, response.getTook().nanos());
            statuses.add(new BulkByScrollTask.StatusOrException(response.status));
            bulkFailures.addAll(response.getBulkFailures());
            searchFailures.addAll(response.getSearchFailures());
            timedOut |= response.isTimedOut();
        }
        took = timeValueNanos(mergedTook);
        status = new BulkByScrollTask.Status(statuses, reasonCancelled);
    }

Конкретные шаги обновления:

Сначала клиент отправляет запрос на обновление узлу Elasticsearch. Запрос содержит индекс, тип и уникальный идентификатор (_id) обновляемого документа, а также обновляемые поля и их новые значения.
Когда узел Elasticsearch получает запрос на обновление, он направляет запрос на узел, содержащий сегмент, содержащий обновляемый документ.
На уровне сегмента Elasticsearch сначала считывает обновляемый документ с диска и загружает его в память.
Далее Elasticsearch обновляет значения полей документа в памяти. Обычно это включает в себя синтаксический анализ и обработку полей и значений в запросе на обновление и применение их к документу.
Обновленные документы записываются обратно на диск для обеспечения постоянного хранения. Обычно это предполагает сериализацию документа в сохраняемый формат (например, JSON или двоичный формат) и запись его в соответствующий файл данных на диске.
Когда операция обновления завершится, elasticsearch отправит ответ клиенту, чтобы уведомить о результате операции обновления.

2. Удаление данных в elasticsearch

1. Метод удаления данных эластичного поиска

Удалить индекс

Преимущества: Можно сразу освободить место на диске.

Недостаток: все данные во всем индексе будут удалены. Необходимость удаления только части данных удовлетворить невозможно.

delete_by_query

Преимущества: Гибкая работа, возможность удаления определенных данных в зависимости от входящих условий.

Недостатки: Процесс удаления метки занимает много времени и дисковое пространство освобождается медленно. Этот метод можно использовать для удаления данных, когда на диске достаточно места.

2.Принцип delete_by_query для удаления данных

При выполнении операции удаления elasticsearch найдет документ, который нам нужно удалить, на основе переданных нами условий (например: _id, переданный с помощью API-интерфейса удаления, или оператор сопоставления, переданный в delete_by_query). Документы для удаления затем помечаются как удаленные, и документы не удаляются с диска сразу после пометки. Это необходимо для повышения производительности и предотвращения потери данных. Документы, помеченные как удаленные, все еще существуют в индексе, но отфильтровываются при поиске и запросах. Впоследствии elasticsearch автоматически объединит сегменты документов, помеченные для удаления.

public class DeleteByQueryAction extends ActionType<BulkByScrollResponse> { 
    public static final DeleteByQueryAction INSTANCE = new DeleteByQueryAction(); 
    public static final String NAME = "indices:data/write/delete/byquery"; 
    private DeleteByQueryAction() { 
        super(NAME, BulkByScrollResponse::new); 
    } 
}

Когда elasticsearch выполняет действие удаления, он также определяет статический объект INSTANCE, представляющий одноэлементный экземпляр «DeleteByQueryAction». В то же время определяется константа `NAME`, указывающая, что имя действия — «indexes:data/write/delete/byquery».

В конструкторе вызывается конструктор родительского класса super(NAME, BulkByScrollResponse::new)`. Здесь передаются имя действия и функция обратного вызова для создания объекта BulkByScrollResponse.

Общая информация, возвращаемая BulkByScrollResponse, в основном такая же, как описано ранее.

Стоит отметить, что операции обновления и удаления генерируют большое количество doc.deleted. Мы обнаружим интересное явление.

Когда выполняется большое количество операций обновления, использование диска нашим кластером эластичного поиска в определенной степени увеличится. Через определенный период времени использование диска уменьшится и станет соответствовать использованию диска до операции обновления данных.

Аналогичным образом, часто, когда мы удаляем данные с помощью delete_by_query, мы наблюдаем за использованием диска кластером и обнаруживаем, что использование диска не падает сразу, а постепенно снижается очень медленно.

Это связано с тем, что в elasticsearch, когда документ помечается как удаленный, elasticsearch выполняет операцию слияния (также называемую объединением сегментов).

О том, как elasticsearch объединит сгенерированный документ doc.deleted после операции обновления и какие проблемы могут возникнуть в процессе слияния, мы обсудим в последующих статьях.

я участвуюНа третьем этапе специального тренировочного лагеря Tencent Technology Creation 2023 года будет проводиться конкурс сочинений. Соберите команду, чтобы выиграть приз!

Рекомендация

Категории

Elasticsearch Service

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

механизм обновления и удаления данных elasticsearch

1. Почему elasticsearch генерирует документ doc.deleted при выполнении операции обновления;

1. Как elasticsearch обновляет данные.

2.Принцип обновления данных elasticsearch

2. Удаление данных в elasticsearch

1. Метод удаления данных эластичного поиска

2.Принцип delete_by_query для удаления данных

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

механизм обновления и удаления данных elasticsearch

1. Почему elasticsearch генерирует документ doc.deleted при выполнении операции обновления;

1. Как elasticsearch обновляет данные.

2.Принцип обновления данных elasticsearch

2. Удаление данных в elasticsearch

1. Метод удаления данных эластичного поиска

2.Принцип delete_by_query для удаления данных

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose