Вопросы для интервью по большим данным V3.0, 523 вопроса, 779 страниц, 460 000 слов
Вопросы для интервью по большим данным V3.0, 523 вопроса, 779 страниц, 460 000 слов

Привет всем, это Су Ран~ Вопросы для интервью по большим данным Версия 3.0 завершена. Всего 523 вопроса, 779 страниц и более 460 000 слов, взятых из более чем 870 интервью Ниуке.

Ниже приводится краткое введение в общее содержание этой версии вопросов для собеседования, которая в основном разделена на следующие части:

Вопросы для собеседования по Hadoop: 100

Вопросы для собеседования с работником зоопарка: 21

Вопросы для собеседования: 47

Вопросы для интервью Flume: 11

Вопросы для интервью с Кафкой: от 59 до

Вопросы для собеседования HBase: 36

Вопросы для интервью Spark: 97

Вопросы для интервью Флинку: 40 вопросов

Вопросы для собеседования по хранилищу данных: 25 вопросов

Комплексных вопросов на собеседовании: 43

Вопросы для собеседования по базе данных (MySQL): 44 вопроса.

Всего 523 вопроса

1. Вопросы для собеседования по Hadoop

Основы Hadoop
  1. Знакомство с Hadoop
  2. Особенности Хадупа
  3. Давайте поговорим о компонентах экосистемы Hadoop и их функциях.
  4. Каковы основные части Hadoop? Каковы их функции?
  5. Разница между Hadoop 1.x, 2x, 3.x
  6. Какие процессы запускаются при работе кластера Hadoop? Каковы их функции?
  7. Каковы основные узкие места кластера в кластерных вычислениях?
  8. Какие XML-файлы используются для создания кластера Hadoop?
  9. Процесс контрольной точки Hadoop
  10. Каков размер блока Hadoop по умолчанию? Почему он установлен таким большим?
  11. Причины разделения блоков
  12. Общие алгоритмы сжатия в Hadoop?
  13. Каков процесс отправки заданий Hadoop в YARN?
  14. Роль объединителя Hadoop
  15. Сериализация и десериализация Hadoop
  16. Режим работы Hadoop
  17. Проблема с обработкой небольших файлов Hadoop
  18. Почему Hadoop следует обновить с 2.x до 3.x?
  19. Преимущества и недостатки Hadoop
часть HDFS
  1. Процесс записи и чтения файлов HDFS
  2. Архитектура композиции HDFS
  3. Познакомьтесь с HDFS, расскажите о преимуществах и недостатках HDFS, а также сценариях использования.
  4. Действие HDFS
  5. Механизм отказоустойчивости HDFS
  6. Механизм хранения HDFS
  7. Механизм копирования HDFS
  8. Общие форматы данных HDFS, каковы сходства и различия между форматом столбчатого хранения и форматом хранения строк и каковы преимущества столбчатого хранения?
  9. Как HDFS гарантирует, что данные не будут потеряны?
  10. Как реализовать высокую доступность HDFS NameNode Какие роли необходимы?
  11. Файловая структура HDFS?
  12. Каково количество реплик по умолчанию в HDFS? Почему это число? Если вы хотите изменить количество реплик, как его изменить?
  13. Представляем блок HDFS
  14. В какой версии были изменены размеры блока HDFS по умолчанию — 64 МБ и 128 МБ. Как изменить размер блока по умолчанию?
  15. Почему HDFS блокирует 128M? Каково влияние увеличения или уменьшения?
  16. Как реализован HDFS HA? Какова его архитектура?
  17. Как настроить шардинг при импорте больших файлов в HDFS?
  18. Как определить количество картографов и редукторов в HDFS? На чем основано количество редукторов?
  19. HDSF использует этот средний компонент для хранения данных.
  20. Как перенести данные между узлами HDFS
  21. Как гарантируется целостность данных HDFS?
  22. Как HDFS обеспечивает безопасность данных
  23. Что делать, если в HDFS не удается записать данные в DataNode
  24. Снимок Hadoop2.xHDFS
  25. Как хранятся файлы HDFS?
  26. Процесс записи данных HDFS, какие бывают ошибки в процессе записи и как с ними бороться?
  27. Хранит ли NameNode данные?
  28. Преимущества использования NameNode
  29. Как DataNode хранит данные в HDFS
  30. Непосредственно загрузите файл данных в каталог таблицы HDFS. Как запросить данные в таблице?
MapReduce часть
  1. Представляем MapReduce
  2. MapReduce преимущества и недостатки
  3. MapReduce архитектура
  4. Как работает MapReduce
  5. Какой этап MapReduce занимает больше всего времени?
  6. Что делает объединение в MapReduce? Какова его польза?
  7. Почему MapReduce должен иметь кольцевой буфер
  8. Почему MapReduce должен иметь процесс Shuffle
  9. Процесс MapReduce Shuffle и его оптимизация
  10. Как Редукция узнает, куда извлечь набор результатов Map?
  11. Что произошло на этапе сокращения? Есть ли какая-либо группировка?
  12. Алгоритм сортировки MapReduce Shuffle
  13. Почему перемешивание необходимо сортировать?
  14. Подскажите, как карту удается уменьшить?
  15. Расскажите, какие механизмы тасования вы знаете?
  16. Процесс обработки данных MapReduce
  17. Принцип (реализация) сценариев приложения?
  18. Как выполнить сокращение соединения (принцип)
  19. Почему MapReduce не может создавать слишком много маленьких файлов
  20. Разделение MapReduce и его функции
  21. Взаимосвязь между количеством Редуктор Таскс и количеством разделов
  22. Насколько велики фрагменты карты?
  23. Процесс соединения MapReduce между двумя таблицами?
  24. Разобрать простую программу MapReduce вручную
  25. Когда запускается задача сокращения?
  26. Какая сортировка позволяет сократить использование MapReduce?
  27. Как MapReduce определяет количество MapTasks?
  28. Что определяет количество карт?
  29. Как выбрать сборщик мусора ivm для процесса карты MapReduce и процесса редуктора, чтобы повысить пропускную способность?
  30. Разделение номера задачи MapReduce
  31. Где будут храниться промежуточные данные во время выполнения задания MapReduce? Не будут ли они храниться в памяти?
  32. После выполнения комбайнера на стороне Mapper, помимо увеличения скорости, как изменится объем данных со стороны Mapper на сторону Reduece?
  33. Когда данные, выводимые картой, превышают ее небольшую файловую память, они сохраняются на диске или в HDFS?
  34. Каков механизм разделения по умолчанию в Map to уменьшает?
  35. Опишите MapReduce с количеством слов, конкретными процессами, как сделать карту, как сделать сокращение.
  36. Причины и решения искажения данных MapReduce
  37. Почему Map Join может решить проблему перекоса данных
  38. OOM возникает во время операции MapReduce. Где происходит OOM?
  39. Сколько раз MapReduce использует сортировку? Что это такое?
  40. Метод сжатия MapReduce
  41. Как обработать большой файл в MapReduce
ПРЯЖА часть
  1. Представляем ПРЯЖУ
  2. YARN имеет несколько модулей.
  3. Рабочий механизм ПРЯЖИ
  4. В чем преимущества YARN и какие проблемы она может решить?
  5. Механизм отказоустойчивости YARN
  6. ПРЯЖА высокая доступность
  7. Планировщик пряжи
  8. Как запускается контейнер в YARN?
  9. Каковы улучшения YARN, Hadoop 3.x по сравнению с Hadoop 2.x?
  10. ПРЯЖА мониторинг

2. Вопросы для собеседования с работником зоопарка

  1. Представьте, что такое Zookeeper?
  2. Что делает Zookeeper? Каковы его преимущества и недостатки? Каковы сценарии его применения?
  3. Избирательная стратегия Zookeeper: в чем разница между лидером и последователем?
  4. Представляем алгоритм выборов Zookeeper
  5. Каковы типы узлов Zookeeper? Каковы их функции?
  6. Как лучше настроить количество узлов Zookeeper?
  7. Архитектура зоопарка
  8. Каковы функции Zookeeper?
  9. Структура данных Zookeeper (дерево)? Распределенные блокировки, реализованные на ее основе? Выбор мастера на ее основе? Управление кластером на ее основе? Сценарии использования механизма регистрации (наблюдения) Zookeeper?
  10. Представляем функцию публикации и подписки сообщений Zookeeper
  11. Как Zookeeper реализует распределенные блокировки?
  12. Как Zookeeper обеспечивает согласованность?
  13. Заб-протокол Zookeeper (протокол атомного вещания)?
  14. На каком алгоритме основан процесс ZAB?
  15. Механизм уведомления Zookeeper
  16. У смотрителя зоопарка проблема с расщеплением мозга
  17. Алгоритм Paxos Zookeeper
  18. Каковы протоколы Zookeeper?
  19. Как Zookeeper обеспечивает согласованность данных?
  20. Где хранятся данные Zookeeper?
  21. Как расширить ZooKeeper с трех до семи?

3. Вопросы для собеседования

  1. Расскажите, почему вам следует использовать Hive? Каковы преимущества и недостатки Hive? Какова функция Hive?
  2. Что такое Hive? Чем оно отличается от хранилища данных?
  3. Архитектура улья
  4. В чем разница между внутренними таблицами Hive и внешними таблицами?
  5. Почему при удалении внутренней таблицы удаляются все данные, а при удалении внешней таблицы удаляется только структура таблицы. Почему лучше использовать внешнюю таблицу?
  6. Оператор создания таблицы Hive Какой разделитель используется при создании таблицы?
  7. Что удаляет оператор удаления Hive из внешней таблицы?
  8. Изменение данных Hive и решения
  9. Если Hive не использует настройку параметров, что ему делать на карте и уменьшать стороны?
  10. Шаги и процессы реализации пользовательских функций Hive
  11. Каковы три пользовательские функции Hive? Каковы их функции?
  12. В чем разница между кластеризацией Hive, сортировкой по распределению и упорядочиванием?
  13. Разница между секционированием Hive и сегментированием
  14. Процесс выполнения улья
  15. Каков процесс преобразования Hive SQL в MR?
  16. Обработка оптимизации Hive SQL
  17. Механизм хранения и вычислительный механизм Hive
  18. Какие форматы хранения файлов использует Hive?
  19. Как настроить количество картографов и редукторов в Hive
  20. Давайте представим известные нам оконные функции Hive и приведем несколько примеров.
  21. Как использовать счетчик Hive
  22. Разница между союзом Hive и Unionall
  23. Принцип работы соединения Hive: каковы сходства и различия между левым соединением, правым соединением, внутренним соединением и внешним соединением?
  24. Как Hive оптимизирует операции соединения
  25. Улей
  26. Рабочий механизм операторов Hive, например, где, наличие, группировка, порядок и весь процесс выполнения?
  27. При использовании Hive данные будут синхронизироваться с HDFS. Как решить проблему маленьких файлов?
  28. Конкретный процесс Hive Shuffle
  29. Какие методы есть у Hive для сохранения метаданных и каковы их характеристики?
  30. Hive SOL реализует непрерывный вход в систему запросов пользователей, давайте поговорим об идеях
  31. Каковы оконные функции Hive?
  32. Хранит ли Hive данные?
  33. Каков процесс преобразования SOL Hive в MapReduce?
  34. Функции Hive: в чем разница между UDF, UDAF и UDTF?
  35. Как UDF выполняется в Hive
  36. Оптимизация улья
  37. Разница между row_number, Rank и Density_Rank
  38. Сколько редукторов имеет Hive count (различных) Каковы проблемы с большими объемами данных?
  39. HQL: строка в столбец, столбец в строку
  40. HQL-процесс от кода до выполнения
  41. Знаете ли вы Hive SQL? Расскажите об аналитических функциях?
  42. В чем разница между добавлением Order By и отсутствием добавления Order By в функции анализа?
  43. Оптимизация ульяметод
  44. Что делает Metastore в Hive?
  45. Что такое HiveServer2?
  46. Как изменить тип полей таблицы Hive
  47. Преимущества паркетных пилок

4. Вопросы для собеседования Flume

  1. Представляем Флюм
  2. Архитектура лотка
  3. Каковы источники Flume?
  4. Давайте поговорим о механизме транзакций Flume.
  5. Представляем Флюм Как происходит сбор данных? Базовая реализация?
  6. Как Flume обеспечивает надежность данных
  7. Как Flume обеспечивает согласованность (надежность) данных при передаче данных?
  8. Перехватчик лотка
  9. Как контролировать потребление потребительского Flume
  10. Как связаны Кафка и Flume?
  11. Зачем использовать Flume для сбора данных

5. Вопросы для интервью с Кафкой

  1. Представляем Kafka, роль Kafka. Компоненты Kafka. Применимые сценарии?
  2. Какие проблемы может решить Kafka в качестве очереди сообщений?
  3. Давайте поговорим об архитектуре Кафки.
  4. Поговорим о характеристиках, преимуществах и недостатках Кафки.
  5. Каковы преимущества Kafka по сравнению с другими компонентами обмена сообщениями?
  6. Производители и потребители Кафки
  7. Отказоустойчивость раздела Kafka
  8. Согласованность данных на потребительской стороне Kafka
  9. Как справиться с неудачей лидера Кафки
  10. Давайте поговорим о механизме ISR Кафки.
  11. Избирательный механизм Кафки
  12. Знакомство с ISR, OSR и ACK Kafka Сколько значений имеет ACK?
  13. Как работает Кафка?
  14. Как Kafka гарантирует, что данные не будут потеряны или дублированы?
  15. Стратегия разделения Kafka
  16. Как Kafka обеспечивает максимальную надежность данных?
  17. Как справиться с потерей данных Kafka?
  18. Как Кафка обеспечивает глобальный порядок?
  19. Каковы сходства и различия между моделью производитель-потребитель и моделью публикации-подписки?
  20. Как группа потребителей Кафки потребляет данные
  21. Управление смещением Kafka
  22. Почему потребители Kafka в одной группе потребителей не могут использовать один и тот же раздел?
  23. Если есть часть данных, соответствующая смещению, и ручная отправка не удалась после завершения потребления, как с этим бороться?
  24. Часть данных потребляется, и Kafka зависает. Какое смещение будет использовано после перезапуска?
  25. Какую семантику поддерживает Kafka и как реализовать ExactlyOnce?
  26. В чем разница между потребителями Kafka и группами потребителей. Зачем нам нужны группы потребителей?
  27. Каков процесс записи данных в продюсер Kafka?
  28. Развертывание подтверждения производителя Kafka
  29. Какие проблемы решает механизм подтверждения Кафки?
  30. Читает ли Кафка сообщения в режиме push или pull. Какой из них лучше?
  31. Как Kafka достигает высокой пропускной способности?
  32. Давайте поговорим о разделе в Кафке?
  33. Как Kafka выполняет резервное копирование данных?
  34. Каков формат данных, хранящихся в Kafka?
  35. Как Kafka очищает просроченные файлы?
  36. Какая информация содержится в сообщении Kafka?
  37. Как Kafka обеспечивает ExactlyOnce данных?
  38. Как потребитель Kafka гарантирует ExactlyOnce
  39. Кафка контролирует реализацию?
  40. Можно ли полностью удалить данные в Kafka?
  41. Механизм репликации Кафки?
  42. Механизм мультирепликации разделов Kafka?
  43. Алгоритм распределения разделов Kafka
  44. Резервуарный механизм Кафки
  45. Как Кафка добивается равенства?
  46. Где существует смещение Кафки?
  47. Как обеспечить согласованность данных в Kafka?
  48. Различия между старыми и новыми API Kafka
  49. Как сообщения Kafka организованы на диске
  50. Где у Кафки избирательный процесс и какие инструменты используются для поддержки выборов?
  51. Какие параметры следует настроить в процессе сборки Kafka?
  52. Одноадресная и многоадресная рассылка Kafka
  53. Высшая точка Кафки и эпоха лидера
  54. Разделитель, перехватчик, сериализатор Кафки?
  55. Несколько способов подключить Kafka к Spark Streaming
  56. Сколько потоков имеет клиент-производитель Kafka?
  57. Как Кафка предотвращает расщепление мозга?
  58. Где отражается высокая доступность Kafka?
  59. Роль смотрителя зоопарка в Кафке

6. Вопросы для собеседования HBase

  1. Представляем HBase
  2. Преимущества и недостатки HBase
  3. Давайте поговорим о принципах HBase.
  4. Представляем HBaseАрхитектура
  5. Процесс чтения и записи данных HBase
  6. HBase кэш чтения и записи
  7. Когда вы удаляете часть данных в HBase, когда она фактически удаляется? Когда вы ее удаляете, данные удаляются сразу?
  8. Вторичный индекс в HBase
  9. Как восстановить HBase RegionServer после его сбоя?
  10. Из чего состоит регион HBase?
  11. Как реализовать высокую доступность HBase?
  12. Почему HBase подходит для большего количества записи и меньшего чтения?
  13. Каковы применимые сценарии и преимущества столбчатых баз данных? Каковы характеристики столбчатого хранилища?
  14. Принципы проектирования клавиш HBase
  15. Почему ключ строки HBase не может превышать определенную длину? Почему он должен быть уникальным? Если ключ строки слишком длинный, это повлияет на хранение Hfile, верно?
  16. Почему настройка RowKey в HBase такая особенная?
  17. Каковы основные и незначительные слияния HBase?
  18. Каковы различия (преимущества) между HBase и реляционными базами данных (традиционными базами данных)?
  19. Структура данных HBase
  20. Почему случайный запрос HBase выполняется быстро?
  21. Структура LSM HBase
  22. Каковы различия и связи между Get и Scan в HBase?
  23. Структура хранения данных HBase (базовая структура хранения)
  24. Процесс сжатия данных HBase?
  25. Предварительное разбиение HBase
  26. Горячие проблемы в HBase
  27. Условия очистки памяти HBase
  28. HBase MVCC
  29. Крупное и маленькое слияние HBase. Как происходит крупное слияние? Почему крупное слияние?
  30. Поскольку базовые данные HBase хранятся в HDFS, почему бы не использовать HDFS напрямую, а также использовать HBase?
  31. Разница между HBase и Phoenix
  32. Поддерживает ли HBase операции SQL?
  33. Подходит ли HBase для большего чтения и меньшего количества записи или большего количества записи и меньшего чтения?
  34. Конструкция стола HBase
  35. Распределение регионов
  36. Сегментация региона HBase

7. Задавайте вопросы на собеседовании

  1. Процесс выполнения задачи Spark
  2. Процесс запуска Spark
  3. Каков процесс выполнения заданий в Spark?
  4. Особенности Искры
  5. Планирование задач в исходном коде Spark
  6. Планирование заданий Spark
  7. Архитектура Spark
  8. Сценарии использования Spark
  9. Spark на автономной модели, модель архитектуры YARN (нарисовать схему архитектуры)
  10. Какие параметры задействованы в кластере пряжи Spark?
  11. Процесс отправки задания Spark
  12. Дивизия сцены Искры
  13. Давайте поговорим о конкретном процессе обработки данных Spark.
  14. Классификация Sparkjoin
  15. Принцип реализации объединения карт Spark
  16. Представляем Spark Shuffle, его преимущества и недостатки
  17. При каких обстоятельствах происходит Spark Shuffle?
  18. Почему Spark Shuffle?
  19. Почему Spark быстрый?
  20. Почему Spark подходит для итеративной обработки?
  21. Проблема неравномерности данных Spark, как ее обнаружить и решения
  22. Как разделены этапы Spark? Как определить, относятся ли они к этапу Shuffle Map или этапу результата в исходном коде?
  23. При каких обстоятельствах объединение Spark станет узкой зависимостью?
  24. Модель памяти Spark?
  25. Каковы части (модули) Spark? Каковы их функции (что вы делаете, какие использовали и что делали)?
  26. Широкие зависимости и узкие зависимости RDD, примеры некоторых операторов
  27. Будет ли GroupBy Spark SQL вызывать узкие зависимости?
  28. Является ли GroupBy оператором действия?
  29. Почему широкие и узкие зависимости Spark так разделены?
  30. Давайте поговорим о Transform и Action в Spark. Почему Spark делит операции на Transform и Action. Перечислите некоторые часто используемые и поговорим о принципах работы операторов.
  31. Какие операторы в Spark будут использовать процесс перемешивания?
  32. В Spark есть RDD, зачем ему Dataform и DataSet?
  33. Каковы различия между RDD, DataFrame, DataSet и DataStream Spark?
  34. Давайте представим работу, этап и задачу Spark соответственно. Как их разделить?
  35. Связь между приложением, заданием, этапом и задачей.
  36. Внутренняя логика этапа
  37. Зачем делить этапы по широким зависимостям?
  38. Что следует разделить на этапы?
  39. Какое количество этапов?
  40. Понимание RDD, DAG и Task
  41. Почему DAG подходит для Spark?
  42. Знакомство с DAG Spark и процессом его генерации
  43. Как разделен DAGScheduler Какую работу он выполняет?
  44. Механизм отказоустойчивости искры?
  45. Отказоустойчивость RDD
  46. Распределение памяти исполнителя?
  47. Размер пакета Spark, как решить проблему объединения небольших файлов?
  48. Настройка параметров искры (производительности)
  49. Познакомьтесь с тем, как Spark выполняет вычисления на основе памяти.
  50. Расскажите мне, что такое RDD (понимание RDD) Каковы особенности RDD? Расскажите мне об известных вам операторах RDD?
  51. Основной принцип RDD
  52. Свойства СДР
  53. Уровень кэша для RDD?
  54. Реализация и принцип широковещательных переменных Spark?
  55. Каковы различия и функции уменьшитьByKey и groupByKey?
  56. В чем разница между сокращениемByKey и сокращением?
  57. Что делать, если при использовании уменьшенияByKey возникает перекос данных?
  58. Как выполняется Spark SQL?
  59. Оптимизация Spark SQL?
  60. Поговорим о КПП Спарк
  61. Как использовать Spark SQL и DataFrame?
  62. Пользовательская функция Sparksql Как создать DataFrame?
  63. Реализация HashPartitioner и RangePartitioner
  64. Отбор проб пруда Спарка
  65. Принципы реализации DAGScheduler, TaskScheduler и SchedulerBackend
  66. Представьте следующий процесс после того, как Sparkclient отправит заявку?
  67. Несколько методов развертывания Spark
  68. В случае с Yarn-клиентом, где в это время находится Драйвер?
  69. Каковы преимущества режима кластера Spark?
  70. Как Драйвер управляет исполнителями?
  71. В чем разница между картой Spark и плоской картой?
  72. В чем разница между кешем Spark и постоянным? Являются ли они операторами преобразования или операторами действий?
  73. Два способа Spark Streaming читать данные из Kafka?
  74. Как работает потоковая передача Spark?
  75. В чем разница между DStream и DStreamGraph в Spark Streaming?
  76. Количество выходных файлов Spark, как объединить небольшие файлы?
  77. Как драйвер Spark управляет рабочим процессом?
  78. Недостатки Spark SQL?
  79. Представляем Spark Streaming и структурированную потоковую передачу
  80. Почему Spark быстрее Hadoop?
  81. Реализация исходного кода Spark с разделением DAG?
  82. Как осуществляется процесс соединения двух потоков в Spark Streaming?
  83. Управление искровыми блоками
  84. Как Spark гарантирует, что данные не будут потеряны?
  85. Как Spark SQL использует UDF?
  86. Вторичная сортировка по температуре искры
  87. Spark реализует подсчет слов
  88. Как Spark Streaming обеспечивает сохранение данных?
  89. Spark SQL читает файлы и памяти не хватает Как с этим бороться?
  90. Где отражается лень Спарка?
  91. Чему равен параллелизм в Spark
  92. Развертывание параллелизма во время выполнения Spark
  93. Искажение данных Spark SQL
  94. Искра — ровно один раз
  95. Связь между RDD Spark и разделом
  96. особенности парка 3.0
  97. В чем гибкость вычислений Spark?

8. Вопросы для собеседования Flink

  1. Архитектура Флинка
  2. Что вы знаете об окнах Flink? Какие они бывают типы?
  3. Функция окна Flink, проблемы, связанные с семантикой времени
  4. Давайте представим водяной знак Flink. Какой класс реализации должен реализовывать водяной знак? Где он определен? Какова его функция?
  5. Механизм окна (реализации) Флинка
  6. Давайте поговорим о CEP Flink
  7. Давайте поговорим о механизме Checkpoint Flink.
  8. Как реализована базовая контрольная точка Flink. В чем разница между точкой сохранения и контрольной точкой?
  9. Процесс контрольной точки Флинка
  10. Роль контрольно-пропускного пункта Флинк
  11. Причины тайм-аута контрольной точки во Flink
  12. Как обеспечить семантику Flink ExactlyOnce?
  13. Комплексное решение ExactlyOnce от Flink
  14. Какие виды водяных знаков есть во Flink?
  15. Семантика времени Флинка
  16. Каковы преимущества Flink по сравнению с другими платформами потоковой обработки?
  17. В чем разница между Flink и Spark? При каких обстоятельствах следует использовать Flink? Каковы преимущества?
  18. Механизм противодавления Flink backPressure, как осуществляется мониторинг индикатора?
  19. Как Flink обеспечивает согласованность?
  20. Поддерживает ли Flink HA JobMaster? Каков принцип?
  21. Как определить разумную степень параллелизма задач Flink?
  22. Как задачи Flink достигают сквозной согласованности?
  23. Как Flink справляется с обратным давлением?
  24. Flink решает проблему задержки данных
  25. Взаимосвязь между параллелизмом задач flink, когда Flink потребляет данные из разделов Kafka
  26. Используйте flink-client для использования данных Kafka или используйте Flink-connector для использования
  27. Как динамически изменять конфигурацию Flink при условии, что Flink невозможно перезапустить
  28. Интегрированное объяснение Flink Flow Flow
  29. Поговорим о проверке и барьере Флинка.
  30. Давайте поговорим о механизме состояний Flink.
  31. Трансляция Flink
  32. Flink в реальном времени topN
  33. Как обычно использовать Flink на стажировках
  34. Знаете ли вы, что такое Savepoint?
  35. Задумывались ли вы, почему следует использовать Flink вместо других микропакетов?
  36. Объясните, что такое противодавление.
  37. Распределенный снимок Flink
  38. Процесс анализа Flink SQL
  39. Мигание в режиме YARN
  40. Как Flink гарантирует, что данные не будут потеряны?

9. Вопросы для собеседования по хранилищу данных

  1. Представляем хранилище данных
  2. Основные принципы хранилища данных
  3. Архитектура хранилища данных
  4. Хранилище данных является многоуровневым (деление по уровням). Что делает каждый уровень? Каковы преимущества многоуровневого хранения?
  5. На чем основана стратификация данных?
  6. Принципы и идеи стратификации хранилища данных
  7. Существуют ли широко используемые модели для моделирования хранилищ данных, различия, преимущества и недостатки?
  8. В чем разница между моделью звезды и моделью снежинки? Сравнение преимуществ и недостатков?
  9. Какие существуют методы моделирования хранилища данных?
  10. Каков процесс моделирования хранилища данных?
  11. Этапы размерного моделирования, как определить эти размеры
  12. Разница между многомерным моделированием и парадигмальным моделированием
  13. В чем разница между таблицей измерений и таблицей фактов?
  14. Что такое модель ER?
  15. OLAP и OLTP объясняют (разницу), в чем заключаются эти три парадигмы, и приводят несколько примеров.
  16. процесс объемного проектирования, фактический процесс проектирования
  17. В пространственном проектировании есть интеграция и разделение. Каковы методы и подробные пояснения?
  18. Существует несколько типов конструкций таблиц фактов, каждый из которых посвящен тому, как использовать его в бизнесе.
  19. Различия и функции таблицы фактов одной транзакции и таблицы фактов нескольких транзакций
  20. Давайте поговорим о измерениях согласованности, фактах согласованности и матрице шины.
  21. Какая работа была проделана для ETL от уровня ODS до уровня DW?
  22. В чем разница между хранилищем данных и (традиционной) базой данных?
  23. Как обеспечивается качество данных и какие методы используются для его обеспечения?
  24. Как измерить качество данных хранилища данных и какие показатели существуют?
  25. Инкрементный стол, полный стол и стол на молнии.

10. Подробные вопросы на собеседовании

  1. Разница между Спарком и Флинком
  2. Когда Flink и Spark Streaming обрабатывают данные, как они это делают? Каковы их преимущества?
  3. Как вы думаете, почему Flink лучше, чем Spark Streaming?
  4. Каковы преимущества SaprkStreaming по сравнению с Flink?
  5. В чем разница между Flink и Spark для пакетной обработки?
  6. Как Flink+Kafka обеспечивает точное единоразовое потребление?
  7. В чем разница между Hive и MySQL?
  8. В чем разница между Hive и HBase?
  9. Какова связь и разница между Hive и HDFS?
  10. Разница между Spark и Hive
  11. Связь между Spark и Hive
  12. Разница между Hive и традиционными базами данных
  13. Сравнивая Spark и Hive, кто лучше и почему, по вашему мнению?
  14. Сравнение (разница) между MySQL и HBase
  15. Разница между Spark и Hadoop
  16. Почему Spark работает быстрее, чем MapReduce Каковы причины?
  17. В чем разница между Spark и MapReduce? Каковы их преимущества и недостатки?
  18. Преимущества Spark по сравнению с MapReduce
  19. Устраняет ли использование Spark необходимость в Hadoop?
  20. Разница между SparkStreaming и Storm
  21. В чем разница между Флюмом и Кафкой?
  22. Зачем использовать Flume+Kafka?
  23. Как настроены Flume и Kafka?
  24. Spark Streaming интегрирован с Kafka, как обеспечить семантику Exactly Once
  25. В чем разница между Spark Shuffle и MapReduce Shuffle? Давайте поговорим об их характеристиках и процессах.
  26. Если Spark хочет сохранить данные в HDFS, какой оператор следует использовать?
  27. Каковы различия между Hive SQL и Spark SOL? Каковы их преимущества и недостатки? Почему бы не использовать Spark SQL вместо Hive SOL?
  28. В чем разница между распределенной системой хранения и структурой распределенных вычислений?
  29. ETL-процесс?
  30. Разница между озером данных и хранилищем данных
  31. Разница между автономной обработкой и обработкой в ​​реальном времени
  32. В чем разница между хранилищем данных в реальном времени и автономным хранилищем данных?
  33. В чем разница между Hadoop (HDFS) и MySQL?
  34. Давайте поговорим о различиях между Storm, Flink и Spark, их преимуществах и недостатках, а также применимых сценариях.
  35. Какова связь между HDFS и HBase?
  36. Выбор формата хранения, преимущества и недостатки хранения строк и хранения столбцов.
  37. Связь между Hive, HBase и HDFS
  38. Где хранятся данные в Hive и где хранятся данные в MySQL?
  39. Что делать, если объем данных слишком велик и HDFS не может выдержать нагрузку сбора данных Flume?
  40. Разница между Hadoop и gp (GreenPlum)
  41. MapReduce/Spark вручную уничтожил WordCount
  42. Зачем использовать Scala для разработки Spark вместо Python
  43. В чем разница между Scala и Java

11. Вопросы для собеседования по базе данных

  1. Что такое транзакция в базе данных и как она реализована в MySQL
  2. Каковы характеристики транзакций MySQL?
  3. Уровень изоляции транзакций базы данных. Какая проблема решена? Уровень изоляции транзакций по умолчанию?
  4. Определение грязного чтения, фантомного чтения, неповторяемого чтения
  5. Как реализовать повторяющееся чтение в MySQL?
  6. В чем разница между третьей нормальной формой базы данных и четвертой нормальной формой?
  7. Механизм хранения MySQL?
  8. Какие блокировки имеет база данных?
  9. Давайте поговорим о пессимистическом замке и оптимистическом замке.
  10. Что такое распределенная база данных?
  11. Каковы условия тупика? Как предотвратить тупик?
  12. Опишите ioin базы данных (внутреннее соединение, внешнее соединение, полное соединение), разницу между внутренним соединением и внешним соединением (левое и правое соединение).
  13. Процесс присоединения к MySQL
  14. Какие механизмы хранения данных есть в MySQL?
  15. Разница между механизмом хранения MvlSAM и InnoDB в базе данных
  16. Для каких сценариев подходит Mylsam?
  17. InnoDB и Mvlsam для чтения и записи сценариев?
  18. Какой уровень изоляции реализует MySQL Innodb?
  19. Особенности механизма данных InnoDB
  20. Какой индекс использует InnoDB?
  21. Недостатки хеш-индекса
  22. Каковы преимущества и недостатки каждого типа индекса базы данных?
  23. Что такое индексы MySQL? Как оптимизировать индекс?
  24. Какие структуры данных можно использовать в качестве индексов?
  25. В чем разница между B-деревом и B+ деревом?
  26. Зачем использовать дерево B+ в качестве структуры индекса?
  27. Вместо использования дерева B+ вы можете использовать этот тип данных для реализации структуры индекса.
  28. Знакомство с принципами использования совместных индексов в MySQL
  29. Нужно ли строить индекс в базе данных?
  30. Недостатки MySQL?
  31. Что такое грязное чтение? Как это решить?
  32. Почему существуют три основные парадигмы? Нужно ли им следовать при построении базы данных?
  33. Какие столбцы обычно индексируются базами данных? Какова структура данных индекса?
  34. Какие вопросы необходимо учитывать при создании индекса в MySOL
  35. Разница между реляционной базой данных и нереляционной базой данных
  36. Разница между MySQL и Redis
  37. Сравнение преимуществ и недостатков столбчатых и строковых баз данных.
  38. Какие еще форматы кодировки существуют, кроме UTF-8?
  39. В чем заключается основной принцип работы фильтра Блума? Каковы ограничения? Какой метод можно использовать для увеличения функции удаления?
  40. В каких сценариях вы используете фильтры Блума?
  41. Решение (оптимизация) для медленных SQL-запросов?
  42. Давайте поговорим о кластерном индексе и некластеризованном индексе.
  43. Каковы преимущества и недостатки хеш-индекса по сравнению с B+?
  44. Знает ли MVCC?

12. Заключение

Обобщение вопросов собеседования — это долгосрочная задача. Если интервью не прекратятся, то обобщение вопросов собеседования не прекратится никогда. В будущем постепенно будут добавляться вопросы для собеседований, связанные с Java, компьютерными сетями и т. д. На самом деле это не только вопрос для собеседования, но и справочник для собеседования, позволяющий ознакомить вас с различными вопросами собеседования. Конечно, проектная часть. ,Можно смотреть только на себя,ведь резюме,стажировка,проекты и т.д. у всех разные.

Этот вопрос для собеседования будет обновляться каждый квартал или полгода.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose