Привет всем, это Су Ран~
Вопросы для интервью по большим данным Версия 3.0 завершена. Всего 523 вопроса, 779 страниц и более 460 000 слов, взятых из более чем 870 интервью Ниуке.
Ниже приводится краткое введение в общее содержание этой версии вопросов для собеседования, которая в основном разделена на следующие части:
Вопросы для собеседования по Hadoop: 100
Вопросы для собеседования с работником зоопарка: 21
Вопросы для собеседования: 47
Вопросы для интервью Flume: 11
Вопросы для интервью с Кафкой: от 59 до
Вопросы для собеседования HBase: 36
Вопросы для интервью Spark: 97
Вопросы для интервью Флинку: 40 вопросов
Вопросы для собеседования по хранилищу данных: 25 вопросов
Комплексных вопросов на собеседовании: 43
Вопросы для собеседования по базе данных (MySQL): 44 вопроса.
Всего 523 вопроса
1. Вопросы для собеседования по Hadoop
Основы Hadoop
- Знакомство с Hadoop
- Особенности Хадупа
- Давайте поговорим о компонентах экосистемы Hadoop и их функциях.
- Каковы основные части Hadoop? Каковы их функции?
- Разница между Hadoop 1.x, 2x, 3.x
- Какие процессы запускаются при работе кластера Hadoop? Каковы их функции?
- Каковы основные узкие места кластера в кластерных вычислениях?
- Какие XML-файлы используются для создания кластера Hadoop?
- Процесс контрольной точки Hadoop
- Каков размер блока Hadoop по умолчанию? Почему он установлен таким большим?
- Причины разделения блоков
- Общие алгоритмы сжатия в Hadoop?
- Каков процесс отправки заданий Hadoop в YARN?
- Роль объединителя Hadoop
- Сериализация и десериализация Hadoop
- Режим работы Hadoop
- Проблема с обработкой небольших файлов Hadoop
- Почему Hadoop следует обновить с 2.x до 3.x?
- Преимущества и недостатки Hadoop
часть HDFS
- Процесс записи и чтения файлов HDFS
- Архитектура композиции HDFS
- Познакомьтесь с HDFS, расскажите о преимуществах и недостатках HDFS, а также сценариях использования.
- Действие HDFS
- Механизм отказоустойчивости HDFS
- Механизм хранения HDFS
- Механизм копирования HDFS
- Общие форматы данных HDFS, каковы сходства и различия между форматом столбчатого хранения и форматом хранения строк и каковы преимущества столбчатого хранения?
- Как HDFS гарантирует, что данные не будут потеряны?
- Как реализовать высокую доступность HDFS NameNode Какие роли необходимы?
- Файловая структура HDFS?
- Каково количество реплик по умолчанию в HDFS? Почему это число? Если вы хотите изменить количество реплик, как его изменить?
- Представляем блок HDFS
- В какой версии были изменены размеры блока HDFS по умолчанию — 64 МБ и 128 МБ. Как изменить размер блока по умолчанию?
- Почему HDFS блокирует 128M? Каково влияние увеличения или уменьшения?
- Как реализован HDFS HA? Какова его архитектура?
- Как настроить шардинг при импорте больших файлов в HDFS?
- Как определить количество картографов и редукторов в HDFS? На чем основано количество редукторов?
- HDSF использует этот средний компонент для хранения данных.
- Как перенести данные между узлами HDFS
- Как гарантируется целостность данных HDFS?
- Как HDFS обеспечивает безопасность данных
- Что делать, если в HDFS не удается записать данные в DataNode
- Снимок Hadoop2.xHDFS
- Как хранятся файлы HDFS?
- Процесс записи данных HDFS, какие бывают ошибки в процессе записи и как с ними бороться?
- Хранит ли NameNode данные?
- Преимущества использования NameNode
- Как DataNode хранит данные в HDFS
- Непосредственно загрузите файл данных в каталог таблицы HDFS. Как запросить данные в таблице?
MapReduce часть
- Представляем MapReduce
- MapReduce преимущества и недостатки
- MapReduce архитектура
- Как работает MapReduce
- Какой этап MapReduce занимает больше всего времени?
- Что делает объединение в MapReduce? Какова его польза?
- Почему MapReduce должен иметь кольцевой буфер
- Почему MapReduce должен иметь процесс Shuffle
- Процесс MapReduce Shuffle и его оптимизация
- Как Редукция узнает, куда извлечь набор результатов Map?
- Что произошло на этапе сокращения? Есть ли какая-либо группировка?
- Алгоритм сортировки MapReduce Shuffle
- Почему перемешивание необходимо сортировать?
- Подскажите, как карту удается уменьшить?
- Расскажите, какие механизмы тасования вы знаете?
- Процесс обработки данных MapReduce
- Принцип (реализация) сценариев приложения?
- Как выполнить сокращение соединения (принцип)
- Почему MapReduce не может создавать слишком много маленьких файлов
- Разделение MapReduce и его функции
- Взаимосвязь между количеством Редуктор Таскс и количеством разделов
- Насколько велики фрагменты карты?
- Процесс соединения MapReduce между двумя таблицами?
- Разобрать простую программу MapReduce вручную
- Когда запускается задача сокращения?
- Какая сортировка позволяет сократить использование MapReduce?
- Как MapReduce определяет количество MapTasks?
- Что определяет количество карт?
- Как выбрать сборщик мусора ivm для процесса карты MapReduce и процесса редуктора, чтобы повысить пропускную способность?
- Разделение номера задачи MapReduce
- Где будут храниться промежуточные данные во время выполнения задания MapReduce? Не будут ли они храниться в памяти?
- После выполнения комбайнера на стороне Mapper, помимо увеличения скорости, как изменится объем данных со стороны Mapper на сторону Reduece?
- Когда данные, выводимые картой, превышают ее небольшую файловую память, они сохраняются на диске или в HDFS?
- Каков механизм разделения по умолчанию в Map to уменьшает?
- Опишите MapReduce с количеством слов, конкретными процессами, как сделать карту, как сделать сокращение.
- Причины и решения искажения данных MapReduce
- Почему Map Join может решить проблему перекоса данных
- OOM возникает во время операции MapReduce. Где происходит OOM?
- Сколько раз MapReduce использует сортировку? Что это такое?
- Метод сжатия MapReduce
- Как обработать большой файл в MapReduce
ПРЯЖА часть
- Представляем ПРЯЖУ
- YARN имеет несколько модулей.
- Рабочий механизм ПРЯЖИ
- В чем преимущества YARN и какие проблемы она может решить?
- Механизм отказоустойчивости YARN
- ПРЯЖА высокая доступность
- Планировщик пряжи
- Как запускается контейнер в YARN?
- Каковы улучшения YARN, Hadoop 3.x по сравнению с Hadoop 2.x?
- ПРЯЖА мониторинг
2. Вопросы для собеседования с работником зоопарка
- Представьте, что такое Zookeeper?
- Что делает Zookeeper? Каковы его преимущества и недостатки? Каковы сценарии его применения?
- Избирательная стратегия Zookeeper: в чем разница между лидером и последователем?
- Представляем алгоритм выборов Zookeeper
- Каковы типы узлов Zookeeper? Каковы их функции?
- Как лучше настроить количество узлов Zookeeper?
- Архитектура зоопарка
- Каковы функции Zookeeper?
- Структура данных Zookeeper (дерево)? Распределенные блокировки, реализованные на ее основе? Выбор мастера на ее основе? Управление кластером на ее основе? Сценарии использования механизма регистрации (наблюдения) Zookeeper?
- Представляем функцию публикации и подписки сообщений Zookeeper
- Как Zookeeper реализует распределенные блокировки?
- Как Zookeeper обеспечивает согласованность?
- Заб-протокол Zookeeper (протокол атомного вещания)?
- На каком алгоритме основан процесс ZAB?
- Механизм уведомления Zookeeper
- У смотрителя зоопарка проблема с расщеплением мозга
- Алгоритм Paxos Zookeeper
- Каковы протоколы Zookeeper?
- Как Zookeeper обеспечивает согласованность данных?
- Где хранятся данные Zookeeper?
- Как расширить ZooKeeper с трех до семи?
3. Вопросы для собеседования
- Расскажите, почему вам следует использовать Hive? Каковы преимущества и недостатки Hive? Какова функция Hive?
- Что такое Hive? Чем оно отличается от хранилища данных?
- Архитектура улья
- В чем разница между внутренними таблицами Hive и внешними таблицами?
- Почему при удалении внутренней таблицы удаляются все данные, а при удалении внешней таблицы удаляется только структура таблицы. Почему лучше использовать внешнюю таблицу?
- Оператор создания таблицы Hive Какой разделитель используется при создании таблицы?
- Что удаляет оператор удаления Hive из внешней таблицы?
- Изменение данных Hive и решения
- Если Hive не использует настройку параметров, что ему делать на карте и уменьшать стороны?
- Шаги и процессы реализации пользовательских функций Hive
- Каковы три пользовательские функции Hive? Каковы их функции?
- В чем разница между кластеризацией Hive, сортировкой по распределению и упорядочиванием?
- Разница между секционированием Hive и сегментированием
- Процесс выполнения улья
- Каков процесс преобразования Hive SQL в MR?
- Обработка оптимизации Hive SQL
- Механизм хранения и вычислительный механизм Hive
- Какие форматы хранения файлов использует Hive?
- Как настроить количество картографов и редукторов в Hive
- Давайте представим известные нам оконные функции Hive и приведем несколько примеров.
- Как использовать счетчик Hive
- Разница между союзом Hive и Unionall
- Принцип работы соединения Hive: каковы сходства и различия между левым соединением, правым соединением, внутренним соединением и внешним соединением?
- Как Hive оптимизирует операции соединения
- Улей
- Рабочий механизм операторов Hive, например, где, наличие, группировка, порядок и весь процесс выполнения?
- При использовании Hive данные будут синхронизироваться с HDFS. Как решить проблему маленьких файлов?
- Конкретный процесс Hive Shuffle
- Какие методы есть у Hive для сохранения метаданных и каковы их характеристики?
- Hive SOL реализует непрерывный вход в систему запросов пользователей, давайте поговорим об идеях
- Каковы оконные функции Hive?
- Хранит ли Hive данные?
- Каков процесс преобразования SOL Hive в MapReduce?
- Функции Hive: в чем разница между UDF, UDAF и UDTF?
- Как UDF выполняется в Hive
- Оптимизация улья
- Разница между row_number, Rank и Density_Rank
- Сколько редукторов имеет Hive count (различных) Каковы проблемы с большими объемами данных?
- HQL: строка в столбец, столбец в строку
- HQL-процесс от кода до выполнения
- Знаете ли вы Hive SQL? Расскажите об аналитических функциях?
- В чем разница между добавлением Order By и отсутствием добавления Order By в функции анализа?
- Оптимизация ульяметод
- Что делает Metastore в Hive?
- Что такое HiveServer2?
- Как изменить тип полей таблицы Hive
- Преимущества паркетных пилок
4. Вопросы для собеседования Flume
- Представляем Флюм
- Архитектура лотка
- Каковы источники Flume?
- Давайте поговорим о механизме транзакций Flume.
- Представляем Флюм Как происходит сбор данных? Базовая реализация?
- Как Flume обеспечивает надежность данных
- Как Flume обеспечивает согласованность (надежность) данных при передаче данных?
- Перехватчик лотка
- Как контролировать потребление потребительского Flume
- Как связаны Кафка и Flume?
- Зачем использовать Flume для сбора данных
5. Вопросы для интервью с Кафкой
- Представляем Kafka, роль Kafka. Компоненты Kafka. Применимые сценарии?
- Какие проблемы может решить Kafka в качестве очереди сообщений?
- Давайте поговорим об архитектуре Кафки.
- Поговорим о характеристиках, преимуществах и недостатках Кафки.
- Каковы преимущества Kafka по сравнению с другими компонентами обмена сообщениями?
- Производители и потребители Кафки
- Отказоустойчивость раздела Kafka
- Согласованность данных на потребительской стороне Kafka
- Как справиться с неудачей лидера Кафки
- Давайте поговорим о механизме ISR Кафки.
- Избирательный механизм Кафки
- Знакомство с ISR, OSR и ACK Kafka Сколько значений имеет ACK?
- Как работает Кафка?
- Как Kafka гарантирует, что данные не будут потеряны или дублированы?
- Стратегия разделения Kafka
- Как Kafka обеспечивает максимальную надежность данных?
- Как справиться с потерей данных Kafka?
- Как Кафка обеспечивает глобальный порядок?
- Каковы сходства и различия между моделью производитель-потребитель и моделью публикации-подписки?
- Как группа потребителей Кафки потребляет данные
- Управление смещением Kafka
- Почему потребители Kafka в одной группе потребителей не могут использовать один и тот же раздел?
- Если есть часть данных, соответствующая смещению, и ручная отправка не удалась после завершения потребления, как с этим бороться?
- Часть данных потребляется, и Kafka зависает. Какое смещение будет использовано после перезапуска?
- Какую семантику поддерживает Kafka и как реализовать ExactlyOnce?
- В чем разница между потребителями Kafka и группами потребителей. Зачем нам нужны группы потребителей?
- Каков процесс записи данных в продюсер Kafka?
- Развертывание подтверждения производителя Kafka
- Какие проблемы решает механизм подтверждения Кафки?
- Читает ли Кафка сообщения в режиме push или pull. Какой из них лучше?
- Как Kafka достигает высокой пропускной способности?
- Давайте поговорим о разделе в Кафке?
- Как Kafka выполняет резервное копирование данных?
- Каков формат данных, хранящихся в Kafka?
- Как Kafka очищает просроченные файлы?
- Какая информация содержится в сообщении Kafka?
- Как Kafka обеспечивает ExactlyOnce данных?
- Как потребитель Kafka гарантирует ExactlyOnce
- Кафка контролирует реализацию?
- Можно ли полностью удалить данные в Kafka?
- Механизм репликации Кафки?
- Механизм мультирепликации разделов Kafka?
- Алгоритм распределения разделов Kafka
- Резервуарный механизм Кафки
- Как Кафка добивается равенства?
- Где существует смещение Кафки?
- Как обеспечить согласованность данных в Kafka?
- Различия между старыми и новыми API Kafka
- Как сообщения Kafka организованы на диске
- Где у Кафки избирательный процесс и какие инструменты используются для поддержки выборов?
- Какие параметры следует настроить в процессе сборки Kafka?
- Одноадресная и многоадресная рассылка Kafka
- Высшая точка Кафки и эпоха лидера
- Разделитель, перехватчик, сериализатор Кафки?
- Несколько способов подключить Kafka к Spark Streaming
- Сколько потоков имеет клиент-производитель Kafka?
- Как Кафка предотвращает расщепление мозга?
- Где отражается высокая доступность Kafka?
- Роль смотрителя зоопарка в Кафке
6. Вопросы для собеседования HBase
- Представляем HBase
- Преимущества и недостатки HBase
- Давайте поговорим о принципах HBase.
- Представляем HBaseАрхитектура
- Процесс чтения и записи данных HBase
- HBase кэш чтения и записи
- Когда вы удаляете часть данных в HBase, когда она фактически удаляется? Когда вы ее удаляете, данные удаляются сразу?
- Вторичный индекс в HBase
- Как восстановить HBase RegionServer после его сбоя?
- Из чего состоит регион HBase?
- Как реализовать высокую доступность HBase?
- Почему HBase подходит для большего количества записи и меньшего чтения?
- Каковы применимые сценарии и преимущества столбчатых баз данных? Каковы характеристики столбчатого хранилища?
- Принципы проектирования клавиш HBase
- Почему ключ строки HBase не может превышать определенную длину? Почему он должен быть уникальным? Если ключ строки слишком длинный, это повлияет на хранение Hfile, верно?
- Почему настройка RowKey в HBase такая особенная?
- Каковы основные и незначительные слияния HBase?
- Каковы различия (преимущества) между HBase и реляционными базами данных (традиционными базами данных)?
- Структура данных HBase
- Почему случайный запрос HBase выполняется быстро?
- Структура LSM HBase
- Каковы различия и связи между Get и Scan в HBase?
- Структура хранения данных HBase (базовая структура хранения)
- Процесс сжатия данных HBase?
- Предварительное разбиение HBase
- Горячие проблемы в HBase
- Условия очистки памяти HBase
- HBase MVCC
- Крупное и маленькое слияние HBase. Как происходит крупное слияние? Почему крупное слияние?
- Поскольку базовые данные HBase хранятся в HDFS, почему бы не использовать HDFS напрямую, а также использовать HBase?
- Разница между HBase и Phoenix
- Поддерживает ли HBase операции SQL?
- Подходит ли HBase для большего чтения и меньшего количества записи или большего количества записи и меньшего чтения?
- Конструкция стола HBase
- Распределение регионов
- Сегментация региона HBase
7. Задавайте вопросы на собеседовании
- Процесс выполнения задачи Spark
- Процесс запуска Spark
- Каков процесс выполнения заданий в Spark?
- Особенности Искры
- Планирование задач в исходном коде Spark
- Планирование заданий Spark
- Архитектура Spark
- Сценарии использования Spark
- Spark на автономной модели, модель архитектуры YARN (нарисовать схему архитектуры)
- Какие параметры задействованы в кластере пряжи Spark?
- Процесс отправки задания Spark
- Дивизия сцены Искры
- Давайте поговорим о конкретном процессе обработки данных Spark.
- Классификация Sparkjoin
- Принцип реализации объединения карт Spark
- Представляем Spark Shuffle, его преимущества и недостатки
- При каких обстоятельствах происходит Spark Shuffle?
- Почему Spark Shuffle?
- Почему Spark быстрый?
- Почему Spark подходит для итеративной обработки?
- Проблема неравномерности данных Spark, как ее обнаружить и решения
- Как разделены этапы Spark? Как определить, относятся ли они к этапу Shuffle Map или этапу результата в исходном коде?
- При каких обстоятельствах объединение Spark станет узкой зависимостью?
- Модель памяти Spark?
- Каковы части (модули) Spark? Каковы их функции (что вы делаете, какие использовали и что делали)?
- Широкие зависимости и узкие зависимости RDD, примеры некоторых операторов
- Будет ли GroupBy Spark SQL вызывать узкие зависимости?
- Является ли GroupBy оператором действия?
- Почему широкие и узкие зависимости Spark так разделены?
- Давайте поговорим о Transform и Action в Spark. Почему Spark делит операции на Transform и Action. Перечислите некоторые часто используемые и поговорим о принципах работы операторов.
- Какие операторы в Spark будут использовать процесс перемешивания?
- В Spark есть RDD, зачем ему Dataform и DataSet?
- Каковы различия между RDD, DataFrame, DataSet и DataStream Spark?
- Давайте представим работу, этап и задачу Spark соответственно. Как их разделить?
- Связь между приложением, заданием, этапом и задачей.
- Внутренняя логика этапа
- Зачем делить этапы по широким зависимостям?
- Что следует разделить на этапы?
- Какое количество этапов?
- Понимание RDD, DAG и Task
- Почему DAG подходит для Spark?
- Знакомство с DAG Spark и процессом его генерации
- Как разделен DAGScheduler Какую работу он выполняет?
- Механизм отказоустойчивости искры?
- Отказоустойчивость RDD
- Распределение памяти исполнителя?
- Размер пакета Spark, как решить проблему объединения небольших файлов?
- Настройка параметров искры (производительности)
- Познакомьтесь с тем, как Spark выполняет вычисления на основе памяти.
- Расскажите мне, что такое RDD (понимание RDD) Каковы особенности RDD? Расскажите мне об известных вам операторах RDD?
- Основной принцип RDD
- Свойства СДР
- Уровень кэша для RDD?
- Реализация и принцип широковещательных переменных Spark?
- Каковы различия и функции уменьшитьByKey и groupByKey?
- В чем разница между сокращениемByKey и сокращением?
- Что делать, если при использовании уменьшенияByKey возникает перекос данных?
- Как выполняется Spark SQL?
- Оптимизация Spark SQL?
- Поговорим о КПП Спарк
- Как использовать Spark SQL и DataFrame?
- Пользовательская функция Sparksql Как создать DataFrame?
- Реализация HashPartitioner и RangePartitioner
- Отбор проб пруда Спарка
- Принципы реализации DAGScheduler, TaskScheduler и SchedulerBackend
- Представьте следующий процесс после того, как Sparkclient отправит заявку?
- Несколько методов развертывания Spark
- В случае с Yarn-клиентом, где в это время находится Драйвер?
- Каковы преимущества режима кластера Spark?
- Как Драйвер управляет исполнителями?
- В чем разница между картой Spark и плоской картой?
- В чем разница между кешем Spark и постоянным? Являются ли они операторами преобразования или операторами действий?
- Два способа Spark Streaming читать данные из Kafka?
- Как работает потоковая передача Spark?
- В чем разница между DStream и DStreamGraph в Spark Streaming?
- Количество выходных файлов Spark, как объединить небольшие файлы?
- Как драйвер Spark управляет рабочим процессом?
- Недостатки Spark SQL?
- Представляем Spark Streaming и структурированную потоковую передачу
- Почему Spark быстрее Hadoop?
- Реализация исходного кода Spark с разделением DAG?
- Как осуществляется процесс соединения двух потоков в Spark Streaming?
- Управление искровыми блоками
- Как Spark гарантирует, что данные не будут потеряны?
- Как Spark SQL использует UDF?
- Вторичная сортировка по температуре искры
- Spark реализует подсчет слов
- Как Spark Streaming обеспечивает сохранение данных?
- Spark SQL читает файлы и памяти не хватает Как с этим бороться?
- Где отражается лень Спарка?
- Чему равен параллелизм в Spark
- Развертывание параллелизма во время выполнения Spark
- Искажение данных Spark SQL
- Искра — ровно один раз
- Связь между RDD Spark и разделом
- особенности парка 3.0
- В чем гибкость вычислений Spark?
8. Вопросы для собеседования Flink
- Архитектура Флинка
- Что вы знаете об окнах Flink? Какие они бывают типы?
- Функция окна Flink, проблемы, связанные с семантикой времени
- Давайте представим водяной знак Flink. Какой класс реализации должен реализовывать водяной знак? Где он определен? Какова его функция?
- Механизм окна (реализации) Флинка
- Давайте поговорим о CEP Flink
- Давайте поговорим о механизме Checkpoint Flink.
- Как реализована базовая контрольная точка Flink. В чем разница между точкой сохранения и контрольной точкой?
- Процесс контрольной точки Флинка
- Роль контрольно-пропускного пункта Флинк
- Причины тайм-аута контрольной точки во Flink
- Как обеспечить семантику Flink ExactlyOnce?
- Комплексное решение ExactlyOnce от Flink
- Какие виды водяных знаков есть во Flink?
- Семантика времени Флинка
- Каковы преимущества Flink по сравнению с другими платформами потоковой обработки?
- В чем разница между Flink и Spark? При каких обстоятельствах следует использовать Flink? Каковы преимущества?
- Механизм противодавления Flink backPressure, как осуществляется мониторинг индикатора?
- Как Flink обеспечивает согласованность?
- Поддерживает ли Flink HA JobMaster? Каков принцип?
- Как определить разумную степень параллелизма задач Flink?
- Как задачи Flink достигают сквозной согласованности?
- Как Flink справляется с обратным давлением?
- Flink решает проблему задержки данных
- Взаимосвязь между параллелизмом задач flink, когда Flink потребляет данные из разделов Kafka
- Используйте flink-client для использования данных Kafka или используйте Flink-connector для использования
- Как динамически изменять конфигурацию Flink при условии, что Flink невозможно перезапустить
- Интегрированное объяснение Flink Flow Flow
- Поговорим о проверке и барьере Флинка.
- Давайте поговорим о механизме состояний Flink.
- Трансляция Flink
- Flink в реальном времени topN
- Как обычно использовать Flink на стажировках
- Знаете ли вы, что такое Savepoint?
- Задумывались ли вы, почему следует использовать Flink вместо других микропакетов?
- Объясните, что такое противодавление.
- Распределенный снимок Flink
- Процесс анализа Flink SQL
- Мигание в режиме YARN
- Как Flink гарантирует, что данные не будут потеряны?
9. Вопросы для собеседования по хранилищу данных
- Представляем хранилище данных
- Основные принципы хранилища данных
- Архитектура хранилища данных
- Хранилище данных является многоуровневым (деление по уровням). Что делает каждый уровень? Каковы преимущества многоуровневого хранения?
- На чем основана стратификация данных?
- Принципы и идеи стратификации хранилища данных
- Существуют ли широко используемые модели для моделирования хранилищ данных, различия, преимущества и недостатки?
- В чем разница между моделью звезды и моделью снежинки? Сравнение преимуществ и недостатков?
- Какие существуют методы моделирования хранилища данных?
- Каков процесс моделирования хранилища данных?
- Этапы размерного моделирования, как определить эти размеры
- Разница между многомерным моделированием и парадигмальным моделированием
- В чем разница между таблицей измерений и таблицей фактов?
- Что такое модель ER?
- OLAP и OLTP объясняют (разницу), в чем заключаются эти три парадигмы, и приводят несколько примеров.
- процесс объемного проектирования, фактический процесс проектирования
- В пространственном проектировании есть интеграция и разделение. Каковы методы и подробные пояснения?
- Существует несколько типов конструкций таблиц фактов, каждый из которых посвящен тому, как использовать его в бизнесе.
- Различия и функции таблицы фактов одной транзакции и таблицы фактов нескольких транзакций
- Давайте поговорим о измерениях согласованности, фактах согласованности и матрице шины.
- Какая работа была проделана для ETL от уровня ODS до уровня DW?
- В чем разница между хранилищем данных и (традиционной) базой данных?
- Как обеспечивается качество данных и какие методы используются для его обеспечения?
- Как измерить качество данных хранилища данных и какие показатели существуют?
- Инкрементный стол, полный стол и стол на молнии.
10. Подробные вопросы на собеседовании
- Разница между Спарком и Флинком
- Когда Flink и Spark Streaming обрабатывают данные, как они это делают? Каковы их преимущества?
- Как вы думаете, почему Flink лучше, чем Spark Streaming?
- Каковы преимущества SaprkStreaming по сравнению с Flink?
- В чем разница между Flink и Spark для пакетной обработки?
- Как Flink+Kafka обеспечивает точное единоразовое потребление?
- В чем разница между Hive и MySQL?
- В чем разница между Hive и HBase?
- Какова связь и разница между Hive и HDFS?
- Разница между Spark и Hive
- Связь между Spark и Hive
- Разница между Hive и традиционными базами данных
- Сравнивая Spark и Hive, кто лучше и почему, по вашему мнению?
- Сравнение (разница) между MySQL и HBase
- Разница между Spark и Hadoop
- Почему Spark работает быстрее, чем MapReduce Каковы причины?
- В чем разница между Spark и MapReduce? Каковы их преимущества и недостатки?
- Преимущества Spark по сравнению с MapReduce
- Устраняет ли использование Spark необходимость в Hadoop?
- Разница между SparkStreaming и Storm
- В чем разница между Флюмом и Кафкой?
- Зачем использовать Flume+Kafka?
- Как настроены Flume и Kafka?
- Spark Streaming интегрирован с Kafka, как обеспечить семантику Exactly Once
- В чем разница между Spark Shuffle и MapReduce Shuffle? Давайте поговорим об их характеристиках и процессах.
- Если Spark хочет сохранить данные в HDFS, какой оператор следует использовать?
- Каковы различия между Hive SQL и Spark SOL? Каковы их преимущества и недостатки? Почему бы не использовать Spark SQL вместо Hive SOL?
- В чем разница между распределенной системой хранения и структурой распределенных вычислений?
- ETL-процесс?
- Разница между озером данных и хранилищем данных
- Разница между автономной обработкой и обработкой в реальном времени
- В чем разница между хранилищем данных в реальном времени и автономным хранилищем данных?
- В чем разница между Hadoop (HDFS) и MySQL?
- Давайте поговорим о различиях между Storm, Flink и Spark, их преимуществах и недостатках, а также применимых сценариях.
- Какова связь между HDFS и HBase?
- Выбор формата хранения, преимущества и недостатки хранения строк и хранения столбцов.
- Связь между Hive, HBase и HDFS
- Где хранятся данные в Hive и где хранятся данные в MySQL?
- Что делать, если объем данных слишком велик и HDFS не может выдержать нагрузку сбора данных Flume?
- Разница между Hadoop и gp (GreenPlum)
- MapReduce/Spark вручную уничтожил WordCount
- Зачем использовать Scala для разработки Spark вместо Python
- В чем разница между Scala и Java
11. Вопросы для собеседования по базе данных
- Что такое транзакция в базе данных и как она реализована в MySQL
- Каковы характеристики транзакций MySQL?
- Уровень изоляции транзакций базы данных. Какая проблема решена? Уровень изоляции транзакций по умолчанию?
- Определение грязного чтения, фантомного чтения, неповторяемого чтения
- Как реализовать повторяющееся чтение в MySQL?
- В чем разница между третьей нормальной формой базы данных и четвертой нормальной формой?
- Механизм хранения MySQL?
- Какие блокировки имеет база данных?
- Давайте поговорим о пессимистическом замке и оптимистическом замке.
- Что такое распределенная база данных?
- Каковы условия тупика? Как предотвратить тупик?
- Опишите ioin базы данных (внутреннее соединение, внешнее соединение, полное соединение), разницу между внутренним соединением и внешним соединением (левое и правое соединение).
- Процесс присоединения к MySQL
- Какие механизмы хранения данных есть в MySQL?
- Разница между механизмом хранения MvlSAM и InnoDB в базе данных
- Для каких сценариев подходит Mylsam?
- InnoDB и Mvlsam для чтения и записи сценариев?
- Какой уровень изоляции реализует MySQL Innodb?
- Особенности механизма данных InnoDB
- Какой индекс использует InnoDB?
- Недостатки хеш-индекса
- Каковы преимущества и недостатки каждого типа индекса базы данных?
- Что такое индексы MySQL? Как оптимизировать индекс?
- Какие структуры данных можно использовать в качестве индексов?
- В чем разница между B-деревом и B+ деревом?
- Зачем использовать дерево B+ в качестве структуры индекса?
- Вместо использования дерева B+ вы можете использовать этот тип данных для реализации структуры индекса.
- Знакомство с принципами использования совместных индексов в MySQL
- Нужно ли строить индекс в базе данных?
- Недостатки MySQL?
- Что такое грязное чтение? Как это решить?
- Почему существуют три основные парадигмы? Нужно ли им следовать при построении базы данных?
- Какие столбцы обычно индексируются базами данных? Какова структура данных индекса?
- Какие вопросы необходимо учитывать при создании индекса в MySOL
- Разница между реляционной базой данных и нереляционной базой данных
- Разница между MySQL и Redis
- Сравнение преимуществ и недостатков столбчатых и строковых баз данных.
- Какие еще форматы кодировки существуют, кроме UTF-8?
- В чем заключается основной принцип работы фильтра Блума? Каковы ограничения? Какой метод можно использовать для увеличения функции удаления?
- В каких сценариях вы используете фильтры Блума?
- Решение (оптимизация) для медленных SQL-запросов?
- Давайте поговорим о кластерном индексе и некластеризованном индексе.
- Каковы преимущества и недостатки хеш-индекса по сравнению с B+?
- Знает ли MVCC?
12. Заключение
Обобщение вопросов собеседования — это долгосрочная задача. Если интервью не прекратятся, то обобщение вопросов собеседования не прекратится никогда. В будущем постепенно будут добавляться вопросы для собеседований, связанные с Java, компьютерными сетями и т. д. На самом деле это не только вопрос для собеседования, но и справочник для собеседования, позволяющий ознакомить вас с различными вопросами собеседования. Конечно, проектная часть. ,Можно смотреть только на себя,ведь резюме,стажировка,проекты и т.д. у всех разные.
Этот вопрос для собеседования будет обновляться каждый квартал или полгода.