Всем привет, мы снова встретились, я ваш друг Цюаньчжаньцзюнь.
Оглавление
1. Пояснения к различным терминам
1.2 Уровень хранилища данных DW?
1.2.1 Уровень детализации DWD?
1.2.2 Уровень сводки света DWM (MID или DWB, на основе хранилища данных)
1.2.3 Тематический уровень DWS (DM, рынок данных или DWS, служба хранилища данных)
1.5 ODS, DW → Уровень приложения
1.7 Простая иерархическая схема уровней
2.2 В чем разница между ODS и DWD?
2.3 Что делает уровень приложения?
Я не специалист по хранилищам данных, но мне все равно нужно разбираться в хранилищах данных.
На самом деле многие уровни варьируются от человека к человеку, и даже после опроса многих коллег различия между слоями не очень ясны.
Так что, если у вас будет шанс в будущем, давайте встретимся с коллегами из Шуцана~
Уровень хранилища данных (DW) является основной частью хранилища данных. Здесь данные, полученные из уровня ODS, создают различные модели данных в соответствии с темами. Этот слой будет иметь более глубокую связь с пространственным моделированием.
Сегментация:
Уровень детализации (ODS, Operational Data Store,DWD: data warehouse detail)
Уровень продукта данных (APP). Этот уровень предоставляет результирующие данные, используемые продуктами данных.
Он в основном используется для продуктов данных и анализа данных. Обычно он хранится в ES, Mysql и других системах для использования онлайн-системами. Он также может храниться в Hive или Druid для анализа и интеллектуального анализа данных.
Например, сюда обычно помещают данные отчета, о которых мы часто говорим, или большую широкую таблицу.
Прикладной уровень (приложение)
Существует два основных источника данных:
Бизнес-библиотека, где Sqoop часто используется для извлечения
Наша бизнес-библиотека использует шину данных для получения и обработки Kafka.
Что касается режима реального времени, вы можете рассмотреть возможность использования Canal для мониторинга Binlog Mysql и доступа к нему в режиме реального времени. (Я восполню этот канал, когда у меня будет возможность)
Чтобы спрятать журналы, онлайн-система вводит различные журналы. Эти журналы обычно сохраняются в виде файлов. Мы можем использовать Flume для их регулярного извлечения или использовать Spark Streaming или Storm для доступа к ним в режиме реального времени. Кафка также будет использована в ключевой роли.
Вы также можете использовать filebeat для сбора журналов, отправки их в Kafka, а затем обработки журналов.
Примечание. На этом уровне не должен быть простой доступ к данным, а должна быть предусмотрена определенная очистка данных, например, обработка ненормальных полей, стандартизация именования полей, унификация полей времени и т. д. Обычно их легко игнорировать, но они по-прежнему важны. Это будет очень полезно, особенно когда мы позже будем автоматически генерировать различные функции.
Здесь в основном есть два типа:
Измерение Наконец, добавляется поверхностный слой измерения. Поверхностный слой измерения в основном содержит две части данных: Многомерные данные с высокой мощностью: обычно таблицы данных аналогичны таблицам пользовательских данных и таблицам данных о продуктах.。данные Сумма может достигать десятков миллионовили Уровень сотен миллионов。 Данные измерения с низкой мощностью: обычно таблица конфигурации.,Например, значение перечисления соответствует китайскому значению слова «из».,или Таблица измерений даты.данные Сумма может быть однозначнойили Тысячи и десятки миллионов。
См. рисунок ниже. Если обрабатывается слой DWD, это слой DWM (уровень MID) (в нашем хранилище данных все еще есть много слоев dwm).
Вот объяснение функций DWS, DWD, DIM и TMP.
Вопросы и ответы 1: dws и dwd отношение просить:dws иdwd Это параллельно, а не последовательно? отвечать:параллельныйиз,dw слой просить:Фактически, для того же самогоданные,Являются ли эти два процесса последовательными? отвечать:dws Резюме сделаю, dwd и ods Детализация одинакова, и между двумя слоями нет зависимости. просить:Да,Вот и все dws Сводка внутри не была обработана с точки зрения качества и полноты данных или была выполнена только обработка, связанная с качеством, почему бы и нет dwd А как насчет приведенного выше резюме? На самом деле мой вопрос заключается в том, было ли обработано качество данных для слегка обобщенных результатов данных DWS? отвечать:ods непосредственно к dws Это нормально, не надо через это проходить dwd, позвольте мне привести вам пример. Если вы просматриваете поведение продукта, я сделаю небольшой обзор и помещу его прямо в раздел. dws . Но ваша информационная форма должна быть составлена из множества форм. Мы собрали полную информационную форму из четырех или пяти форм личной информации. dwd середина. затем в app На слое мы хотим создать портретную таблицу, включающую информацию о пользователях и их поведение за последний год. Мы будем получать информацию непосредственно из dwd. а потом еще раз dws На основе статистики это становится таблицей приложений. Конечно, это не абсолютно, dws и dwd Есть ли зависимость, во многом зависит от того, есть ли такой спрос.
просить:Все еще не совсем понимаю ods и dwd разница слоев, есть ods ощущение после слоя dwd Больше нет никакой пользы. отвечать:Хм,Вот как я это понимаю,С идеальной точки зрения,,если ods Слоеизданные очень регулярны и в принципе могут удовлетворить большинство наших потребностей. На данный момент это, конечно, хорошо. dwd слой на самом деле не очень нужен. Но на самом деле ситуация контакта такова. ods слойизданные В конце концов, сложно гарантировать качество. Существует много типов данных, и у стороны отправки также будет своя логика отправки. В этом случае нам нужно передать дополнительный уровень. dwd Чтобы скрыть некоторые различия нижнего слоя. просить:Я, наверное, понимаю,Вы имеете в виду dwd В основном прав ods слой выполнить очистку данных и нормализацию операций, dws В основном прав ods многослойные сделать немного светлее из рулона? отвечать:верноиз,Это можно понимать примерно так.
Вопросы и ответы 3: приложение Что делает слой? просить:Чувствоватьданныерынокслой Неужели некуда его поставить?,Каждый бизнес-изданный базарный стол – это то, что должно быть в нем. dwd Все еще там app? отвечать:этотвопрос Не легко ответить,Я думаю, главное — это уточнить, для чего предназначен уровень рынка данных.,Если вы положили изданные базарные слои, есть несколько широких столов, которые могут быть использованы деловыми людьми.,надевать app Просто слой. Если вы говорите, что изданные базарные слои – это более общее понятие, то на самом деле dws、dwd、app Вместе они считаются содержимым витрины данных. просить:Тогда сохраните его Redis、ES Данные в applayer? отвечать:Вот и всеиз,Я лично понимаю,app На слое в основном хранятся некоторые относительно зрелые таблицы, которые могут использоваться бизнес-стороной. Эти таблицы можно найти в Hive в или из Hive импортировать Redis или ES Такая система имеет лучшую производительность запросов.
Картинка другого блоггера довольно хороша:
Предметнаходится на более высоком уровнеслой Информационная система предприятия вице-адмиралаизданныесинтезировать、Классифицироватьи Анализ и использованиеизабстрактная концепция,Каждая тема в основном соответствует области макроанализа. в логическом смысле,Он соответствует объекту анализа, задействованному в определенной области макроанализа на предприятии. Например, «Анализ продаж» — это поле анализа.,Итак, это приложение хранилища данных по теме «Анализ продаж».
Будет соответствовать различным темам
ссылка:https://www.cnblogs.com/wang3680/p/11538451.html
https://www.cnblogs.com/itboys/p/10592871.html
Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/124900.html Исходная ссылка: https://javaforall.cn