Большой поток данных: большие данные, вычисления в реальном времени, управление данными, практика визуализации данных, средства массовой информации. Регулярно публиковать статьи о технической практике управления данными и реализации управления метаданными, а также делиться технологиями и материалами, связанными с внедрением практики управления данными.
Создайте группы обучения и обмена для начала работы с большими данными, управлением данными, Superset, Atlas, Datahub и т. д.
Потоки больших данных и изучение технологий больших данных никогда не прекращаются.
Введение:Этот обмениз Гостьда Учитель Чжао Юнцзе,онда Superset из PMC член, а также Preset Полная занятость инженер, существует полный рабочий день по техническому обслуживанию Superset из сообщества,Слишком Superset заголовок этого раздела ——От; исследовательского анализа данных до современных информационных панелей BI: Superset 2.0。
Сегодняшняя сессия обмена будет сосредоточена на следующих моментах:
Делюсь гостем|Чжао Юнцзе Preset Inc., старший инженер по обработке данных.
Монтаж | Ван Чао
Производственное сообщество|DataFun
01
История суперсета Apache
Apache Superset Первоначально получено из Airbnb внутренний из hackathon Проект, самый ранний из commit Должно быть, это произошло из 2015 года, то есть очень давно. Это было семь или восемь лет назад. После многих лет инкубации Суперсет. В этом году это 2022 Окончил в начале года и стал Apache из ТОП ПРОЕКТ.
в то же время Superset Слишком GitHub Выше BI и в области визуализации Star、Fork и Maintainer большинствоиз Один из проектов。
Superset не только быть Airbnb и Preset поддерживается, поддерживается Superset из Существует множество компаний, таких как Apple、Dropbox Для его обслуживания будут работать штатные инженеры. Superset из проекта. так Superset Проектов становится все больше и больше, проектов становится все больше и больше.
Сегодня я сосредоточусь только на представлении некоторых функций подключения. Эти вещи являются частью анализа типов данных. Superset Ядро — это функция, но эти функции просто да Superset Верхушка айсберга.
02
Возможности расширенного набора Apache
1. Superset да Python из проекта вы можете использовать Superset из DBAPI2 Интерфейс для поддержки всех реляционных библиотек данных и соединений.
для Python из DBAPI2 Интерфейс, нужно только реализовать его очень просто Connection и Cursor из interface Вы можете очень быстро разрабатывать новые DB диалект, который позволяет легко получить доступ ко всем новым реляционным библиотекам. Superset。
2. Superset также имеет очень обширную и очень мощную функцию. SQLLab IDE
Если вы использовали Hue,SQLLabи Hue очень похож, но некоторые функции будут лучше, чем Hue быть немного более мощным и SQLLab Это просто да Superset Внутри находится модуль. SQLLab производить visual dataset Вы также можете предоставить набор результатов для Charts и Dashboards использовать.
3. Superset поддерживает множество диаграмм предварительной обработки.
50+ диаграмм предварительного просмотра Superset Встроенные диаграммы также можно настроить с помощью плагина Superset внешнего интерфейса предварительного просмотра, что очень удобно, а настроенные диаграммы можно использовать полностью. Superset charts Исследование данныевсе из инструментов.
4. На диаграммы можно связать информационные панели, а также можно выполнять множество видов фильтров.
существовать Dashboards Верно может вверх из Charts Вносите различные индивидуальные модификации.
5. Система плагинов (Плагины)
Система плагинов Superset также очень мощная, и вы можете самостоятельно настраивать новые фильтры диаграмм.
6. Регулярные отчеты (Отчеты)
Во-вторых, функция регулярной отчетности,Вы можете поставить несколько задач на время,Позвольте Superset регулярно отправлять диаграммы или информационные панели.
7. Пользовательский шаблон CSS (Шаблон CSS)
Расширенный набор интерфейсов, который можно индивидуально настроить.,Очень удобно настроить весь стиль Superset, настроив шаблон CSS.,Например, шрифты, цвета фона и цветовые схемы.
8. Разрешения на уровне строк данных, сопоставление условий запроса на основе вошедших в систему пользователей.
Наконец, некоторые корпоративные пользователи очень заинтересованы в контенте.,Очень удобно сопоставлять разных пользователей входа в систему с помощью некоторых конфигураций.,Вы можете увидеть различные разрешения пользователя на уровне строк.
Приведите пример,Например, вы можете определить имя пользователя, где пункт сопоставления,Таким образом, разные пользователи будут видеть разные варианты входа в систему.
03
Исследование данных
Исследование данныхда Что-то вродеанализ Метод dataiz, аналитики могут использовать средства предварительной обработки для анализа данных. Это Слишком Суперсет Возможности продукта сильно отличаются от других настраиваемых инструментов. Я только что увидел друга, который спрашивал об этом в сообществе, и существует. Grafana В чем разница? данных Сразудаи Grafana Есть очень большие различия в характеристиках.
1. Дизайн пользовательского интерфейса с возможностью перетаскивания
Вы можете использовать интерфейс перетаскивания для перетаскивания индикаторов и измерений.
2. Плавное переключение между различными графическими изображениями визуализации (новая функция).
Например, если вы создадите линейный график,Очень удобно переключить его на гистограмму.,Или переключите его на обычную таблицу или точечную диаграмму. Цель этого проекта — облегчить вам анализ данных.,Например, линейные графики могут быть очень удобными для просмотра тенденций.,На трехточечной диаграмме можно легко увидеть распределение данных.
3. Доступны как размеры, так и индикаторы. customized SQL snippet
Кажется, это очень часто используется,Какую ценность это может принести? В процессе разработки Superset и общения с клиентами об их потребностях мне показалось, что эта функция кажется очень обыденной.,Но даверно очень полезно для многих пользователей,потому что разныеиз Нижестоящий пользовательиз DB или дадата На складе используется изда различная продукция. Например, кто-то использует ClickHouse, кто-то — Presto, а кто-то — BigQuery. Различные данные. Хранилище будет иметь разные функции и некоторые настраиваемые выражения. В программировании невозможно быстро реагировать на разные данные. склад из некоторых новых UDF или индивидуальных функций. Если продукт BI позволяет вам легко писать пользовательские фрагменты SQL, вы можете в полной мере воспользоваться преимуществами последующих данных. склад или DB из Некоторые способности.
4. Предварительный просмотр SQL/набор результатов/выборка данных
Это часто используемый сценарий анализа аналитиками.,Когда вы увидите графику «Предварительный просмотр»,Вы также хотите увидеть, какой SQL генерирует эти графики.,И какие наборы данных генерируют эту графику предварительного просмотра. Излишне говорить, что выборка данных,Каждый аналитик хочет увидеть, какие данные и какие типы данных содержатся в коллекции данных, прежде чем анализировать существующие.
5. Расширенный временной анализ: расчет временного сдвига/выборки/прокрутки.
Конкретные бизнес-сценарии, например, когда вы заканчиваете год to дата или год over Его можно использовать в любом году. На китайском языке он называется «год за годом», «месяц за месяцем» или «да» для расчета некоторых показателей от текущего до начала этого года.
6. Расширенный временной анализ: прогнозный анализ
Вы можете самостоятельно загрузить множество библиотек прогнозной аналитики, это очень удобно в существующем Супермножестве диаграмм временного анализа, позволяющем использовать некоторый прогноз анализа.
7. Слой аннотаций
Слой аннотаций Я считаю, что инструментов BI должно быть много.,Можно очень удобно загрузить на график определённый индикатор и некоторые пороговые значения.,при превышении некоторого порога,Могу отправить вам несколько отчетов.
8. Регулярно отправляйте отчеты
Superset из charts и dashboard Все поддерживают регулярную отправку отчетов, вы можете использовать некоторые Celery. изTask,Или определенные индикаторы срабатывают по правилам,Мы можем регулярно отправлять вам отчеты на вашу электронную почту или в Slack.
9. Различные URL-адреса/электронные письма/встроенные коды обмена.
в то же И интерфейс исследования Superset, и интерфейс информационной панели поддерживают различное совместное использование, например совместное использование URL-адресов, обмен по электронной почте или, если вы хотите встроить панель мониторинга или страницу исследования в существующее предприятие через iframe. Portal в.
04
Исследование данных Demo Демо
Благодаря проекту Superset да Визуализация,Мне не так удобно это говорить, как другим учителям.,Я собираюсь сделать следующийlive демо, вчера я записал для тебя двухминутное видео. интерфейс данных. Основная цель демонстрации — предоставить вам размеры индикатора и возможность перетаскивания.,существуют внутри временного анализа или индикаторного анализа,Ось X может автоматически адаптироваться к вашей временной шкале.,Или да классификация и по оси,Временной фильтр, анализ движения времени、предварительный просмотр данных и выборка из Функция。
Теперь я использую набор данных супермаркета для изучения интерфейса исследования. Сначала я вхожу в Superset. 2.0 в интерфейсе исследования, крайний левый элемент позволяет фильтровать показатели и параметры. Side Bar。
В средней части можно выбрать некоторые элементы управления, а в самой правой — просмотр интерфейса рисования и просмотр данных из интерфейса.
Теперь я хочу перетащить индикатор и измерение в элемент управления. панели я выбрал показатель да Продажи, а затем выбрал метод агрегации даSUM, а затем еще выбрал время из детализации, время из детализации даShip Date。
Теперь мы собираемся построить диаграмму осей.,Вы можете увидеть этот линейный график: линейный график в днях,Мы можем легко изменить время и степень детализации.,Изменение дня на месяц,Мы также можем легко изменить его на недели.
Теперь нам нужно перетащить прерывистое измерение на ось.,Я перетащил регион на ось,Это автоматически изменит линейную диаграмму, чтобы больше не использовать значения непрерывных размеров.,Вместо этого график рисуется с использованием дискретных значений измерений. Однако дискретные значения не подходят для представления в виде линейных графиков.,Поэтому мы переключаем его на гистограмму.
этот СлишкомSuperset В версии 2.0 появилась новая функция: Superset имеет более 50 встроенных визуализаций, которые можно очень легко и свободно переключать без потери какой-либо управляющей информации. И эти запросы отправляются вам в режиме реального времени из базы данных или данных. хранилище, не загружайте эти файлы на уровень BI.
Давайте снова переключим его на линейный график и по-прежнему будем использовать Order Dateкак этоизxось
На данный момент мы добавляем несколько временных фильтров,Временной анализ – самый сложный метод анализа в анализе.,Потому что будет много вариантов времени,Мы можем очень удобно написать некоторые временные выражения и выбрать несколько временных диапазонов. Я написал здесь только очень простое выражение времени.,Вы должны уметь писать очень сложные слова.,Это будет варьироваться в зависимости от базы данных,Перевести в изtimeиз Функцию, под которую адаптируются все БД.
Этот да Суперсет имеет больше уникальных характеристик.,Можешь немного поработать над панорамированием,да говорит, что вы хотите видеть текущий индикатор и некоторые различия между индикаторами, если вы выбираете временной сдвиг,Например, из показателя мы выбираем год назад,Я хочу посмотреть на эти показатели годичной давности, и значения да легко получить.
В то же время я также могу вручную ввести некоторые выражения, чтобы увидеть, как будет выглядеть индикатор через год.,Если будут данныеиз через год,На самом деле существует множество способов его расчета.
Предварительный просмотр данных слишком Отправьте несколько запросов напрямую в библиотеку данных, и вы сможете увидеть все столбцы и все данные в вашей текущей и зданной коллекции.
в то же время Вы также можете очень удобно просмотреть компоненты SQL предварительной обработки. Эти вещи можно очень удобно скопировать в буфер обмена, и вы можете очень удобно использовать их с другими инструментами. инструмент данных для анализа
05
Dashboards
После того, как вы разместите все диаграммы на информационных панелях,Будет создана панель мониторинга,Мы, китайцы, часто называем это большим экраном или каким-то другим продуктом. После размещения этих диаграмм на панели инструментов,На панелях мониторинга вы можете выполнять более сложные операции.
1. Native Filter
Superset В версии 2.0 появилась новая из Функция под названием Native. Фильтр, это было изFilter BoxizCharts уже не тот, он не зависит от всех фильтров Charts, вы можете сохранить скриншот, увидев крайнюю левую сторону. bar,Вы можете настроить множество видов фильтров.,Перейти к верно Все изCharts,Или вы указали несколько диаграмм для фильтрации.
2. Несколько тегов
SupersetизDashboards поддерживает богатый набор операций с надписями.,На ваших информационных панелях много вкладок.,Разные вкладки могут иметь разный контекст для описания вашей истории.
3. Каждая вкладка имеет расположение строк и столбцов.
4. Markdown
В дополнение к поддержке некоторых основных графиков,На существующихDashboards вы также можете легко вставлять ссылки, картинки или даMarkdown.,Вы можете написать описание
5. Cross Filter
Ниже приведены некоторые из интересных, которые в настоящее время находятся в стадии разработки.,Например, перекрестный фильтр,Cross Фильтр позволяет фильтровать всю панель мониторинга, щелкнув некоторые измерения на графике. Я тоже сделаю демо через некоторое время.
6. Детализация (детализация)
Nextда Дрель Через из Функция я только что увидел, как кто-то спросил в группе существования, есть ли у да Drill. Дауниз Функция, вообще-то в прошлом году я сделал POC for Drill Вниз, но компания надеется добиться большего и впервые внедрила Drill в этом году. Through,Drill Черезсуществовать Суперсет называется Drill to Detail,Вы можете нажать на измерение, нажав на существование,Отображение размеров на самом детальном уровне,Эта функция сейчас существует и была разработана,и может быть использован,Я тоже сделаю демо через некоторое время.
7. Разверните диаграммы и получите данные диаграмм.
Вы можете делать эти вещи не только на приборной панели.,Вы также можете сделать что-то вроде того, если у вас много диаграмм на панели инструментов.,Вы можете верно Диаграммы максимизировать,Вы также можете проверить, какой SQL стоит за диаграммами.,Все элементы в диаграммах можно легко получить с помощью Click.
8. Автоматическое обновление
Все еще в то же времяподдерживать Автоматическое обновление,Автоматическое обновление больше похоже на некоторые инструменты мониторинга.,Каждый должен был использовать Grafana или другие инструменты,Вы можете указать секунды или минуты для обновления.
06
Dashboards Demo Демо
NextдаDashboardsиздемо,относительно простой,Потому что дашбордов слишком многоиз Функция,Я только что нашел некоторые из них, которые лично мне кажутся наиболее важными и которые можно использовать в производственной среде для создания некоторых проектов.
В этот Superset входит пример Dashboards, а этот — Native. фильтр, теперь существую, назначаю его пользователем фильтр-фильтр, он может фильтровать все графики по имени пользователя. 。
Очень внимательный,Все эти изображения из фильтра Выше будут иметь некоторые из【? 】,чтобы сказать вам, фильтруется ли оно,да Без фильтра,Этот фильтр да, но у меня нет эффекта.
Это временной фильтр, временной фильтр. то же время также можно использовать на панелях мониторинга существования, потому что «Изданные» — это всего лишь образец, это не реальная производственная среда, например, я хочу фильтровать в последнюю очередь неделя не может быть отфильтрована из,Я просто хочу дать вам здесь некоторую информацию.,Фактически запрос не отправляется.
Далее позвольте мне дать вам Native Фильтриз интерфейса, это Слишком Суперст 2.0 — очень серьезное обновление. да полностью не зависит от фильтра «Диаграммы». Вы можете установить множество существующих методов фильтрации.
И вы также можете установить этот фильтр для применения из диапазона,Например, вся группа,Или я могу применить фильтр только к определенным диаграммам.,А не вся Группа.
Drill to Функция «Детализация» уже поддерживает большую часть графики, например «Дерево». Карта, вы можете нажать канал nameСразу Вы можете увидеть деталиданные Что там。этотсуществоватьв производственной средеда Очень часто используетсяиз。Стоит упомянутьиздаэтот Подробности на каждой страницеданные Запрос,он будет использовать анализизпуть ко днуизданные Библиотекаили дадата склад для отправки запросов.
Следующий Демоиз ФункциядаCross Filter , другие картинки можно отфильтровать, нажав на конкретное измерение на картинке, я нажимаю на общее. то же время отправьте фильтр к другим изображениям, вы можете увидеть его изMembers per Канал даобщий.
Я выбираю другое измерение значения, и оно отправляет другое значение.
Далее вы сможете использовать данную функцию на всех страницах вашего существования из ОО из Функция.,Вы можете использовать его в существующихDashboards. Я считаю, что многие конкурирующие продукты не смогут этого сделать.,Вы можете просмотреть SQL.
Например, я могу видеть, какие запросы были отправлены медленным запросом, чтобы иметь возможность использовать некоторые сторонние инструменты для объяснения моего запроса.
Здесь я могу пойти и посмотреть, какие данные я использовал для визуализации.
Наконец-то все смогут увидеть,На самом деле, все это можно скопировать.,Очень удобно: позволяет вам получить нужные движущиеся части с помощью изданных Superset и скопировать их в буфер обмена или другие инструменты. Я думаю, что это слишком важная функция современных инструментов BI.,Это не помешает вам что-либо сделать.
07
Tips
Далее я познакомлю вас с двумя другими советами, которые помогут вам использовать Superset в производственной среде.
1. Feature Flag
Первый совет называется «Функция». Флаг, в Суперсете много экспериментальных, называемых Features. Флаг, эти особенности Во время разработки флаг существующего по умолчанию отключен. Когда разработка будет завершена, для некоторых функций по умолчанию будет установлено значение True.,Если вы напрямую загрузили пакет Superset или зеркало,Некоторые функции нельзя использовать из,Поэтому вы должны открыть его в существующей конфигурации, прежде чем сможете его использовать.
Также очень просто открыть метод,Вы переходите в каталог Superset изconfig.py.,Просмотрите флаг функции, который вы хотите изменить.,Посмотри какой да,Приведите пример,Например, даCLIENT_CACHE,
Вы хотите открыть CLIENT_CACHEФункция,Вы просто записываете значение «ключ-значение» в словарь флагов функций.,Затем функция открылась. Вы можете пойти и насладиться некоторыми из них, которые все еще находятся в разработке, или теми, которые являются экспериментальными.
я Приведите пример,Например, сейчас существует это DRILL_TO_DETAIL,сейчассуществоватьэтоизпо умолчаниюдаFalse,Просто измените DRILL_TO_DETAIL на True.,затем высуществовать Dashboard Вы можете увидеть изDrill на to Функция детализации сейчас.
2. Создайте собственные плагины визуализации.
Второй совет касается настройки плагина предварительного просмотра. Всем известно, что наибольший спрос на проект Предварительная визуализация,Потребности компании или организации сильно различаются.,Тогда некоторым компаниям понадобится что-то очень индивидуальное. Что делать, если некоторые библиотеки с открытым исходным кодом не предоставляются?,Тогда вам обязательно придется писать его самостоятельно с нуля.
Superset предлагает плагин предварительного просмотра с функцией,Я думаю, что «Слишком Суперсетиз» очень конкурентоспособен и очень хорош по своей функции. Вам не нужно писать много кода,Вам нужно всего лишь использовать внешний инструмент для автоматического создания шаблона плагина.,С небольшой модификацией вы можете полностью адаптировать его к экосистеме Superset, такой как Dashboards, Explore и т. д. Я разместил ссылку на руководство здесь: https://preset.io/blog/building-custom-viz-plugins-in-superset-v2.,Вы можете нажать, чтобы увидеть,очень быстро,Всего несколько шагов,Вам нужно всего лишь немного знаний о интерфейсе, чтобы создать индивидуальный интерфейс. Например, сейчас существование я создал Hello Worldизплагин.,Он использует json для отображения содержимого моего запроса.
Сегодня я закончил свое выступление и наконец опубликую адреса некоторых проектов.
Приглашаем вас посетить сообщество Superset изgithub (https://github.com/apache/superset), чтобы отправить вопрос, PR или да в обсуждения.
Во-вторых, у Superset также очень активный канал в Slack.,Вы можете зайти внутрь и задать вопросы.,Внутри много людей,Многие, многие люди обсуждают это каждый день.
даApache снова Mailing список, но да Рассылка Пользователей списка относительно мало, да и другие проекты не такие.
Наконец даPresetизBlog (https://preset.io/blog/), Preset В блоге будет много качественных руководств или выпусков. notes,Каждый может пойти и посмотреть это,Вы можете увидеть некоторую последнюю информацию Superset.
08
Сессия вопросов и ответов
Вопрос 1. Может ли Superset существовать, исправленный после исследования, и быть предоставлен внешнему менеджеру API, чтобы другие приложения могли использовать данные?
A1:SupersetиTableau、Power В BI очень большая разница. В нем нет процесса извлечения. Все его запросы напрямую отправляются в базу данных нижнего уровня. складе, у него нет возможности извлечь данные во внутреннюю память. Но в даSuperset есть запрос данных из API, который вы можете использовать, вы можете перейти в Superset. APIизDocument。
Вопрос 2. Самостоятельное перетаскивание во многих случаях позволяет создать существующий набор данных из,Так почему же условия изфильтра в информационной панели изBI или интерфейсе отчетов, созданных на основе этих данных, не могут быть прозрачно переданы внутрь набора данных?,Сейчас большинство существует на основе данных, установленных внешних добавленных фильтров,Разве это не влияет на производительность запросов?
A2: Superset очень уникален и может отправлять запросы непосредственно в базу данных или данные одним щелчком мыши. Склад не хранит эти данные. Узким местом производительности Superset является не сам Superset, а последующие базы данных или данные. warehouse,Слишком имеет характеристики стека: каждый слой просто должен делать свое дело.
Вопрос 3. Условия фильтрации раскрывающегося списка на основе набора данных в настоящее время основаны на операции datadistinct. Могу ли я связать псевдотаблицу?
A3: Я понимаю, что вы имеете в виду, если некоторые многомерные таблицы измерений напрямую выдают счетчик. если вы напрямую отправите его в другую таблицу измерений, производительность раскрывающейся фильтрации будет намного выше. Superset может внести такие изменения, но текущая версия с открытым исходным кодом не внесла таких изменений. ., но можно было бы сделать это проще, hack Перейти в реальностьсейчас。этот Слишком Проекты с открытым исходным кодом интересны и позволяют многим крупным компаниям、Некоторые известные интернет-компании переходят на Форк、Иди пользуйся причинами.