Эта статья основана на ArchSummit Глобальный саммит архитекторов (станция Шэньчжэнь) составлен на основе записи обмена в реальном времени Ван Яна, ответственного за Douyin dataNIOKR (с удалениями). Этот обмен в основном включает модели. и проблемы исследования и разработки данных ByteDance、Концепция DataOps, воплощенная в байтах , Разработка и внедрение DataOps, лучшие практики、прогноз на будущее Пять частей, общий контент основан на опыте бизнеса ByteDance.
В процессе реализации DataOps Byte сочетается с организационной моделью инструментов среднего уровня + BP данных, используемых для поддержки данных. Команда инструментов среднего уровня отвечает за построение функциональной базы, реализацию различных базовых возможностей разработки данных и предоставление данных. открытую платформу, обеспечивать тесную техническую поддержку команде данных BP, а также выводить эти возможности через движок вулкана в интегрированном внутреннем и внешнем режиме. Так называемая внутренняя и внешняя интеграция означает, что различные инструменты обработки данных Byte, такие как DataLeap, обеспечивают согласованность использования для внутренних и внешних пользователей.
Что касается команды data BP, то в процессе внедрения DataOps они сосредоточились на трех вещах: Первое — это формулирование спецификаций. В ходе долгосрочной практики в Byte мы считаем, что команда практики — лучший источник спецификаций. земля, во-вторых, реализовать разработку плагинов на основе открытой платформы инструментов среднего уровня, данных; BP — это не просто команда по хранению данных, она также включает в себя несколько групп инженеров. Команда инженеров, интегрированная с хранилищем данных, может реализовать и реализовать повседневные проблемы хранилища данных в виде плагинов, которые могут разрабатывать различные команды BP. различные данные в соответствии с их собственными характеристиками; последнее — оценка преимуществ. После продвижения DataOps они будут оцениваться на BP, а не на платформе. Команда инструментов среднего уровня может сосредоточиться на самой возможности. Команда BP по разработке данных сосредоточится на всей спецификации и стоимости. Наконец, внешние клиенты могут одновременно пользоваться возможностями нашей платформы и накопленной моделью BP. Это модель совместной работы, реализованная всей командой Byte в DataOps.
Как оценить эффективность работы команды BP? Для оценки мы используем набор понятных показателей 0987?
0 означает отсутствие происшествий с данными. К числу происшествий здесь относятся своевременность, качество и другие проблемы. Поскольку мы поддерживаем множество онлайн-сценариев и сценариев потери активов, несчастные случаи являются спасательным кругом в нашей системе оценки;
9 относится к степени удовлетворения спроса. Мы принимаем запросы на данные от многих сторон и надеемся достичь цели по своевременному выполнению более 90% требований;
8 относится к степени охвата анализа. Этот показатель означает, что 80% запросов внешней команды на основе хранилища данных могут использовать таблицы, которые мы создали и агрегировали, вместо исходных таблиц;
7 относится к показателю NPS. Мы будем раздавать анкеты всем запрашивающим пользователям и пользователям данных каждый квартал для сбора соответствующей обратной связи. 70% означает, что большинство студентов положительно оценивают нас, а отрицательные оценки близки к 0. ;
В рамках текущей модели поддержки команды Byte Data, поскольку модели поддержки разнообразны и охватывают различные основные сценарии принятия решений и онлайн-сценарии, основная проблема, с которой мы сталкиваемся, связана с качеством данных:
В контексте снижения затрат и повышения эффективности затраты на оборудование постепенно стали основной проблемой для группы обработки данных. В прошлом мы контролировали расходы, как и большинство компаний, в основном на основе бюджетов. целевой ресурс хранилища, а затем на основе бюджета выполнять действия по управлению, очищать недопустимые задачи или уменьшать TTL, но теперь нам нужно перейти к более точному контролю спроса. Нам нужно дополнительно посмотреть, сколько затрат на оборудование мне потребуется для удовлетворения этого спроса; , чтобы усовершенствовать контроль стоимости оборудования до уровня спроса.
Помимо затрат на оборудование, наши другие основные затраты — это затраты на рабочую силу. Сейчас я возглавляю команду по исследованию и разработке данных, и каждый раз, когда я провожу инвентаризацию HC, я сталкиваюсь с двумя душевными вопросами:
На самом деле это очень серьезная задача. Как нам доказать ценность команды по работе с данными?
Поскольку мы сталкиваемся с таким большим количеством проблем, нам нужно подумать о том, как их преодолеть. Извлекая уроки из опыта отрасли, мы обнаружили, что DataOps — это решение, которое может эффективно помочь нам решить вышеупомянутые проблемы.
Мы считаем, что ядро DataOps включает в себя следующие части:
Первый из них — это ссылка. Так называемая ссылка предназначена для открытия связующих отношений всей цепочки данных от спроса, развития, активов и пользователей. С функциональной точки зрения это относительно просто и решает проблему взаимосвязи между требованиями и кодом. Отдел исследований и разработок уже реализовал эту возможность. Каждый фрагмент кода, представленный сотрудниками отдела исследований и разработок, может знать, какое это требование. Однако в прошлом разработке данных уделялось недостаточно внимания, поэтому первое, что необходимо сделать, — это соединить весь процесс требований и данных.
Во-вторых, это спецификация. В прошлом весь процесс исследования и разработки данных не был стандартизирован, он в основном осуществлялся через документацию внутри команды, включая проверку требований, разработку и тестирование модели, а также онлайн-приемку. DataOps является наиболее стандартизированным с точки зрения спецификаций. Первое, что нужно сделать, — это оформить все эти разрозненные спецификации в процессе разработки данных и внедрить их в ежедневные связи разработки.
На этом рисунке показаны возможности пакета dataleap, разработанного Byte Data, который охватывает вычислительные механизмы, полнофункциональную разработку, глобальное управление, активы и другие инструменты. Такой универсальный пакет разработки больших данных может помочь пользователям быстро завершить интеграцию данных. Набор работ по исследованию и разработке данных, таких как разработка, эксплуатация и обслуживание, управление, активы и безопасность, может помочь группам данных эффективно сократить рабочие затраты и затраты на обслуживание данных, повысить ценность данных и обеспечить поддержку данных для принятия корпоративных решений. DataLeap — это не продукт, это пакет. Аналогия с изображением аналогична Office. Несколько продуктов взаимодействуют друг с другом для решения одной и той же большой проблемы или решения. Продукты находятся в кооперативных и вспомогательных отношениях.
Это весь байт DataOps Общая схема производства продукции, набор Гибкая, предусмотренная ядром стандартизированная платформа исследований и разработок DataOps。Раньше была модель, которая была платформенной.команда Все включено,Разработайте все эти спецификации,Рекомендовано командой платформы команде развития данных,Но эта модель нам не совсем подходит,Потому что команда платформы далека от бизнеса.
Мы считаем, что в этом случае платформа должна отдавать приоритет предоставлению открытых возможностей. Открытые возможности здесь включают открытые данные и интерфейсы, открытые процессы и т. д. Наличие такого набора открытых возможностей означает, что все группы разработчиков данных могут управлять процессом. сами, создайте свои собственные правила и положения.
Кроме того, мы обнаружили, что после того, как команда специалистов завершила работу, этот комплект Гибкая стандартизированная платформа исследований и разработок DataOps является общим для всех команд по разработке данных. Например, возможность тестирования не выполняется на платформе в формате Byte. BP У команды есть особые требования к работе в реальном времени: после публикации данных их необходимо отслеживать, чтобы следить за изменениями в данных в реальном времени. Опираясь на поддержку данных, обеспечиваемую открытой платформой, в сценарии прямой трансляции некоторые данные в реальном времени будут предоставляться ведущим, чтобы помочь им принимать своевременные решения. Эти данные в реальном времени включают пользовательские данные, портреты пользователей и т. д. Ведущий может корректировать свои слова на основе этих портретов пользователей. На основе открытой платформы , всю возможность выпуска данных команды BP для выполнения задач, а позже мы обнаружили, что этот набор возможностей может быть универсальным.
Позвольте мне вкратце показать вам функции внутренней версии Байта, которая сейчас доступна онлайн, включая Управление. Размеры спроса, конечно, Управление спросом Фактически, основная идея здесь состоит в том, чтобы позволить требованию войти в весь процесс данных НИОКР. Вы можете видеть, что мы создадим требования к доступу для спроса и привяжем его к процессу разработки и доставки, а затем отслеживаем прогресс, значение. оценка и т. д. спроса. Некоторые вещи, которые требуются стандартному конвейеру, — это байты. Управление Набор процессов на спросом платформе,Просто начните с потребностей,Первоначальный обзор、Подробный обзор、Расписание、НИОКРАПринятие、Обратная связь о ценности заканчивается.
Это страница привязки требований. При разработке задач вам необходимо привязать некоторые текущие требования. Конечно, здесь представлена только схема процесса разработки привязки требований. У нас также будут пакеты, такие как ссылки на активы и ссылки на задачи. Ссылки на модификации будут привязаны к требованиям. Эта функция очень проста, но необходимая конкатенация полных ссылок приносит Byte огромные преимущества, решая первую проблему возможности измерения всего процесса.
Второй — Управление. трубопроводом,Управление трубопроводом Byte включает в себя тестовый конвейер, выпуск, автономный режим, управление задачами в реальном времени, управление приоритетами задач и другие связанные возможности.,Это задача, которая сейчас выполняется онлайн.,Статус готового трубопровода,Зарегистрируйтесь, протестируйте, проверьте и просмотрите пресс-конференцию,Тогда времявыпускать Задача、Подтверждение и другие сопутствующие действия, такие как наблюдение за рынком.
Давайте сосредоточимся здесь на ссылках на выпуск и тестирование. Многие компании на самом деле имеют тестовые среды для этих двух областей, но в сценариях, где объем данных особенно велик, или в более сложных сценариях, тестовая среда не имеет данных. По сравнению с бизнес-исследованиями и разработками тестовая среда не может охватывать различные проблемы. Например, в банковском сценарии тестовая среда и производственная среда определенно изолированы, но в сценарии Интернета, таком как Byte, мы не можем их разделять. Релиз и тестирование фактически основаны на одном и том же наборе данных и в одной и той же среде. Так как же изолировать тестирование от производства? Суть в том, что мы требуем, чтобы все задачи, которые не прошли через конвейер выпуска, не могли записывать в производственную таблицу, читать любую производственную таблицу, но не могли записывать ни в одну производственную таблицу. Преимущество этого заключается в том, что наше тестирование и производство полностью согласованы, а также гарантирует, что после завершения тестирования его можно будет сразу перенести в производство. Таким образом, стоимость последующего тестирования и вмешательства в обеспечение качества чрезвычайно низка, что является преимуществом. принят Byte One Way.
Как продвигать эти инструменты после их создания? Это также проблема, с которой Byte столкнулась в начале этого года: как реализовать возможности DataOps в больших масштабах внутри компании. Поначалу было очень тяжело и пришлось столкнуться со многими трудностями, но я также приобрел некоторый опыт.
Первый называется эффект. сома, так называемый эффект сома Потому что это данныеBP Мы берем на себя инициативу в этом вопросе, поэтому ведущая команда может продвинуться вперед первой. Например, в сценарии прямой трансляции мы сначала пытаемся получить множество показателей и суммировать опыт. Мы можем использовать эти показатели и опыт для общения с другими командами для повышения эффективности работы человека. готов прийти, поучиться и попробовать.
Второй готов из коробка, мы отправляем другие BP Если предоставлено командой, другие BP Команде больше ничего делать не нужно, достаточно лишь включить свой переключатель процесса. OK , стоимость переключения путей очень низка.
Третий сверху вниз, похоже на DataOps Такие инструменты и возможности сначала должны быть признаны сверху или на более высоких уровнях бизнеса, прежде чем их можно будет постоянно продвигать вниз. Такие вещи, как регулирование, не могут продвигаться снизу вверх. Это того стоит.
НИОКР leader Определеннососредоточиться Проблемы производительности на НИОКР, здесь я хотел бы поделиться с вами набором НИдикатор основанный на производительности НИОКР. система тяги, которая имеет четыре измерения показателей измерения, включая эффективность, качество, инвестиции в ресурсы, доход и другие соответствующие показатели. Эти индикаторы основаны на нашем бизнесе НИОКР, чтобы сформировать набор данных системы индикаторов НИОКР, на чем мы сосредоточимся. наданные необходимое время выполнения заказа、Фиксированное соотношение объемов、Количество доставок、Срок устранения Коэффициент дефекта, онлайн-авария, бизнес НИОКР. Наконец, есть некоторые вещи, связанные с ключевыми проектами. За исключением последнего, он требует ручного вмешательства.,Остальное теперь можно посчитать онлайн.,Это очень удобно.
так называемый Взгляд Менеджера сосредоточен на ценности и будущем команды по развитию данных. Благодаря открытости команда по обработке данных имеет профессиональную ценность, которую можно получить. Для команды данных существует два типа стоимости, одна из них называется стоимостью. бизнеса, одна категория называется профессиональной ценностью. стоимость Проще говоря, это означает, сколько требований я выдвинул к бизнесу, в каких ключевых проектах я участвовал и, наконец, насколько повысилась эффективность бизнеса и какой доход бизнес получил за счет определенных средств. Во-вторых, ценность профессионализма. Этот вопрос является очень неприятной проблемой для многих команд по работе с данными. Какие команды по работе с данными незаменимы в отрасли и внутри компании? Какие профессиональные вещи? Здесь мы делаем Datops На практике я обнаружил, что очень важно позволить команде по данным создавать профессиональную ценность за счет открытости, что позволяет команде по данным полностью участвовать в этом вопросе.
существовать Взгляд разработчикауровень,Главное – как обрести чувство выполненного долга на работе.,Вот ключ к удержанию людей:
Преимущества внедрения DataOps в основном включают три части: стандартизация, качество и эффективность.
Наконец, что касается будущих перспектив данных НИОКР, сначала хочу поговорить о стоимости бизнеса:
Измерение стоимости требований к данным является более сложным, чем функциональные требования, поэтому на следующем этапе мы надеемся, что сможем четко измерить конкретную ценность требований к данным, а затем реализовать стратегию планирования, основанную на максимизации ценности спроса, чтобы достичь наших целей. цели человеческой эффективности и цели контроля затрат.
Что касается качества и эффективности, в будущем мы сосредоточимся на следующих трех моментах:
Большие модели в последнее время особенно популярны. Мы считаем, что участие больших моделей в исследованиях и разработках данных очень практично и сложно, будь то с точки зрения сопоставления спроса или вспомогательной разработки, большие модели могут предоставить нам более автоматизированные решения для решения проблем. нужно полагаться на прошлый опыт. Эту проблему можно решить только путем осаждения; в то же время мы обнаружили, что стоимость тестирования данных очень высока, когда масштаб данных составляет байт, и мы также надеемся на ее изучение; недорогие решения для проверки данных в будущем.
Результаты концепции DataOps, реализованной в Byte, также будут выводиться через движок Volcano DataLeap. Volcano Engine DataLeap — это универсальный набор промежуточных платформ данных, который может помочь пользователям быстро завершить полный набор промежуточных платформ данных, таких как интеграция данных, разработка, эксплуатация и обслуживание, управление, активы и безопасность, а также помочь группам данных эффективно сократить затраты на работу и затраты на обслуживание данных. Анализ ценности данных и обеспечение поддержки данных для принятия корпоративных решений.