Практика ByteDance DataOps на основе DataLeap
Практика ByteDance DataOps на основе DataLeap

Эта статья основана на ArchSummit Глобальный саммит архитекторов (станция Шэньчжэнь) составлен на основе записи обмена в реальном времени Ван Яна, ответственного за Douyin dataNIOKR (с удалениями). Этот обмен в основном включает модели. и проблемы исследования и разработки данных ByteDance、Концепция DataOps, воплощенная в байтах , Разработка и внедрение DataOps, лучшие практики、прогноз на будущее Пять частей, общий контент основан на опыте бизнеса ByteDance.

Модели и проблемы исследования и разработки данных ByteDance

Инструменты средней платформы + модель данных BP

В процессе реализации DataOps Byte сочетается с организационной моделью инструментов среднего уровня + BP данных, используемых для поддержки данных. Команда инструментов среднего уровня отвечает за построение функциональной базы, реализацию различных базовых возможностей разработки данных и предоставление данных. открытую платформу, обеспечивать тесную техническую поддержку команде данных BP, а также выводить эти возможности через движок вулкана в интегрированном внутреннем и внешнем режиме. Так называемая внутренняя и внешняя интеграция означает, что различные инструменты обработки данных Byte, такие как DataLeap, обеспечивают согласованность использования для внутренних и внешних пользователей.

Что касается команды data BP, то в процессе внедрения DataOps они сосредоточились на трех вещах: Первое — это формулирование спецификаций. В ходе долгосрочной практики в Byte мы считаем, что команда практики — лучший источник спецификаций. земля, во-вторых, реализовать разработку плагинов на основе открытой платформы инструментов среднего уровня, данных; BP — это не просто команда по хранению данных, она также включает в себя несколько групп инженеров. Команда инженеров, интегрированная с хранилищем данных, может реализовать и реализовать повседневные проблемы хранилища данных в виде плагинов, которые могут разрабатывать различные команды BP. различные данные в соответствии с их собственными характеристиками; последнее — оценка преимуществ. После продвижения DataOps они будут оцениваться на BP, а не на платформе. Команда инструментов среднего уровня может сосредоточиться на самой возможности. Команда BP по разработке данных сосредоточится на всей спецификации и стоимости. Наконец, внешние клиенты могут одновременно пользоваться возможностями нашей платформы и накопленной моделью BP. Это модель совместной работы, реализованная всей командой Byte в DataOps.

Основные показатели данных BP: 0987

Как оценить эффективность работы команды BP? Для оценки мы используем набор понятных показателей 0987?

0 означает отсутствие происшествий с данными. К числу происшествий здесь относятся своевременность, качество и другие проблемы. Поскольку мы поддерживаем множество онлайн-сценариев и сценариев потери активов, несчастные случаи являются спасательным кругом в нашей системе оценки;

9 относится к степени удовлетворения спроса. Мы принимаем запросы на данные от многих сторон и надеемся достичь цели по своевременному выполнению более 90% требований;

8 относится к степени охвата анализа. Этот показатель означает, что 80% запросов внешней команды на основе хранилища данных могут использовать таблицы, которые мы создали и агрегировали, вместо исходных таблиц;

7 относится к показателю NPS. Мы будем раздавать анкеты всем запрашивающим пользователям и пользователям данных каждый квартал для сбора соответствующей обратной связи. 70% означает, что большинство студентов положительно оценивают нас, а отрицательные оценки близки к 0. ;

от проблем с качеством

В рамках текущей модели поддержки команды Byte Data, поскольку модели поддержки разнообразны и охватывают различные основные сценарии принятия решений и онлайн-сценарии, основная проблема, с которой мы сталкиваемся, связана с качеством данных:

  • Ссылка сложная:Самая длинная задача имеет тысячи полносвязных узлов.,Максимальное количество последующих единиц для одной задачи достигает уровня тысячи.
  • Частые изменения:Прямой эфир только каждую неделюданныекомандаданные Количество изменений ссылок может достигать тысяч раз.,Сотни раз участвовал в рискованных сценариях.
  • Предрасположенность к несчастным случаям:качество Несчастные случаи случаются,Доля аварий с данными НИОКР, связанных с правилами НИОКР, в 2022 году составила 56%.
Проблемы, связанные со стоимостью оборудования

В контексте снижения затрат и повышения эффективности затраты на оборудование постепенно стали основной проблемой для группы обработки данных. В прошлом мы контролировали расходы, как и большинство компаний, в основном на основе бюджетов. целевой ресурс хранилища, а затем на основе бюджета выполнять действия по управлению, очищать недопустимые задачи или уменьшать TTL, но теперь нам нужно перейти к более точному контролю спроса. Нам нужно дополнительно посмотреть, сколько затрат на оборудование мне потребуется для удовлетворения этого спроса; , чтобы усовершенствовать контроль стоимости оборудования до уровня спроса.

Проблемы, связанные с эффективностью человека

Помимо затрат на оборудование, наши другие основные затраты — это затраты на рабочую силу. Сейчас я возглавляю команду по исследованию и разработке данных, и каждый раз, когда я провожу инвентаризацию HC, я сталкиваюсь с двумя душевными вопросами:

  • Как доказать, что текущее состояние команды эффективно?
  • Как создать более дорогостоящий бизнес с меньшим количеством людей?

На самом деле это очень серьезная задача. Как нам доказать ценность команды по работе с данными?

Концепция DataOps, воплощенная в байтах

Поскольку мы сталкиваемся с таким большим количеством проблем, нам нужно подумать о том, как их преодолеть. Извлекая уроки из опыта отрасли, мы обнаружили, что DataOps — это решение, которое может эффективно помочь нам решить вышеупомянутые проблемы.

Определение DataOps, данное CAICT
  • данные НИОКРOperations Integration (DataOps): новая парадигма в развитии данных,Интегрируйте Agile, Lean и другие концепции в процесс развития данных.,Путем реорганизации соответствующих людей, инструментов и процессов,Устраните барьеры для сотрудничества,Создайте автоматизированную линию сборки данных, которая объединяет разработку, управление и эксплуатацию.,Постоянно улучшайте эффективность и качество доставки продуктов данных.,достичь высокогокачествоцифровое развитие。
наше понимание
  • DataOps — это набор методологий, которые работают с людьми + процессами +инструмент.,Цель — улучшить качество данных и повысить эффективность.,В основном благодаря гибкому сотрудничеству, автоматизации/аналитике и четкому мониторингу показателей.,Позвольте конвейеру данных обеспечить непрерывную интеграцию, развертывание и доставку (CI/CD),В системе DataLeap,DataOps в основном направлен на стандартизацию процесса NIOCR.,Охватывает «интеграцию существующих возможностей» в стандартизированный процесс NIOCR.,Получите универсальный опыт НИОКР,Он также включает в себя ключевое «наращивание новых возможностей + интеграцию», необходимое для стандартизации процесса НИОКР.,Итерация базовых возможностей данныхразвивать сверх этого не является частью DataOps.

Мы считаем, что ядро ​​DataOps включает в себя следующие части:

Первый из них — это ссылка. Так называемая ссылка предназначена для открытия связующих отношений всей цепочки данных от спроса, развития, активов и пользователей. С функциональной точки зрения это относительно просто и решает проблему взаимосвязи между требованиями и кодом. Отдел исследований и разработок уже реализовал эту возможность. Каждый фрагмент кода, представленный сотрудниками отдела исследований и разработок, может знать, какое это требование. Однако в прошлом разработке данных уделялось недостаточно внимания, поэтому первое, что необходимо сделать, — это соединить весь процесс требований и данных.

Во-вторых, это спецификация. В прошлом весь процесс исследования и разработки данных не был стандартизирован, он в основном осуществлялся через документацию внутри команды, включая проверку требований, разработку и тестирование модели, а также онлайн-приемку. DataOps является наиболее стандартизированным с точки зрения спецификаций. Первое, что нужно сделать, — это оформить все эти разрозненные спецификации в процессе разработки данных и внедрить их в ежедневные связи разработки.

Разработка и внедрение DataOps — DataLeap

На этом рисунке показаны возможности пакета dataleap, разработанного Byte Data, который охватывает вычислительные механизмы, полнофункциональную разработку, глобальное управление, активы и другие инструменты. Такой универсальный пакет разработки больших данных может помочь пользователям быстро завершить интеграцию данных. Набор работ по исследованию и разработке данных, таких как разработка, эксплуатация и обслуживание, управление, активы и безопасность, может помочь группам данных эффективно сократить рабочие затраты и затраты на обслуживание данных, повысить ценность данных и обеспечить поддержку данных для принятия корпоративных решений. DataLeap — это не продукт, это пакет. Аналогия с изображением аналогична Office. Несколько продуктов взаимодействуют друг с другом для решения одной и той же большой проблемы или решения. Продукты находятся в кооперативных и вспомогательных отношениях.

Гибкая стандартизированная платформа исследований и разработок DataOps

Это весь байт DataOps Общая схема производства продукции, набор Гибкая, предусмотренная ядром стандартизированная платформа исследований и разработок DataOps。Раньше была модель, которая была платформенной.команда Все включено,Разработайте все эти спецификации,Рекомендовано командой платформы команде развития данных,Но эта модель нам не совсем подходит,Потому что команда платформы далека от бизнеса.

Мы считаем, что в этом случае платформа должна отдавать приоритет предоставлению открытых возможностей. Открытые возможности здесь включают открытые данные и интерфейсы, открытые процессы и т. д. Наличие такого набора открытых возможностей означает, что все группы разработчиков данных могут управлять процессом. сами, создайте свои собственные правила и положения.

Кроме того, мы обнаружили, что после того, как команда специалистов завершила работу, этот комплект Гибкая стандартизированная платформа исследований и разработок DataOps является общим для всех команд по разработке данных. Например, возможность тестирования не выполняется на платформе в формате Byte. BP У команды есть особые требования к работе в реальном времени: после публикации данных их необходимо отслеживать, чтобы следить за изменениями в данных в реальном времени. Опираясь на поддержку данных, обеспечиваемую открытой платформой, в сценарии прямой трансляции некоторые данные в реальном времени будут предоставляться ведущим, чтобы помочь им принимать своевременные решения. Эти данные в реальном времени включают пользовательские данные, портреты пользователей и т. д. Ведущий может корректировать свои слова на основе этих портретов пользователей. На основе открытой платформы , всю возможность выпуска данных команды BP для выполнения задач, а позже мы обнаружили, что этот набор возможностей может быть универсальным.

Управление спросом

Позвольте мне вкратце показать вам функции внутренней версии Байта, которая сейчас доступна онлайн, включая Управление. Размеры спроса, конечно, Управление спросом Фактически, основная идея здесь состоит в том, чтобы позволить требованию войти в весь процесс данных НИОКР. Вы можете видеть, что мы создадим требования к доступу для спроса и привяжем его к процессу разработки и доставки, а затем отслеживаем прогресс, значение. оценка и т. д. спроса. Некоторые вещи, которые требуются стандартному конвейеру, — это байты. Управление Набор процессов на спросом платформе,Просто начните с потребностей,Первоначальный обзор、Подробный обзор、Расписание、НИОКРАПринятие、Обратная связь о ценности заканчивается.

Это страница привязки требований. При разработке задач вам необходимо привязать некоторые текущие требования. Конечно, здесь представлена ​​только схема процесса разработки привязки требований. У нас также будут пакеты, такие как ссылки на активы и ссылки на задачи. Ссылки на модификации будут привязаны к требованиям. Эта функция очень проста, но необходимая конкатенация полных ссылок приносит Byte огромные преимущества, решая первую проблему возможности измерения всего процесса.

Управление трубопроводом

Второй — Управление. трубопроводом,Управление трубопроводом Byte включает в себя тестовый конвейер, выпуск, автономный режим, управление задачами в реальном времени, управление приоритетами задач и другие связанные возможности.,Это задача, которая сейчас выполняется онлайн.,Статус готового трубопровода,Зарегистрируйтесь, протестируйте, проверьте и просмотрите пресс-конференцию,Тогда времявыпускать Задача、Подтверждение и другие сопутствующие действия, такие как наблюдение за рынком.

Давайте сосредоточимся здесь на ссылках на выпуск и тестирование. Многие компании на самом деле имеют тестовые среды для этих двух областей, но в сценариях, где объем данных особенно велик, или в более сложных сценариях, тестовая среда не имеет данных. По сравнению с бизнес-исследованиями и разработками тестовая среда не может охватывать различные проблемы. Например, в банковском сценарии тестовая среда и производственная среда определенно изолированы, но в сценарии Интернета, таком как Byte, мы не можем их разделять. Релиз и тестирование фактически основаны на одном и том же наборе данных и в одной и той же среде. Так как же изолировать тестирование от производства? Суть в том, что мы требуем, чтобы все задачи, которые не прошли через конвейер выпуска, не могли записывать в производственную таблицу, читать любую производственную таблицу, но не могли записывать ни в одну производственную таблицу. Преимущество этого заключается в том, что наше тестирование и производство полностью согласованы, а также гарантирует, что после завершения тестирования его можно будет сразу перенести в производство. Таким образом, стоимость последующего тестирования и вмешательства в обеспечение качества чрезвычайно низка, что является преимуществом. принят Byte One Way.

лучшие практики

Продвижение и эксплуатация: Как масштабно внедрить DataOps внутри компании?

Как продвигать эти инструменты после их создания? Это также проблема, с которой Byte столкнулась в начале этого года: как реализовать возможности DataOps в больших масштабах внутри компании. Поначалу было очень тяжело и пришлось столкнуться со многими трудностями, но я также приобрел некоторый опыт.

эффект сома

Первый называется эффект. сома, так называемый эффект сома Потому что это данныеBP Мы берем на себя инициативу в этом вопросе, поэтому ведущая команда может продвинуться вперед первой. Например, в сценарии прямой трансляции мы сначала пытаемся получить множество показателей и суммировать опыт. Мы можем использовать эти показатели и опыт для общения с другими командами для повышения эффективности работы человека. готов прийти, поучиться и попробовать.

Готов из коробки

Второй готов из коробка, мы отправляем другие BP Если предоставлено командой, другие BP Команде больше ничего делать не нужно, достаточно лишь включить свой переключатель процесса. OK , стоимость переключения путей очень низка.

сверху вниз

Третий сверху вниз, похоже на DataOps Такие инструменты и возможности сначала должны быть признаны сверху или на более высоких уровнях бизнеса, прежде чем их можно будет постоянно продвигать вниз. Такие вещи, как регулирование, не могут продвигаться снизу вверх. Это того стоит.

Индикатор тяги

НИОКР leader Определеннососредоточиться Проблемы производительности на НИОКР, здесь я хотел бы поделиться с вами набором НИдикатор основанный на производительности НИОКР. система тяги, которая имеет четыре измерения показателей измерения, включая эффективность, качество, инвестиции в ресурсы, доход и другие соответствующие показатели. Эти индикаторы основаны на нашем бизнесе НИОКР, чтобы сформировать набор данных системы индикаторов НИОКР, на чем мы сосредоточимся. наданные необходимое время выполнения заказа、Фиксированное соотношение объемов、Количество доставок、Срок устранения Коэффициент дефекта, онлайн-авария, бизнес НИОКР. Наконец, есть некоторые вещи, связанные с ключевыми проектами. За исключением последнего, он требует ручного вмешательства.,Остальное теперь можно посчитать онлайн.,Это очень удобно.

Взгляд менеджера

так называемый Взгляд Менеджера сосредоточен на ценности и будущем команды по развитию данных. Благодаря открытости команда по обработке данных имеет профессиональную ценность, которую можно получить. Для команды данных существует два типа стоимости, одна из них называется стоимостью. бизнеса, одна категория называется профессиональной ценностью. стоимость Проще говоря, это означает, сколько требований я выдвинул к бизнесу, в каких ключевых проектах я участвовал и, наконец, насколько повысилась эффективность бизнеса и какой доход бизнес получил за счет определенных средств. Во-вторых, ценность профессионализма. Этот вопрос является очень неприятной проблемой для многих команд по работе с данными. Какие команды по работе с данными незаменимы в отрасли и внутри компании? Какие профессиональные вещи? Здесь мы делаем Datops На практике я обнаружил, что очень важно позволить команде по данным создавать профессиональную ценность за счет открытости, что позволяет команде по данным полностью участвовать в этом вопросе.

Взгляд разработчика

существовать Взгляд разработчикауровень,Главное – как обрести чувство выполненного долга на работе.,Вот ключ к удержанию людей:

  • Одобрение&осуществлять:Нормы сами по себе античеловечны.,Внедрение DataOps внутри команды требует адекватного общения.,Совмещайте командную работу с личным развитием,объясни почему,Избегайте грубой посадки
  • участвовать&способствовать:Создайте то, что может каждыйучаствоватьизразвиватьсреда,Позвольте даннымразвивать быть глубоко вовлеченными в процесс формулирования и реализации процессов.,Способствовать улучшению личного влияния
показатель дохода

Преимущества внедрения DataOps в основном включают три части: стандартизация, качество и эффективность.

  • Стандарты: стандартизируйте и повторно используйте в разных направлениях, чтобы обеспечить 100% реализацию процесса.
  • качество:Систематическое разрешение сценариев риска НИОКРпроблемы с процессом,потому что НИОКРвызванный процессомданныекачество Количество несчастных случаев0
  • Эффективность: избегайте доработок благодаря более надежной доставке.,При этом накладывается возможность повышения эффективности.,Ожидается, что эффективность НИОКР в удовлетворении потребностей бизнеса повысится на 10%+.

прогноз на будущее

стоимость бизнеса

Наконец, что касается будущих перспектив данных НИОКР, сначала хочу поговорить о стоимости бизнеса:

  • Метрика значения спроса на данные
  • Стратегия планирования, основанная на максимизации стоимости спроса

Измерение стоимости требований к данным является более сложным, чем функциональные требования, поэтому на следующем этапе мы надеемся, что сможем четко измерить конкретную ценность требований к данным, а затем реализовать стратегию планирования, основанную на максимизации ценности спроса, чтобы достичь наших целей. цели человеческой эффективности и цели контроля затрат.

Качество и эффективность

Что касается качества и эффективности, в будущем мы сосредоточимся на следующих трех моментах:

  • Требуются возможности стыковки на основе больших моделей
  • Возможность оказания помощи в разработке на основе больших моделей.
  • Недорогие возможности тестирования и проверки данных

Большие модели в последнее время особенно популярны. Мы считаем, что участие больших моделей в исследованиях и разработках данных очень практично и сложно, будь то с точки зрения сопоставления спроса или вспомогательной разработки, большие модели могут предоставить нам более автоматизированные решения для решения проблем. нужно полагаться на прошлый опыт. Эту проблему можно решить только путем осаждения; в то же время мы обнаружили, что стоимость тестирования данных очень высока, когда масштаб данных составляет байт, и мы также надеемся на ее изучение; недорогие решения для проверки данных в будущем.

Открыт для внешнего мира

Результаты концепции DataOps, реализованной в Byte, также будут выводиться через движок Volcano DataLeap. Volcano Engine DataLeap — это универсальный набор промежуточных платформ данных, который может помочь пользователям быстро завершить полный набор промежуточных платформ данных, таких как интеграция данных, разработка, эксплуатация и обслуживание, управление, активы и безопасность, а также помочь группам данных эффективно сократить затраты на работу и затраты на обслуживание данных. Анализ ценности данных и обеспечение поддержки данных для принятия корпоративных решений.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose