[AI Milestone] Сора | Самая мощная большая модель для создания видео с использованием искусственного интеллекта

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

[Веха в области искусственного интеллекта] Sora | Самая мощная модель создания видео с использованием искусственного интеллекта в 2024 году

Эта статья в основном начинается с предыстории рождения Соры.、Технические принципы、Демонстрация возможностей、перспективы применения иИдеи реализациии другие ракурсы, чтобы представить эту эпохальную новинкувидеогенеративная технология。

15 февраля 2024 года по местному времени в США.,OpenAI выпускает первую видеобольшую МодельSora,Одно предложение генерирует одну минуту непрерывности в высоком разрешении.
Сора происходит от японского そら, пустой. Форма – это пустота. Форма, чувство, мысль, образование, сознание — пять совокупностей также пусты. Каким бы большим или маленьким он ни был, этот продукт призван дать людям безграничный простор для воображения. Команда OpenAI в очередной раз открыла новую эру AIGC дзен-словом.

Развитие видеотехнологий искусственного интеллекта можно проследить с 2022 года, когда стартап Runway добился значительных успехов в этой области, а его технология даже использовалась при видеомонтаже популярного научно-фантастического фильма «Мгновенная вселенная». С тех пор видеотехнологии искусственного интеллекта получили быстрое развитие, и к конкуренции присоединились такие компании, как Runway, Pika, Meta (Emu Video). Однако ранние видеоролики с искусственным интеллектом часто имели некоторые ограничения, такие как ограниченная продолжительность видео (обычно всего несколько секунд), недостаточная точность воспроизведения сцены, внезапное появление или исчезновение элементов, а также бессвязное движение, что позволяло легко идентифицировать видеоконтент как созданный искусственным интеллектом.

Модель Sora, выпущенная OpenAI, показывает значительный прогресс в демонстрационном видеоролике, а качество генерируемого ею видеоконтента практически незаметно по сравнению с продукцией AI. Сора смог создавать видеоролики продолжительностью в одну минуту, что на тот момент было важным прорывом в области искусственного видео. Разработка Sora не только представляет собой важную веху в технологии искусственного интеллекта, но и отмечает важное направление в исследованиях искусственного интеллекта: предоставление системам искусственного интеллекта возможности понимать сложные пользовательские инструкции и применять эти знания для решения реальных проблем посредством динамического и контекстно-богатого моделирования, взаимодействующего с достичь этой цели. Это показывает, что возможности ИИ в создании видеоконтента и моделировании реального мира постоянно расширяются, открывая новые возможности для будущих приложений и разработок.

🙄История рождения Соры

Вскоре после запуска ChatGPT в 2023 году началась коммерциализация продуктов преобразования текста в изображение, таких как Stable Diffusion, Midjourney и DALL-E 3, которые позволили пользователям создавать изображения с высоким разрешением из текстовых подсказок, демонстрируя возможности искусственного интеллекта в способность создавать творческие изображения. Однако распространение этого метода на генерацию видео сталкивается с проблемами, поскольку видео должно справляться со сложностью временного измерения. Несмотря на значительные усилия, большинство существующих инструментов, таких как Pika и Gen-2, могут создавать видео продолжительностью всего несколько секунд.

Появление Sora устраняет это ограничение. Он может генерировать одноминутные видеоролики на основе текстовых инструкций. Это крупный прорыв в области генеративного искусственного интеллекта, аналогичный влиянию ChatGPT в области обработки естественного языка (NLP).

Сравнительная таблица

Сравнить видео

Связанные исследования

😏Технические принципы Соры

техническая основа

Модель Сора сочетает в себе две архитектуры: диффузию и преобразователь при разработке алгоритмов и использует пространственно-временные патчи для уменьшения размерности и сжатия различных визуальных данных, таких как входное видео. Этот метод заменяет токены в языковой модели преобразователя, обеспечивая эффективное обучение видеоданных.

Модель Sora представляет собой передовую технологию генерации видео. Ее основная архитектура состоит из трех основных частей:

компрессор пространства-времени：ЭтоSoraпервый шаг,Отвечает за преобразование исходного видеоданногосжатия в низкомерное представление скрытого пространства. Этот процесс включает преобразование видеоданных в форму, которую Модель может обрабатывать более эффективно.
**Визуальный конвертер (Ви Т)**: после сжатия,Сора использует визуальный преобразователь для обработки этих потенциальных представлений данных. ViT обычно основан на архитектуре Transformer.,Он способен обрабатывать данные изображений,И выведите очищенное от шума, четкое представление видеоданных.
Интеллектуальный механизм настройки условий：ЭтоSora的最назад阶段,Похоже на CLIPМодель,Используйте расширенные инструкции пользователя Big Language Model (LLM) и возможные визуальные подсказки для управления процессом создания видео. Это позволяет Sora генерировать контент с определенным стилем или темой на основе текстовых инструкций пользователя.

После серии шагов по шумоподавлению Сора фиксирует глубокое представление видео и преобразует его обратно в формат пикселей с помощью специализированного декодера для создания окончательного видео. Гибкий размер выборки и многоэтапный метод обработки позволяют Sora генерировать высококачественный разнообразный видеоконтент.

Предварительная обработка данных

01 Адаптивное разрешение видео

Традиционные методы часто меняют размер видео.、Обрежьте или измените соотношение сторон, чтобы оно соответствовало единому стандарту (обычно короткие клипы).、Квадратная рамка с фиксированным меньшим разрешением）。这种处理方式通常会существовать较宽的时间跨度内генерировать样本,и на последнем этапе положитесь на специально обученную вставку кадров и рендеринг разрешения Модель.,Приводит к бессвязности содержания видео.
Sora Использование преимуществ диффузии TransformerАрхитектура,Стала первой моделью, способной адаптироваться к разнообразию визуальных данных.,Он может обрабатывать различные форматы видео и изображений.,От широкоэкранного разрешения 1920x1080p до портретного 1080x1920p.,и любой размер между ними,без изменения их первоначального размера.

Сора тренируется на данных собственного разрешения,Значительно улучшены эффекты композиции и макета экрана при создании видео.,Может создать более естественное и плавное визуальное повествование. Полученное видео лучше по композиции изображений.,Гарантирует, что объект в сцене отображается полностью.,Это позволяет избежать проблемы обрезания части перспективы, которая характерна для квадратной обрезки.

02 Визуальное представление кодирования

Чтобы эффективно обрабатывать разнообразные визуальные данные, такие как изображения и видео различной продолжительности, разрешения и соотношения сторон, Sora применяет ключевую стратегию преобразования этих визуальных данных в единый формат. Основные этапы этой стратегии заключаются в следующем:

сжатие видео：SoraПервое использованиесжатие Видеосеть преобразует исходное видеоданноесжатие в скрытое пространство более низкой размерности (скрытое пространство). космос). Этот шаг снижает сложность данных, позволяя моделировать обработку и изучение видеоконтента более эффективно.
Разложение фрагментов пространства-времени：сжатиеназад的видеоданныедалее разлагается на сегменты пространства-времени（Spacetime Патчи). Эти фрагменты являются основными строительными блоками видеоданных.,Содержит пространственную (кадр изображения) и временную (непрерывные кадры) информацию. таким образом,Сора может фиксировать динамические изменения и временные ряды в видео.
единый формат：добавиввидеоданныепреобразованы во фрагменты пространства-времени,Сора способна обрабатывать различные визуальные данные в едином формате. Это унифицированное представление упрощает процесс обучения Модели.,И улучшено качество создаваемого видео.

Эта стратегия позволяет Sora гибко обрабатывать различные форматы видео, сохраняя при этом высокое качество и визуальную целостность создаваемых видеороликов. Благодаря такому подходу Sora демонстрирует свои сильные возможности и потенциал в области создания видео.

03 Технология сжатия видео

Технология сжатия видео Sora направлена на уменьшение размерности видеоданных для создания скрытого представления, сжатого как во времени, так и в пространстве. Этот метод основан на вариационных автокодировщиках (VAE) или их вариантах, таких как VAE с векторным квантованием (VQ-VAE). Однако существуют проблемы с прямым отображением визуальных данных произвольных размеров в скрытое пространство фиксированного размера, особенно когда изменение размера и обрезка изображения не выполняются.

Для решения этой проблемы Sora может использовать следующие два метода реализации:

пространственное блочное сжатие：Этот подход предполагаетвидео Кадры разделены на блоки фиксированного размера.,Эти блоки затем кодируются в скрытое пространство. Этот метод обработки подходит для разных разрешений и соотношений сторон.,Потому что он кодирует весь кадр, обрабатывая один блок. Эти пространственные маркеры затем располагаются в хронологическом порядке.,Формирование скрытого представления, объединяющего пространственную и временную информацию.
сжатие пространственно-временных сегментов：这种方法旨существовать同时封装видеоданныеизмерения пространства и времени,Обеспечьте полное представление. Он отражает динамичный характер видео, принимая во внимание движение и изменения между кадрами. Трехмерная свертка (3D свертка) является эффективным методом достижений этого предпринимателя.

Оба метода предполагают использование предустановленных параметров ядра свертки, но это может привести к несогласованным размерам скрытого пространства из-за различий в характеристиках видеовходов (например, разной длительности и разрешения). Для решения этой проблемы можно применить аналогичный подход к сжатию пространственных фрагментов, который одинаково применим и эффективен.

Sora может быть спроектирована для использования сегментов фиксированного размера, чтобы обеспечить простоту, масштабируемость и стабильность обучения. Однако также возможно использовать сегменты разного размера, чтобы поддерживать согласованность размеров всего кадра или видео в скрытом пространстве, хотя это может вызвать проблемы с позиционным кодированием и создать проблемы для декодера при создании видео со скрытыми сегментами разного размера. .

04 Фрагменты скрытого кода пространства-времени

Благодаря технологии упаковки фрагментов изображения или видео различного разрешения могут сохранять исходное соотношение сторон.

Модель Sora использует технологию PNP (Patch 'n' Pack) — технологию, которая объединяет несколько клипов из разных изображений в одну последовательность. Этот метод основан на технологии упаковки, используемой при обработке естественного языка для обработки входных данных переменной длины, и адаптируется к изменениям длины входных данных путем удаления некоторых токенов. В сети сжатия видео Sora первое, что необходимо выполнить, — это этапы фрагментации и внедрения токенов. Sora может дополнительно фрагментировать эти потенциальные функции, чтобы они соответствовали потребностям диффузионного преобразователя в токенах, аналогично работе самого диффузионного преобразователя.

Независимо от того, следует ли выполнять вторую фрагментацию, Соре необходимо решить проблему, как эффективно упаковать эти токены и решить, какие токены следует отбросить. OpenAI может использовать чрезвычайно длинное окно обработки для интеграции всех фрагментов информации (токенов) в видео, хотя этот метод требует больших вычислительных затрат. Это связано с тем, что вычислительные затраты механизма многоголового внимания возрастают квадратично по мере увеличения длины последовательности.

В частности, Sora может организовывать пространственно-временные скрытые патчи (Spacetime Latent Patches), извлеченные из длинных видео, в одну последовательность и объединять информацию из нескольких коротких видео в другую последовательность. Этот метод обработки позволяет Sora эффективно обрабатывать видеоданные различной длины, сохраняя при этом высокое качество и связность видеоконтента.

Архитектура нейронной сети

Это всего лишь предположение о структуре модели SORA, а не реальная структура.

Diffusion Transformer

Модель Сора использует принцип модели диффузии для восстановления исходных «чистых» видеопатчей из участков шума путем постепенного прогнозирования и удаления шума. Этот подход доказал свою эффективность и масштабируемость во многих областях, таких как языковое моделирование, компьютерное зрение и генерация изображений.

Для создания более длинных видеороликов Сора использует инновационную стратегию обучения, которая прогнозирует будущие кадры на основе контекстных кадров. Эта стратегия позволяет модели автономно генерировать высококачественный видеоконтент без помощи внешних классификаторов. Сначала определяя ключевые кадры, а затем интерполируя между ними, Sora может добиться генерации видео с высоким временным разрешением. Этот метод не только улучшает пространственное разрешение видео, увеличивая пространственное разрешение видеоконтента в четыре раза за счет модели диффузии, но также сохраняет временную последовательность и плавность видео.

Этот метод пошаговой генерации видео не только улучшает общее качество видео, но и значительно повышает эффективность вычислений. Таким образом, Sora способна поддерживать глобальную связность видеоконтента при создании видеороликов высокой четкости, что имеет важное практическое значение для создания и редактирования видеоконтента.

Советы по инженерным вопросам

В моделях искусственного интеллекта, таких как Sora, оперативное проектирование является ключевым методом, который позволяет пользователям направлять модель посредством тщательно продуманных входных данных для создания контента, который соответствует конкретным ожиданиям. Модель Sora особенно хороша при объединении текста, изображений и видеосигналов для создания контента, который не только привлекает внимание аудитории, но также точно улавливает и понимает намерения пользователя.

01 Навыки текстовых подсказок

Отличный дизайн текстовых подсказок заключается в точном выборе каждого слова, детализации каждой детали и глубоком понимании того, как эти факторы влияют на конечный результат модели.

Синие блики описывают Sora сгенерированные элементы,Например, изображение модной женщины; желтая часть подчеркивает, как Модель интерпретирует действия, сцены и стиль персонажей.,Показывает, как хорошо продуманную текстовую подсказку можно превратить в яркую, насыщенную событиями историю.

02 Советы по созданию изображений

Используя графические подсказки, Сора преобразует статические изображения в динамичные, рассказывающие истории видеоролики, используя как визуальную, так и текстовую информацию.

Красные рамки подчеркивают основные элементы каждой сцены — монстров с разнообразным дизайном, облаков с надписью «SORA» и серферов, стоящих перед огромными волнами в богато украшенном вестибюле.

03 Видео-советы и рекомендации

Это не только гарантирует, что модель четко понимает конкретные творческие цели, такие как конкретные объекты и визуальные стили, которые будут отображаться, но также позволяет добавлять инновационные изменения в окончательную видеопродукцию.

(a) расширение видео, Модель перемещает видеопоследовательность в направлении, противоположном исходному фрагменту, (б) редактирование видео, внесение изменений в определенные элементы видео, например сцены, на основе текстовых подсказок и (c) видеосоединять,Легко комбинируйте видеоклипы с двумя разными видео-метками.,Создайте связную историю. Каждый шаг сопровождается визуальным фокусом,отмечен красной рамкой,Обеспечьте целостность и точность видеоконтента.

😁Демонстрация способностей Соры

01 Трехмерная согласованность

Отличительной особенностью модели Sora является ее способность генерировать видеоролики, содержащие динамические движения камеры. Это означает, что в полученном видео камера может имитировать реалистичные эффекты движения и вращения, позволяя персонажам и элементам сцены двигаться согласованно и последовательно в трехмерном пространстве. Эта возможность делает Sora еще более продвинутой в создании видеоконтента, поскольку она способна создавать более реалистичный и привлекательный визуальный опыт. Таким образом, Sora может не только улавливать детали статических сцен, но также обрабатывать и отображать сложные динамические взаимодействия, предоставляя тем самым новый творческий инструмент в области создания видео.

02 Долгосрочная согласованность и идентичность объекта

В области создания видео поддержание временной согласованности в длинных видеороликах является ключевой задачей. Модель Sora, разработанная OpenAI, добилась значительного прогресса в этом отношении. Sora хорошо справляется с краткосрочными и долгосрочными зависимостями, а это означает, что она способна сохранять единообразие людей, животных и объектов в видео, даже если они перекрыты или удалены из кадра. Кроме того, Сора может создавать одного и того же персонажа в разных кадрах видео и обеспечивать единообразие внешнего вида персонажа на протяжении всего видео. Эти возможности значительно улучшают качество видеоконтента и впечатления от просмотра, хотя в некоторых случаях модель все же может потребоваться улучшить, чтобы обеспечить полную временную согласованность.

03 Физическое взаимодействие

Модели Сора демонстрируют способность моделировать поведение, влияющее на состояние мира, хотя эти симуляции могут быть относительно простыми. Например, он может генерировать видеоконтент, в котором художник рисует на холсте, оставляя мазки, которые сохраняются со временем. Эти примеры демонстрируют умеренный успех Соры в понимании и создании сложных сцен с физическими взаимодействиями и временной непрерывностью. Однако, возможно, еще есть возможности для улучшения точности и сложности этих симуляций, особенно когда речь идет о более сложных физических взаимодействиях и долгосрочных временных зависимостях.

04 Имитировать виртуальный мир

Модели Сора способны моделировать не только физические взаимодействия в реальном мире, но и рукотворные процессы, например видеоигры. Он способен управлять персонажами игроков в Minecraft и отображать игровой мир и его динамические изменения с высокой точностью. Используя текстовые подсказки, содержащие слово «Minecraft», Сора может активировать и демонстрировать эти способности без специальной подготовки, что называется обучением с нуля.

Эти возможности демонстрируют потенциал видеомоделей для моделирования физического и цифрового миров, включая объекты, животных и поведение людей внутри них. Этот технологический прогресс открывает новые возможности для создания будущего контента, особенно для производства научно-фантастических фильмов. Поскольку технология видеомоделирования продолжает развиваться, мы можем стать свидетелями создания более реалистичных и сложных виртуальных сцен, что приведет к инновациям в индустрии развлечений.

05 Возможность создания изображений

Модель Sora способна не только генерировать видеоконтент, но и имеет возможность генерировать изображения. Для этого OpenAI использует технику, которая упорядочивает гауссов шум в пространственной сетке в виде патчей, которые по времени соответствуют отдельным кадрам видео. Благодаря этому методу Sora может генерировать изображения разных размеров с максимальным разрешением, достигающим 2048x2048 пикселей. Это демонстрирует высокую гибкость и возможности высококачественного вывода Sora при создании изображений, что дает ей широкий потенциал применения в области создания визуального контента.

🥰Перспективы применения Соры

01 Технические особенности

Изюминка модели Сора заключается в ее далеко идущем влиянии и потенциале применения во многих областях:

Улучшение возможностей моделирования：Soraблагодаря масштабному обучению,Продемонстрированная способность моделировать физический мир,Включает сохранение объектов, простое взаимодействие с миром и динамическое движение камеры. Он может даже моделировать цифровую среду, такую как Minecraft.,Продемонстрированный потенциал для моделирования сложности физического и цифрового мира.
вдохновлять на творчество：SoraПозволяет пользователям быстро создавать реалистичные или стилизованные изображения с помощью текстовых описаний.видео,Ускорьте процесс проектирования,Предоставляет художникам, кинематографистам и дизайнерам эффективный инструмент творческих исследований.
Продвижение образовательных инноваций：SoraСодержание обучения может быть преобразовано из текста ввидео,Повышайте эффективность обучения и вовлеченность учащихся. Он обеспечивает новое и динамичное учебное пособие в области образования.,Подходит для различных предметов и сценариев обучения.
Повышение доступности：Soraдобавив文字转换为视觉содержание,Предоставляет новые способы творчества и общения для таких групп, как люди с нарушениями зрения.,Способствует инклюзивности в создании контента.
Содействие разработке новых приложений：Soraширокие перспективы применения,От создания динамического контента для маркетинговой рекламы до пользовательских визуальных эффектов при разработке игр.,Он предлагает инновационные возможности для различных отраслей промышленности.

Эти основные моменты показывают, что Сора не только добилась прорыва в технологиях, но также обладает обширным потенциалом в практическом применении и может способствовать инновациям и развитию во многих областях.

02 Сценарии применения

Перспективы применения и влияние модели Сора в различных областях заключаются в следующем:

киноиндустрия：
- Sora может автоматически генерировать стили фильмов на основе ввода текста.,Это знаменует собой новую эру кинопроизводства,Снижение порога кинопроизводства,Дайте большему количеству людей возможность участвовать в создании фильма. Развитие этой технологии предвещает более открытое и разнообразное будущее кинопроизводства.,Лучше адаптируйтесь к потребностям вашей аудитории.
инновации в образовании：
- видео Модель диффузии, такая как Сора, принесла революционные изменения в сфере образования,Это позволяет сделать образовательный контент более персонализированным и динамичным. Учителя могут использовать эту модель, чтобы превратить планы уроков в увлекательные видео.,Повышайте эффективность обучения и вовлеченность учащихся. Применение этой технологии способствует обновлению содержания образования и совершенствованию методов обучения.
игровая индустрия：
- Применение Sora в разработке игр может создать более реалистичный и захватывающий игровой процесс. Создавая динамический видеоконтент и звуковые эффекты в реальном времени.,Игровые миры могут быть более яркими и отзывчивыми,Предоставьте игрокам беспрецедентный интерактивный опыт. Это изменит способ разработки, игры и рассказа игр.
здравоохранение：
- в медицинской сфере,Sora et al. Модель диффузии помогает идентифицировать и понимать сложные медицинские изображения.,Такие как апоптоз клеток, поражения кожи и аномальные движения человека. Интеграция этих моделей оптимизирует процесс диагностики.,Предоставляем индивидуальные планы лечения,и рассмотреть вопросы этики и защиты конфиденциальности в медицинской практике.
робототехника：
- Применение таких моделей, как Sora, в области робототехники может улучшить восприятие и способность роботов принимать решения. Понимая и создавая сложные видеопоследовательности,Роботы могут лучше взаимодействовать с окружающей средой,Выполняйте сложные задачи. Развитие этой технологии принесло революционные достижения в робототехнике.,Позволяя роботам более естественно перемещаться и взаимодействовать с окружающей средой.

В целом появление модели Сора открыло инновационные возможности во многих отраслях, способствовало развитию и применению технологий, а также поставило новые задачи, такие как обеспечение безопасности, справедливости и этики технологий. Поскольку эти технологии продолжают развиваться, мы можем ожидать увидеть больше инноваций и изменений в этих областях.

😘Идеи монетизации Соры

Запуск модели Sora предоставляет ряд возможностей обычным людям зарабатывать деньги. Вот несколько возможных способов:

Продажа аккаунтов Sora или пригласительных кодов：еслиSoraдоступ ограничен,Пользователи могут быть готовы заплатить за получение учетной записи или кода приглашения.
Создание самостоятельного медиа-контента：использоватьSoraгенерировать уникальныевидеосодержание,Привлекайте аудиторию и создайте медиа-платформу,Зарабатывайте деньги с помощью рекламы, спонсорства или членства.
Платное обучение знаниям：Сделайте инструкцию по использованиюSoraУчебное пособие,Продавайте через платформы онлайн-курсов или персональные сайты.
Новые видео-твиты：Воля小说содержание转化为видео,Служить для авторов романов или издателей,Или продвигайте роман в социальных сетях.
Живая доставка：существовать直播中展示Soraсозданныйвидео,Продвигайте платные продукты или Служите, связанные с Сорой.
Инструменты разработки и веб-сайты：Создавать вокругSoraприложение или сайт,Предоставить дополнительный функционал или Служить,Привлекайте пользователей платить за использование.
Электронная коммерция：вокругSoraсвязанные поисковые запросы Электронная коммерция мероприятия, продажа сопутствующих товаров или Служить.
Продажа видеоматериалов：ВоляSoraсозданныйвидео Загрузить на сайт материала,Зарабатывайте деньги на лицензировании авторских прав или продаже видеоматериалов.
Подготовлено видео по поручению：Предоставляйте клиентам индивидуальныевидеогенерировать Служить,видео, которое генерирует конкретный контент по запросу.
Продажа подсказок по созданию качественного видео：Создавайте эффективные текстовые подсказки,Помогите пользователям более эффективно использовать Sora для создания необходимых видео.,Зарабатывайте деньги, продавая эти советы.
Обстрельные услуги：поставлятьSoraинтерфейс или Служитьупаковка,Это упрощает использование функций Sora нетехническими пользователями.

Эти возможности демонстрируют потенциал модели Sora для коммерческих приложений, а также демонстрируют, как технология искусственного интеллекта может обеспечить новые потоки доходов для частных лиц и предприятий. Однако эта коммерческая деятельность должна соответствовать соответствующим законам и правилам, уважать права интеллектуальной собственности и обеспечивать конфиденциальность пользователей и безопасность данных.

🤪Ссылка на Сору

Структура сети ДИТ

https://github.com/facebookresearch/DiT

Технический отчет Соры

https://openai.com/research/video-generation-models-as-world-simulators

Обзор технологии Сора

https://arxiv.org/abs/2402.17177v1

Ссылка на закрытое бета-тестирование Sora

https://openai.com/form/red-teaming-network

Рекомендация

Категории

Служить Модель данные видео сжатие

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

[AI Milestone] Сора | Самая мощная большая модель для создания видео с использованием искусственного интеллекта

🙄История рождения Соры

😏Технические принципы Соры

техническая основа

Предварительная обработка данных

01 Адаптивное разрешение видео

02 Визуальное представление кодирования

03 Технология сжатия видео

04 Фрагменты скрытого кода пространства-времени

Архитектура нейронной сети

Diffusion Transformer

Советы по инженерным вопросам

01 Навыки текстовых подсказок

02 Советы по созданию изображений

03 Видео-советы и рекомендации

😁Демонстрация способностей Соры

01 Трехмерная согласованность

03 Физическое взаимодействие

04 Имитировать виртуальный мир

🥰Перспективы применения Соры

01 Технические особенности

02 Сценарии применения

😘Идеи монетизации Соры

🤪Ссылка на Сору

Структура сети ДИТ

Технический отчет Соры

Обзор технологии Сора

Ссылка на закрытое бета-тестирование Sora

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose