LLM в основном зрелый, а приложения агентов в основном находятся на стороне B.
С тех пор, как ChatGPT появился в поле зрения общественности в конце 2022 года, LLM в основном завершен. Хотя техническая дорожная карта все еще является инновационной, например, архитектура moe, базовая модель практически не изменится существенно, включая сам GPT, который всегда скрыт. Это версия qstar, но на самом деле, независимо от того, какая это большая модель, ее основная логика мышления остается неизменной, и это предрешено. Именно из-за укрепления технического маршрута вход в LLM в основном стал вопросом вычислительной мощности, то есть, если у вас достаточно денег, чтобы купить видеокарту, пока у вас есть сильные средства, вы можете выпустить большая модель с невероятными параметрами время от времени, но по сути больших сбоев в технологии нет.
В настоящее время на гражданском рынке Openai GPT не сформировала доминирования, особенно в Китае, где Openai даже отрезала себе оружие. Отечественные поставщики услуг крупных моделей практически отказались от углубленных исследований и разработок базовых моделей. После сокращения затрат они также предоставили рынку более дешевые услуги.
Помимо общих больших моделей, в Китае выпущены разные модели в сферах промышленности (компьютерное управление), медицины, образования, права и т. д. Некоторые обучаются на собственном корпусе на основе архитектуры ламы, а некоторые вполне справляются. -настроились на высококлассные модели с открытым исходным кодом, но добиться очень большого прорыва в бизнесе не смогли. С двух сторон в бизнесе профессиональные крупномасштабные модели не могут удовлетворить ожидания клиентов. Например, многие компании сейчас хотят использовать ботов для замены обслуживания клиентов. Теоретически это кажется очень простым и легким, но в конкретных сценариях компании надеются на это. обслуживание клиентов будет основано на использовании знаний вашей собственной компании для ответа пользователям, но с другой стороны, нынешний ИИ не может фактически удовлетворить ожидания корпоративных клиентов; По сути, М по-прежнему предпочитает общую модель, которая требует большого и достаточного корпуса обучения. Так называемая профессиональная большая модель означает, что она не может иметь достаточного корпуса и должна прибегнуть к специализированному корпусу обучения для одной отрасли. быть на предприятии. В среднесрочной перспективе стоимость производства корпуса и обучения очень высока. В сочетании с циклом исследований и разработок и затратами на рабочую силу трудно сказать, что компании смогут принять это изменение.
В настоящее время Агенты в основном создают экосистему для стороны B, потому что на стороне B достаточно сценариев, требующих использования интеллекта, а ИИ должен принимать решения, тем самым освобождая некоторые простые и повторяющиеся задачи. Поставщики агентских услуг часто сосредотачиваются на сокращении затрат и повышении эффективности предприятий. В этих сценариях принятие решений с помощью ИИ имеет высокий уровень толерантности к ошибкам. Даже если возникают некоторые ошибки, их можно компенсировать и исправить с помощью управления предприятием. Но если вы хотите, чтобы поставщики агентских услуг предоставляли целевым компаниям услуги для продуктов C-end, предстоит пройти еще долгий путь. Приведем пример. Мы все знаем, что ссылка «бронирование» незаменима в интеллектуальных жизненных сценариях с использованием искусственного интеллекта, и эта ссылка представляет собой очень важную сцену для принятия решений, поскольку она включает в себя заказ, оплату, логистику и т. д., что включает в себя обычных пользователей. средства, личная информация и т. д., а поставщики агентских услуг не могут позволить себе убытки, причиненные предприятиям из-за ошибок в принятии решений ИИ. Поэтому в сфере C-стороны предприятий в настоящее время мало коммерциализированных агентов.
Что касается C, LLM не предлагает более мощных продуктов. Хотя на таких платформах, как Douyin, мы видели различные поиски с использованием ИИ, быстрое видеообобщение знаний, интеллектуальное создание PPT, интеллектуальное создание отчетов и т. д., обработка текста является относительно сильной областью для LLM, но что касается C -сторона обеспокоена. На самом деле спрос на обработку текста невелик. В большинстве рекламных материалов продукт определяется как «инструмент повышения производительности», то есть он может помочь обычным людям обрабатывать текст, данные и т. д. на работе. Но здесь есть противоречие. Если LLM может помочь обычным людям справиться с этим, то он также может помочь и начальнику. Почему начальнику следует нанимать человека, а не ИИ? Таким образом, на стороне C многие люди больше не интересуются приложениями для чата, такими как ChatGPT. Несмотря на то, что уже существует множество агентов, в том числе платформ для создания агентов, на самом деле на рынке C-стороны по-настоящему популярного агента практически нет. Я думаю, что основная причина в том, что сторона C в основном посвящена потреблению, а сегодняшняя модель потребления - это краткосрочное, быстрое и даже бездумное потребление, и оно также должно иметь некоторую эмоциональную ценность. Это видно из развития. платформы, такие как Douyin и Xiaohongshu. В этом сценарии потребления обычным пользователям сложно платить за чистый LLM, а в поле «Агент» мало приложений потребительского уровня.
Обычным игрокам, если у нас нет сильного интереса или богатых онлайн-ресурсов, мы должны стараться изо всех сил выбирать отечественные недорогие услуги LLM. Отличные производители, в настоящее время предоставляющие услуги LLM, включают Qianwen от Alibaba (qwen с открытым исходным кодом), Wenxin от Baidu, Hunyuan от Tencent, Skylark от Byte, Qingyan от Zhipu (чат с открытым исходным кодом), серию Yi от Zero One Wish (Yi с открытым исходным кодом), Spark от iFlytek, Baichuan от Baichuan Intelligence ( Байчуань с открытым исходным кодом), DeepSeek (с открытым исходным кодом) deepseek), Minimax of Xiyu Technology, Moonshot of Dark Side of the Moon, Shusheng Puyu (InternML с открытым исходным кодом) в сотрудничестве с Университетом Фудань, Китайским университетом Гонконга и другими учреждениями... В настоящее время мои основные модели взяты из чатглм и глубокого поиска. , а deepseek имеет низкую цену. Производительность высокая, поэтому используется как альтернатива.
ИИ-изображения, безумно покоряющие города и территории
В 2023 году, когда я работал в Tencent, я очень рано начал проповедовать использование ИИ для повышения эффективности дизайна. Но по иронии судьбы, это привело к плохому финалу. но просто совпадение. Незадолго до того, как я ушел с работы, я начал обращать внимание на эту сферу и считал, что изображения займут огромное место на потребительском рынке, потому что за изображениями есть видео как продолжение. После этого я также начал исследования в этой области, разработал и выпустил программное обеспечение Visor.
Стабильная диффузия как основной инструмент дизайнеров,Сформировалась огромная экология. Помимо дизайнеров внутри предприятия,Здесь также есть фотостудия, которая изначально использовалась в фотоиндустрии.,Или студия, специализирующаяся на обработке изображений,Кроме того, есть специалисты по архитектурному дизайну и дизайну интерьеров.,Кроме того, есть компании-разработчики программного обеспечения для обработки изображений, дизайнеры одежды, интернет-магазины электронной коммерции, владельцы UP и т. д.,Все они доступны по запросу в этой экосистеме. Недавно популярные проекты,Ремонт старых фотографий/Поврежденные фотографии->Раскрашивание черно-белых фотографий->Пусть старые фотографии переместятся,Каждая из трех ссылок может позволить многим людям заработать много денег. И эти энтузиасты,Он также объединил такие сообщества, как liblib и openart.,Эти сообщества предлагают различные проекты и программы. Различные стартапы пытаются предоставлять платные услуги по обработке изображений для C-стороны.,И когда в следующий раз такая большая компания, как Byte,Когда запускаются Dreamina, Star Painting и другие продукты,Когда стабильность запускает собственный сервис API,Эти независимые предпринимательские команды часто сталкиваются с болезненным выбором.
В разных сценариях предъявляются разные требования к технической глубине изображений ИИ. Создателям, которые стремятся создавать изображения, некоторым достаточно получить вдохновение от ИИ, создать 10 изображений за раз, а затем завершить создание вручную после получения вдохновения. Поэтому, если компьютер может запускать SD webui локально, все может. . Есть также некоторые, которые нацелены на обработку изображений, например, некоторые фотостудии или студии. Они не просто обслуживают предприятия или частных лиц. Однако приветствуются любые потребности в обработке изображений. Команда может варьироваться от нескольких до более чем 10 человек. С помощью comfyui создайте многоразовый рабочий процесс, и когда вы удовлетворяете потребности одной и той же цели, вы можете зарабатывать деньги, не занимаясь этим слишком много. Такой предпринимательской команде даже не нужен компьютер Mengka для каждого человека. У всей команды есть. one Подобно центральному серверу, вся команда может выводить невероятную информацию. Некоторым компаниям необходимо обучать свои собственные модели для предоставления уникальных услуг своим клиентам, но чтобы поддержать себя, они часто предоставляют возможности единоразовой обработки изображений на своих веб-сайтах и взимают плату за просмотр или ежемесячную подписку. Только когда вы доберетесь до ведущих производителей, у вас будет достаточно ресурсов, чтобы не только обучать модели, но и покупать обученные услуги у других третьих лиц, а затем создавать свои собственные приложения. Здесь особенно жестокий поток байтов, и вы не только тренируетесь. яростно, , а также предоставляет бесплатные услуги разработчикам через coze. В качестве независимой функции по резке и печати недостаточно предоставлять продукцию для C-стороны, и она должна производить продукцию самостоятельно. Помимо Byte, такие приложения, как Tongyi Qianwen и Wenxin Yiyan, также содержат изображения AI. Meitu Xiuxiu, традиционный производитель обработки изображений, также развивается, а Kuaishou также использует Kuaiying. Опытный специалист по обработке изображений Photoshop выпустил бета-версию, в которой интегрированы функции искусственного интеллекта, основанные на оригинальных инструментах выбора, восстановления и других инструментах. Он использует малые возможности для достижения больших результатов и использует мощные возможности искусственного интеллекта для обработки изображений. -Открытие. К сожалению, по причинам контроля данных мы в настоящее время не можем использовать эту часть функциональности ИИ в Китае.
Изображения AI делятся на два аспекта: необработанные изображения и отретушированные изображения. В настоящее время лучшим аспектом изображений AI являются необработанные изображения. Будь то Midjourney, SD или даже приложение Byte, если пользователь уделяет немного внимания, они могут получить очень красивые результаты. Это потому, что текущий этап уже наступил. v3. Основные модели обучены очень и очень оперативно реагировать на запросы пользователя. Хотя многие детали на необработанных фотографиях все еще не выдерживают пристального внимания. Если вглядеться в детали, то часто можно встретить места, о которых страшно даже подумать. Поэтому, если мы хотим получить хорошую картинку сейчас, то вряд ли мы сможем получить ее напрямую через подсказку, и нам часто приходится делать детальный монтаж. В настоящее время, хотя PS по-прежнему остается первым выбором, все-таки произойдет скачок в программном обеспечении. Поэтому редактированию фотографий на основе искусственного интеллекта также уделяется все больше и больше внимания. В настоящее время почти все производители предоставляют пользователям возможность ретушировать изображения после их создания. В зависимости от потребностей изображения иногда требуется лишь небольшая обработка с помощью ИИ для получения удовлетворительных результатов. Visor также был спроектирован и разработан с учетом нынешней ситуации. Он надеется, что пользователи смогут использовать ИИ для создания, редактирования и публикации изображений за один раз. В то же время он может предоставлять высокоинтегрированные услуги, такие как лепка, изменение лица и старение. восстановление фотографий по условиям. Однако на данный момент я считаю, что лучший эффект ретуши изображений — это возможности PS в области искусственного интеллекта, в конце концов, это признанный дизайнерский бренд.
Как обычным пользователям, если мы хотим творить, нам часто приходится загружать несколько приложений и использовать разные функции в разных приложениях для достижения желаемого эффекта. Отдельные люди или команды, которые хотят зарабатывать деньги в области изображений с использованием ИИ, должны захватить «горячие точки», объединить освоенные ими технологии, быстро создавать короткие видеоролики, позволяющие добиться эффектных изображений, и рекламировать себя на таких платформах, как Douyin. .
В целом, область создания изображений с помощью ИИ имеет очень широкое пространство, которое может вместить в себя разные типы людей, использующих ИИ для достижения своих собственных целей в области изображений, независимо от того, используют ли они ИИ в качестве инструмента для достижения своих собственных целей дизайна или хотят. заработать дополнительные деньги с помощью искусственного интеллекта, области обработки изображений с использованием искусственного интеллекта. Это все терпимая и немного сумасшедшая область.
Голоса ИИ незаметно становятся все более мощными
Звуковое поле, которое легко упустить из виду, на самом деле занимает очень большую долю в приложениях. Однако с точки зрения применения, за исключением слепых, звук является скорее вспомогательным средством и зачастую не играет центральной роли, поэтому его так легко игнорировать.
Однако сейчас все по-другому, потому что голоса ИИ становятся все более и более мощными. Новый раунд ИИ позволяет нам полностью клонировать голос человека. Что еще более удивительно, так это то, что он также может контролировать эмоции, реакции и паузы голоса в реальном времени и даже интегрировать несколько персонажей посредством обучения. хочу и хочу. На следующем этапе основная техническая цель — добиться недорогой и высокопроизводительной генерации звуковых потоков в реальном времени, чтобы звуки ИИ могли стать машинными объектами, которые могли бы естественным образом общаться с людьми. Кроме того, здесь есть еще одна ветка — пение ИИ. Сейчас на основе технологии so-vits-svc можно сделать пение ИИ очень хорошо. Если посмотреть на развитие suno, создатели музыки громко плачут, что проиграют. их рабочие места.
С точки зрения приложений, голос ИИ станет необходимым условием для ряда сценариев, таких как цифровые люди, кино- и телепроизводство, игровые NPC и роботы. Но с практической точки зрения остается вопрос о том, насколько обычные пользователи требуют звука. Нынешний тупой TTS не является неприемлемым для большинства обычных пользователей, только в определенных областях, особенно в некоторых сценах, требованиях к иммерсивному опыту. звук относительно высокий.
Когда был выпущен GPT-4o, голос AI показал свое уникальное очарование. В будущем каждый интеллектуальный робот общего назначения будет иметь собственный тембр, и пользователи смогут даже настраивать тембр в соответствии со своими предпочтениями.
Голос ИИ содержит два важных аспекта: «слушание» и «говорение». Первый — это тренировка голоса, в которой клонирование голоса является большой проблемой. В сфере цифровых людей наличие голоса, точно такого же, как у хоста, является основным требованием. Второй — генерация текстовых звуков. Управляйте скоростью, высотой звука, восклицанием, акцентом и т. д. звука с помощью текста, и производительность должна быть достаточно высокой. В настоящее время это сложная задача.
Я опробовал популярные в последнее время чатTTS, fish-audio и cosyvoice и обнаружил, что даже если одна технология хорошо справляется с определенными задачами, вся техническая система имеет свои недостатки в достижении своих целей, а некоторые не способны добиться выдающихся результатов. Результаты клонирования, некоторые клоны превосходны, но производительность генерации низкая. Короче говоря, хотя имеющиеся у нас инструменты становятся все лучше и лучше, они недостаточно хороши.
AI-видео: чем больше ожидания, тем больше разочарование
В начале этого года openai завершила пресс-конференцию в стиле PPT, посвященную соре. С тех пор видео с использованием искусственного интеллекта стало серьезной областью применения искусственного интеллекта, которую все ждут. Среди предыдущих трек-игроков Пика быстро упала, в то время как подиумная и отечественная звезда пикверсов все еще сопротивляются. После Соры все маршруты видеотехнологий AI были унифицированы. Приложение Kuaiying от Kuaishou выпустило функцию внутреннего тестирования видео AI (на основе большой модели Keling). Благодаря своим превосходным практическим эффектам она использовалась в Gen-3, Genmo, Dreamina. и т. д. Среди многих приложений для создания видео с помощью искусственного интеллекта оно прорвало осаду и заняло первое место в практических приложениях (на потребительском уровне). Многие из недавно популярных видеороликов о перемещении старых фотографий были сняты Кэ Лингом.
С точки зрения потребителей, к видеороликам, созданным с помощью ИИ, есть несколько основных требований. Во-первых, изображение должно быть стабильным и последовательным, а персонажи — невыносимыми. Второе — необходимость понимания. точно, не пропустите и не перепутайте ключевую информацию; в-третьих, изображение может отображаться с нормальной скоростью, а эффект движения стабилен. В-четвертых, чем больше продолжительность, тем лучше, и чем выше пиксели, тем лучше;
С технической точки зрения, все текущие модели генерации видео AI основаны на техническом маршруте Соры, который обучается с помощью видеоданных. Методы создания видео включают генерацию подсказок и генерацию на основе изображений. Некоторое время назад я в силу своего оптимизма считал, что это оптимальный технический путь, и концепция «модели мира» тогда была дико раскручена, что заставило меня неверно оценить саму технологию. Например, что касается согласованности символов, этот технический маршрут вызывает беспокойство. Если согласованность символов не может быть гарантирована, во многих случаях видео будет недоступно, только для видео PPT. Я думаю, что окончательное решение — вернуться к «подростковому» маршруту. Так же, как и популярные в последнее время видеоролики, анимирующие старые фотографии, хотя картинка всего одна, суть видео заключается в том, чтобы использовать картинки в качестве кадров и последовательно воспроизводить их. Поэтому при генерации кадров производится тонкая обработка символов. исходных изображений, лучше в значительной степени избегать видеороликов потока сознания, основанных на подсказках. На самом деле этот маршрут был проверен во многих предыдущих коротких видеороликах с танцами в мультяшном стиле, или видеороликах с заменой человеческих лиц в видеоролике и т. д. Сегодня я также увидел, что SenseTime выпустила модель Vimi для реализации управляемых видеороликов персонажей и обеспечения единообразия персонажей путем управления позами персонажей. Принципы, лежащие в основе этой модели, сочетаются с сетью управления в изображениях AI. Все они основаны на этом, казалось бы, глупом, но очень эффективном техническом пути.
Конечно, если мы сможем добиться эффектов высокой четкости и реалистичности, таких как демонстрационный эффект Соры при создании видео, это действительно принесет нам лучший опыт в производстве фильмов и телевидения, играх и других областях. Например, когда мы создаем несколько коротких научно-популярных видеороликов, из-за нехватки материала, если мы сможем дополнить их с помощью ИИ, для нас будет полезнее предоставить научно-популярный контент более высокого качества. Другой пример — анимация, которую я раньше делал для детей. Если искусственный интеллект можно использовать для создания видеороликов в стиле комиксов с последовательными персонажами, основанными непосредственно на содержании истории, это также может оказать большую помощь в обучении родителей и детей. Хотя мы можем видеть множество веб-текстов, напрямую выводимых в короткие видеоролики на платформах коротких видео, очевидно, что эти изображения слишком грубы, и между изображениями нет никакой логики. Такое ощущение, что это просто картинка.
Будь то видео, генерируемое подсказками, или видео, генерируемое изображением, эффект в настоящее время не идеален. Возможно, предстоит пройти еще долгий путь, прежде чем мы сможем использовать AI-видео для завершения вывода контента в производстве.
Мультимодальные большие модели важны, но прогресс идет медленно
Суть мультимодальности в области ИИ — это роль «глаз». Успех крупных мультимодальных моделей открывает окно в разум ИИ. Однако нынешнее развитие мультимодальных больших моделей не является оптимистичным. Начиная с самой ранней версии Google о мошенничестве с видео Gemini и до нынешних сборов GPT-4o и ограничений на количество вызовов, развитие мультимодальных больших моделей не было гладким. Есть ветка под мультимодальностью, которая является моделью видения. Эта ветка хорошо развивается. Фи3-видение, выпущенное Microsoft, достигло 128 тысяч параметров. Можно сказать, что аппаратный порог снижен до очень низкого уровня. Однако разработка общих мультимодальных больших моделей идет медленно, возможно, из-за чрезмерных инвестиций в LLM. Ожидается, что на следующем этапе крупные производители смогут снизить цену и одновременно повысить производительность в мультимодальном режиме. Да и есть ли среди отечественных производителей те, кто может с нами конкурировать?
Мультимодальная большая модель является необходимым условием для того, чтобы держать камеру мобильного телефона для общения с ИИ на пресс-конференции GPT-4o. Без мультимодальности все сценарии, основанные на визуальном диалоге, являются ненужными. Хотя визуальная модель может решить некоторые проблемы, визуальная модель может обрабатывать только изображения, а не видео, и не имеет возможности динамически анализировать контент. Поэтому не существует способа по-настоящему решить проблемы сцены, которые необходимо решить с помощью мультимодальности.
В сценариях применения мультимодальность может использоваться для роботов, автономного вождения, образования и обучения, ответов в реальном времени и анализа различных типов знаний и т. д. Например, слепому человеку может потребоваться только установить камеру над головой; глухонему может потребоваться только носить очки с субтитрами в реальном времени. В этих сценариях приложений мы фактически можем вызывать различные инструменты через архитектуру агента. Теперь большинство приложений LLM также достигают мультимодальных эффектов на основе технологии агента. Однако очевидно, что существует огромная разница в производительности, и сериализованный контент необходимо обрабатывать. Для достижения наилучших результатов анализу все еще может потребоваться мультимодальность.
Универсальные роботы, единственное направление будущего
Все предыдущие находятся только на уровне программного обеспечения. Когда мы расширяем наш кругозор, конечной целью искусственного интеллекта ИИ должно стать предоставление возможности ИИ управлять аппаратным обеспечением. В настоящее время в промышленных цехах, а также в умных автомобилях, отелях и торговых центрах есть много роботов, а также некоторые сервисные роботы. Однако расстояние между этими роботами и роботами общего назначения такое же, как расстояние между инфузориями и людьми. Универсальные роботы — это роботы, которых мы видим в фильмах. Они предоставляют универсальные услуги, например, дома, рестораны, гостиницы, офисные здания и т. д. Они могут заменить людей для выполнения сервисных задач, таких как работа по дому, уборка, раздача, ремонт и т. д. конечно, для некоторых сил они тоже будут развернуты на поле боя.
По мере роста экосистемы с открытым исходным кодом в области робототехники стоимость 3D-печати постепенно снижается. В области аппаратного обеспечения инженерно-техническая сложность создания роботов общего назначения на самом деле очень низка. Основная проблема заключается в том, как спроектировать массу. - созданный робот с сильным чувством дизайна. Аппаратная система с повторяющимися и функциональными функциями, и, что более важно, как заставить аппаратную систему обрести душу. С нынешней точки зрения, компания-робот Fig, инвестируемая OpenAI, взяла прототип, и основная проблема по-прежнему заключается в вычислительной мощности (производительности).
Есть также отечественные компании, занимающиеся исследованиями роботов, в том числе UBTECH, Xiaomi и т. д. В отраслевой цепочке также есть такие компании, как Green Harmonic и Keli Sensing. Однако в целом вся отрасль все еще относительно фрагментирована и не сформировала масштабного или промышленного уровня. цепь недостаточно идеальна. С этой точки зрения в сфере ИИ отечественное развитие по всем упомянутым в статье направлениям не является оптимистичным.
Заключение
В этой статье выбираются несколько направлений, которые я считаю наиболее важными для текущего развития области ИИ, и объясняются их, представляя состояние отечественного развития, чтобы как можно больше читателей могли понять текущие тенденции развития в области ИИ. 2024 год — год взрывного роста приложений ИИ. Как прикладная держава, у нас есть определенные преимущества в фундаментальных исследованиях и разработке продуктов. Однако существуют очевидные недостатки конкуренции как в предпринимательской среде, так и в производственной цепочке. Следующие 5-10 лет неизбежно станут началом доминирования ИИ в области приложений. В международном контексте эта конкурентная область становится еще более важной. Как практики, мы должны осознавать пробелы внутри страны и за рубежом. В то же время именно потому, что мы знаем о текущей ситуации в производственной цепочке внутри страны и за рубежом, у нас есть уверенность в том, что мы сможем восполнить недостатки. в разных ссылках по крупицам. Конкуренция всегда жестока. В ключевых областях не существует открытого рынка. Если мы не проявим инициативу, в будущем нам, возможно, придется закупать ключевые технологии или продукты, такие как универсальные роботы, у зарубежных компаний, что приведет к более серьезным последствиям. кризис данных. Личности очень малы в волне времени. За последние десять лет я накопил большой опыт в разработке приложений. Теперь я продолжаю инвестировать в область ИИ и надеюсь внести свой скромный вклад в эту эпоху.