Рекламная модель в эпоху интеллектуальных агентов может перейти от потока информации к потоку действий.
Автор: Первоапрельская шутка
Редактор: Чэнь Цайсянь
Первоначально мирный май стал оживленным, когда OpenAI выпустила GPT-4o ранним утром 14-го числа.
Днем позже Google представила проект умного помощника Astra и легкую мультимодальную модель Gemini 1.5 Flash на своей ежегодной конференции разработчиков.
В тот же день Byte обновила своего помощника по искусственному интеллекту «Doubao» и платформу разработки приложений «Kouzi», а также выпустила семейство больших моделей Doubao, сократив плату за API на 99% и вызвав внутреннюю ценовую войну на большие модели.
На следующей неделе, 17 мая, Tencent представила свое приложение для умного помощника Yuanbao и платформу интеллектуального творчества Yuanqi. 22 мая Baichuan Intelligent выпустила новое поколение большой модели Baichuan 4, а также выпустила первого помощника с искусственным интеллектом; «Бай Сяоин» 22 мая на конференции Build компания Microsoft представила настольный интеллектуальный помощник Copilot PC с использованием GPT-4o и соответствующей платформы разработки Copilot. В то же время студия выпустила несколько мультимодальных малых моделей (SLM) серии Phi-3, обозначив свою решимость трансформироваться в искусственный интеллект после успеха Windows в эпоху ПК и облака Azure в эпоху Интернета.
Это не может не напомнить людям о выпуске GPT-4 14 марта прошлого года. В течение месяца были выпущены одновременно различные крупные модели, положив начало «Битве 100 моделей».
По сравнению с 2023 годом, после наступления 2024 года, хотя различные компании продолжат инвестировать в крупные модели, они постепенно сместят свое внимание с моделей на приложения.
Эту тенденцию можно увидеть по публичному поведению OpenAI в прошлом году.
В марте 2023 года OpenAI обновила GPT-3.5 до GPT-4. После этого, в процессе догонения GPT-4 от Google, Claude и ряда отечественных компаний, OpenAI, похоже, замедлила GPT-5, если бы столкнулась с ним. технические узкие места или нет. В зависимости от ритма выпуска две версии GPT-4V и GPT-4o были запущены одна за другой.
Добавляя визуальные и речевые модальности, он обеспечивает поддержку приложений, основанных на существующих базовых возможностях модели. Возможности мультимодального взаимодействия в реальном времени, продемонстрированные моделью GPT-4o, действительно дали нам больше возможностей для создания приложений «умных помощников».
Недавно выпущенные приложения для больших моделей можно условно разделить на две категории.
Один тип — интеллектуальные агенты, такие как Дубао и Юаньбао. По сути, он повторяет форму ChatGPT, но добавляет такие функции, как поиск и вызов других инструментов, а также настройку ролей на основе диалогового интерфейса. Хотя сложные функции, такие как планирование задач, пока не поддерживаются, мы все же можем классифицировать эти приложения как прототипы интеллектуальных агентов, поскольку они имеют возможность вызывать инструменты для автоматического выполнения задач.
Другой тип — это платформы интеллектуальных агентов, такие как Button и Yuanqi. В основном следуя форме GPT Builder, вы можете настроить разработку настраиваемых агентов без кода или с низким кодом с помощью более гибкой базы знаний, API подключаемых модулей и т. д., добавляя при этом визуальный интерфейс рабочего процесса и публикуя агенты в Feishu. /WeChat и т. д. Функция.
На данном этапе интеллектуальные агенты стали основным носителем приложений для крупных моделей, признанных в отрасли.
В контексте того, что вся отрасль начинает изучать коммерческое применение, мы наблюдаем переход от «сотни моделей» к «тысячам моделей». В число «тысяч тел» входят не только стандартизированные агенты, такие как Doubao и Yuanbao, но и тысячи специализированных агентов, созданных на агентских платформах, таких как Guanzi и Yuanqi.
30 мая Baidu проведет мобильную конференцию по экологии. Тема конференции — «сделать разведку доступной для всех». Говорят, что она также сосредоточится на интеллекте и связанной с ним экологии. Несмотря на то, что в настоящее время существуют ограниченные сценарии, в которых действительно можно реализовать «умные тела», приходится сетовать на скорость перехода от модели к приложению.
Подобно тому, как в прошлом году началось масштабное строительство электростанций (крупные модели) и электросетей (облако, API), в этом году вы можете испытать некоторые электроприборы (интеллектуальные объекты) с множеством функций. Более того, если эти стандартизированные устройства не могут удовлетворить ваши потребности, вы также можете спроектировать их самостоятельно и быстро создать эксклюзивный индивидуальный прибор.
1. Конкурентная среда: битва за новые входы
В этой статье обсуждаются только агенты в виртуальном пространстве.
Собственные характеристики агентного ИИ дают ему возможность стать новой точкой входа перед существующим программным уровнем в краткосрочной и среднесрочной перспективе и могут даже заменить существующий программный уровень в долгосрочной перспективе.。
Со стороны C агент добавляет такие функции, как вызов подключаемых инструментов на основе базовых возможностей диалога большой модели. Это позволяет ему функционировать в качестве личного помощника с интерфейсом на естественном языке, унифицированно обрабатывать потребности пользователей, а затем вызывать другое программное обеспечение и службы прикладного уровня, тем самым становясь единым входом ближе к пользователю.
С точки зрения бизнеса существующие сервисы крупных моделей в основном предоставляют общий интеллект посредством облачных вычислений и API. Наложив на это знания о бизнес-процессах и предметной области, интеллектуальные агенты могут преобразовать общий интеллект в производительность, которую могут использовать предприятия, то есть стать порталом, более близким к бизнесу.
Ниже приведены некоторые текущие модели и приложения, относящиеся к агентам из категорий C-стороны и B-стороны.
Агенты C-end позиционируются как личные помощники, естественное взаимодействие является основным требованием, а персонализация является ключом к улучшению опыта. Агенты B-стороны позиционируются как цифровые сотрудники, автоматизация является основным требованием, а специализация является ключом к повышению эффективности.。
Однако многие платформы интеллектуальных агентов в настоящее время не проводят четкого различия между стороной C и стороной B, например Guanzi, Zhipu AI Open Platform и Dify. С одной стороны, они сотрудничают с разработкой интеллектуальных помощников стороны C, а также являются. подходит для некоторых сценариев применения B-стороны. На стороне B таблицы перечислены только платформы интеллектуальных агентов, которые явно ориентированы на рынок стороны B.
По сравнению со стороной C, платформа агента B-стороны должна предоставлять более широкие возможности подключаемых модулей и более гибкие функции проектирования рабочих процессов. Кроме того, платформы агентов B-стороны обычно должны интегрировать аннотацию данных, точную настройку модели и другие функции, чтобы лучше удовлетворять потребности предприятия в вертикальных возможностях моделирования.
В качестве расширения интернет-приложений новые входы, создаваемые интеллектуальными приложениями, часто основаны на существующих входах в Интернет.。
В сочетании с экологией приложений большой модели вход на сторону C в основном включает в себя аппаратное обеспечение (например, iPhone)/ОС (например, Windows), приложения уровня платформы (например, WeChat), приложения-убийцы (например, Douyin)/вертикальные сценарии. (например, эмоциональное общение) и сторона B. Вход в основном включает в себя платформы облачных сервисов (например, Alibaba Cloud), программные платформы (например, Feipiao), программное обеспечение корпоративных платформ (например, Feishu)/вертикальные сценарии (например, продажи).
На основе входных ресурсов и освоенных нами технологий больших моделей мы сравнили четыре типа компаний.
(1) Крупнейшие интернет-компании: такие как BAT, Byte и Huawei. В эпоху Интернета она накопила богатые входные ресурсы и обладает достаточным капиталом и талантами, чтобы быстро осваивать технологии крупных моделей.
(2) Крупные модельные стартапы: такие как Zhipu, Dark Side of the Moon и MiniMax. Предприятия этого типа обладают преимуществом первопроходца в области технологий больших моделей и в последние два года пользовались успехом у капитала. Они могут предоставлять услуги по выводу возможностей модели, но, как правило, им не хватает сценариев применения и входных ресурсов.
(3) Ведущие в отрасли компании с технологическими генами: такие как Xiaomi, Mobvoi и Yunzhisheng. Эти компании уже имеют относительно зрелые продукты или полагаются на определенную выгодную область в качестве входа. У них нет полномасштабных исследований и разработок моделей. Хотя некоторые также разрабатывают крупномасштабные модели самостоятельно, они в основном поддерживают свои собственные продукты. .
(4) Компании, занимающиеся интеллектуальными платформами: такие как Dify.ai и Lanma Technology. Компании этого типа фокусируются на уровне приложений больших моделей и стремятся предоставить платформу разработки с низким уровнем написания кода, которая поможет пользователям настраивать свои собственные агенты. Они действуют легко и не разрабатывают сами крупные модели, а в последнее время привлекли внимание столичного рынка.
1. Технология крупных моделей в сравнении с существующими порталами
Действия каждой компании в плане интеллектуальных агентов тесно связаны с ситуацией на существующих порталах.
Среди крупнейших интернет-компаний Alibaba на ранней стадии создала относительно полную экосистему разработки крупных моделей на базе Alibaba Cloud. На этом этапе Alibaba использует платформы корпоративных услуг, такие как DingTalk, чтобы сосредоточиться на разработке интеллектуальных приложений B-стороны.
Будучи первым отечественным гигантом, выпустившим крупные модели, Baidu уже давно изложила свои планы относительно крупных моделей, агентов и агентских платформ. Имея входы как со стороны C, так и со стороны B, Baidu, похоже, не торопится решать, на какой стороне сосредоточиться, и, возможно, ему нужны обе стороны.
Вначале компания Huawei вложила значительные средства в модель Pangu, но позже, похоже, больше сосредоточилась на аппаратном обеспечении и экологии облачных вычислений, не предприняв каких-либо существенных шагов в области приложений интеллектуальных агентов.
Хотя Tencent и Byte имеют обильные входные ресурсы как на стороне B, так и на стороне C, они, похоже, более осторожны и заняли выжидательную позицию только на ранней стадии. Лишь недавно начали постепенно внедряться различные продукты для умного тела. Для сравнения, компания Byte была очень радикальной с момента запуска. Она мобилизовала основные магистральные сети для формирования нового потока отделов и одновременно предприняла усилия на B-конце и C-конце, внутри страны и за рубежом.
Также заслуживает внимания появление ведущих компаний отрасли в области аппаратных терминалов и вертикальных областей. Выпуск GPT-4, несомненно, повысил ожидания людей в отношении интерфейсов на естественном языке. Существующие аппаратные терминалы с экранами, такие как мобильные телефоны, ПК и автомобили на новых источниках энергии, естественно, станут важными носителями интеллектуальных помощников C-стороны. Применение Astra на Google Glass, представленное на конференции разработчиков Google, также указывает на то, что различные носимые устройства с искусственным интеллектом еще больше расширят сценарии применения умных помощников.
Разработку агентов B-стороны необходимо сочетать с конкретными бизнес-сценариями.,Предприятия с глубоким пониманием вертикальных областей и накопления клиентов имеют возможность полагаться на интеллект для модернизации своих исходных услуг и достижения более профессиональных и эффективных решений.。
С одной стороны техника, с другой вход. Это хорошо объясняет сотрудничество между стартапами, осваивающими большие модельные и агентные технологии, и крупными производителями/лидерами отрасли, имеющими доступ к ресурсам. Например, OpenAI интегрировала GPT-4o в компьютер Microsoft Copilot и, по слухам, работает с Apple над внедрением новых моделей в iOS 18 для улучшения возможностей голосового общения Siri. Zhipu AI сотрудничает с Lenovo и Intel, чтобы адаптировать модель GLM-4 к новому поколению чипов Intel и ПК Lenovo для поддержки новейших ПК с искусственным интеллектом. Regie.ai интегрирует свою агентскую платформу в системы лидеров отрасли продаж Salesforce и HubSpot, чтобы расширить их возможности автоматизации продаж.
2. Гиганты против других компаний
Куда бы ни пошли великаны, не растет ни травинки.
Крупнейшие интернет-компании обладают как технологиями, так и доступом. Если другие компании хотят разрабатывать интеллектуальные приложения, как им следует добиться успеха? Можно обнаружить, что нынешние реальные пользователи интеллектуальных агентов крупных производителей в основном сконцентрированы на C-конце, и единственные приложения интеллектуальных агентов, которые явно ориентированы на B-конец, построены на их существующих входах на корпоративную платформу.
Требования к специализации приложений-агентов B-стороны определяют, что проектирование и разработка агентов должны быть углублены в рабочий процесс бизнеса. Очевидно, что у крупных производителей нет сил вникать в каждый бизнес-сценарий. Таким образом, преимущество других компаний заключается в использовании уже зрелых продуктов и клиентской базы, а также в глубоком понимании бизнес-сценариев в вертикальных областях.
Недавняя ценовая война между крупными производителями крупных моделей не окажет фундаментального влияния на конкурентную среду на стороне B. Учитывая ограниченные возможности текущей модели, основным фактором, определяющим готовность клиентов платить, является производительность, а не цена. Особенно когда возможности большой модели первого эшелона близки, будь то вызов API на стороне B или чат-бота на стороне C, это прямое применение базовых возможностей большой модели. Даже если клиенты привлекаются за счет перенаправления трафика и снижения цен, сложно обеспечить лояльность пользователей. Именно для повышения липкости необходимо упаковать уровень интеллектуальных приложений за пределы большой модели.
например,B-конечные пользователи сосредотачиваются на том, может ли приложение повысить производительность.,Может ли он действительно решить практические проблемы?,Это требует кодирования знаний предметной области и понимания бизнеса в специализированных приложениях, в то время как пользователи C-стороны чувствительны к стоимости миграции приложений;,Необходимо передать совокупный эффект данных о поведении пользователей.,Улучшите персонализированный опыт и зависимость от существующего продукта. Независимо от ситуации,Все должно быть основано на запуске интеллектуального прикладного продукта.,Быстро создайте маховик данных и преобразуйте его в возможности итерации продукта и моделирования, тем самым создавая технические и рыночные барьеры.。
Просмотрено за более длительный период времени,С улучшением возможностей Модели, улучшением экологии разработки интеллектуальных агентов и развитием пользовательских привычек.,Порог создания индивидуальных интеллектуальных приложений будет становиться все ниже и ниже.。Унифицированная модель: базовые возможности большой модели + персонализированные потребности пользователя/специализированный бизнес-процесс предприятия = индивидуальный интеллект.。
Крупнейшие производители предоставляют вычислительную мощность и порталы приложений.,Дачан и Дачан предоставляют базовые возможности Дачана.,Персонализированные и специализированные потребности и данные исходят от самих пользователей.。Это означаетУровень разработки программного обеспечения между большими моделями и приложениями станет очень тонким, а ценность традиционных разработчиков приложений и корпоративного программного обеспечения будет продолжать снижаться.。
У разработчиков программного обеспечения есть смешанный мешок радости и печали. Хорошей новостью является то, что недавнее снижение стоимости вызова API больших моделей и возможность того, что ИИ заменит работников умственного труда в будущем, значительно увеличат размер рынка программного обеспечения. Печально то, что до того, как будут найдены TPF и PMF, вы не сможете по-настоящему насладиться дивидендами от снижения цены модели, и этот будущий рост рынка программного обеспечения может не иметь к вам никакого отношения.
В краткосрочной перспективе, когда возможности модели недостаточно сильны, а экология агентов недостаточно совершенна, капитал и входные ресурсы на данный момент не могут быть преобразованы в решающие преимущества. Первые пользователи новых технологий будут пробовать различные готовые агенты, чтобы испытать их, и в конечном итоге выберут продукты, которые действительно понимают себя и могут решать практические проблемы.
Разработчики программного обеспечения оптимизируют уровень приложения агента,Может предоставить более персонализированные и профессиональные решения,Тем самым получая некую возможность самостоятельного входа. Однако,В долгосрочной перспективе,Если данные, технологии и рыночные барьеры традиционных компаний-разработчиков программного обеспечения недостаточно сильны,По сравнению с универсальным решением, предоставляемым крупными производителями, которое включает аннотацию данных, тонкую настройку, разработку агентов и даже бизнес-порталы.,Вероятно, они будут повторяться в процессе улучшения возможностей Модели и улучшения экологии разработки. с этой точки зрения,Продукты, сочетающие аппаратное обеспечение и углубляющиеся в вертикальные сценарии, могут иметь большие возможности.。
Если не можешь победить, присоединяйся. Перед компаниями-разработчиками программного обеспечения есть еще один путь, и он также является тем, что ожидают увидеть гиганты (намеренно задуманным). Когда возможность стать независимым входом становится все меньше и меньше, станьте частью большой модели и экосистемы агентов гиганта, сосредоточьтесь на разработке плагинов агентов с дифференцированными функциями или вертикальных агентов, прикрепленных к платформе, или даже просто предоставьте поле для создания Знания и высококачественный контент, обслуживающий RAG, станут реалистичным выбором.
Появление текстильных машин уменьшило дефицит текстильных навыков, что привело к безработице многих опытных традиционных ткачей, но также породило большое количество новых текстильных рабочих, которые могли управлять текстильными машинами. Мы часто используем пример промышленной революции, чтобы показать, как отдельные работники умственного труда адаптируются и делают выбор в контексте крупных моделей. В контексте приложений агентов, с улучшением возможностей больших моделей и улучшением экосистемы разработки агентов, ценность требований к подключению и возможностей разработки индивидуальных продуктов будет постепенно снижаться. Примеры традиционных и новых ткачей также могут послужить уроком для сегодняшних разработчиков программного обеспечения.
2. Бизнес-модель:
От «потока информации» к «потоку действий»
Если взять в качестве примера OpenAI, то в настоящее время основными бизнес-моделями для стороны C и стороны B являются членские платежи и вызовы API соответственно. С точки зрения внутреннего рынка, пользователи C-стороны еще не сформировали платежную привычку, а приложения B-стороны будет легче внедрить в краткосрочной перспективе. Но в долгосрочной перспективе рынок C-конца имеет больший потенциал и возможности для развития, чем рынок B-конца.
Однако нынешняя модель членства сама по себе не может поддержать этот потенциал, а наиболее распространенная модель рекламного бизнеса, похоже, не работает в области интеллектуальных агентов. Предыдущее поколение компаний, занимающихся искусственным интеллектом, не имело опыта 2C и готовых бизнес-моделей, на которых можно было бы учиться.
Традиционная рекламная модель – это реклама информационных потоков.。Будь то газета、Традиционные средства массовой информации, такие как телевидение,Или интернет-платформы, такие как сети порталов, поисковые системы и системы рекомендаций.,Распространение информации централизовано – рекламный контент внедряется и предоставляется пользователям вместе с информационным потоком. Однако,Поскольку агенты становятся новым входом,Информация, с которой сталкивается каждый пользователь, персонализируется и реорганизуется его умным помощником.,Достигается децентрализация распространения информации.
То есть,Информацию непосредственно «видит» агент, а не пользователь.。Это именно то, что Google и др.поисковая система Тревога гигантов。
Мы рассмотрим решения от поискового стартапа Perplexity AI. Это позволяет отображать рекламу в косвенных каналах, рекомендуя пользователям контент, спонсируемый клиентами, в форме соответствующих вопросов. Конечно, пользователи могут отказаться от такой рекламы, оплатив подписку. Google также запустил новую поисковую систему под названием AI Reviews на своей конференции разработчиков 15 мая. Ее решение для бизнес-модели заключается в том, что только платные пользователи могут пользоваться этой расширенной функцией поиска AI.
С точки зрения нативности ИИ, когда информация децентрализована и все взаимодействуют с различными сервисами единообразно посредством интеллектуальных помощников, традиционная модель рекламы, основанная главным образом на информационном потоке, также нуждается в переосмыслении.
По сравнению с позиционированием инструментов традиционного ИИ и функцией вопросов и ответов чат-бота, характеристикой агента является то, что он может моделировать полный процесс человеческого восприятия, познания, принятия решений и действий.
Представьте себе умного помощника, который поможет вам заказать еду на вынос. Он может понять ваши потребности в питании, помочь вам просмотреть близлежащие рестораны, а затем автоматически разместить заказ. Это, несомненно, хорошая новость для людей с фобией выбора.
если воспримет、познание、Принятие решений попадает в обобщенный информационный поток,Агент расширяет его до потока действий。Пользователи могут не обращать внимания на конкретный процесс взаимодействия агента с информационным потоком, а лишь смотреть на конечное действие.。
Это открывает новые возможности рекламной модели в эпоху интеллектуальных агентов: от потока информации к потоку действий.。
Когда агент выводит действия, основанные на потребностях пользователя, один случай — взимать комиссию с выбранного в действии поставщика услуг, а другой — отдавать приоритет предварительной рекомендации и выбору услуг рекламодателей. Например, когда пользователи поднимают вопросы, связанные со здоровьем, агент может предоставить персональные рекомендации по здоровью, планы фитнеса и рекомендации по питанию. В то же время, при условии успешного выполнения задачи и соответствия предпочтениям пользователя, он может рекомендовать фитнес-центры. и рестораны, связанные с рекламодателем.
Кроме того, реклама может отображаться во время динамического взаимодействия с пользователями. Например, когда пользователь обращается к агенту за советом по покупкам, агент может предложить несколько вариантов и объяснить преимущества и недостатки каждого варианта, при этом продукты рекламодателя могут получить приоритетные возможности показа. Такое динамическое взаимодействие не только увеличивает охват рекламы, но и дополнительно проясняет потребности пользователей за счет повышения их вовлеченности.
В то время как размер Модели эквивалентных возможностей продолжает сокращаться,Вычислительная мощность чипов на конце также продолжает расти.,Это делает возможными облачные решения для совместной работы терминалов. Интеллект терминала может защитить конфиденциальность пользователей,Лучше обеспечьте персональный Служить. Это также расширяет границы задач, которые может решить агент.,Больше влияния на фактическое поведение пользователей. поэтому,Интеллектуальная реклама, основанная на потоке действий, может быть ближе к процессу принятия решений пользователем, тесно связана с фактическим покупательским поведением и достигать более высокого коэффициента конверсии рекламы.,И легко сформировать полный замкнутый цикл транзакций.
Так какова же бизнес-модель искусственного интеллекта на стороне B? будущее,Развитие интеллектуальных агентов приведет к появлению множества «суперличностей». Они используют нескольких интеллектуальных помощников, настроенных в соответствии с их собственным поведением и привычками.,Совместная работа над выполнением сложных задач корпоративного уровня,Станьте «Большой С». в то же время,Также появится больше предприятий студийного типа.,Несколько человек сотрудничают с большим количеством цифровых сотрудников, чтобы обеспечить профессиональную Служить.,становиться“МаленькийB”。Когда интеллектуальные агенты служат как личной жизни, так и профессиональной работе, границы между стороной C и стороной B постепенно размываются.,Содействие фундаментальным изменениям в бизнес-моделях и социальных формах.
3. Технические проблемы:
«Резьба» или «фундамент здания»?
1. Краткосрочная перспектива: оперативная разработка текстовой структуры
В случае существующих возможностей модели проектирование структуры агента необходимо сочетать с пониманием требований и эвристическим дизайном, чтобы компенсировать недостаток возможностей модели. Путем анализа целей агента и потребностей пользователя, а также моделей поведения в различных сценариях разрабатываются эвристические правила и структуры слов-подсказок, которые будут определять поведение агента. Например, в приложениях обслуживания клиентов соответствующие подсказки и правила ответа разрабатываются путем анализа общих проблем и моделей высокочастотного взаимодействия.
Однако разработку эвристической структуры сложно адаптировать к меняющимся условиям и потребностям пользователей. В соответствии с схемой разработки от ручного проектирования к обучению на основе данных, возможным решением является изучение и оптимизация структуры подсказок и структуры агента.
Собирая обратную связь во время работы и накапливая данные о взаимодействии между пользователем и агентом, можно динамически корректировать слова подсказок и оптимизировать конструкцию модульной структуры. Сочетая эвристический дизайн и оптимизацию на основе данных, агенты могут предоставлять более гибкие и интеллектуальные услуги в сложных и меняющихся средах, обеспечивая лучший опыт и ценность для пользователей.
2. Среднесрочная перспектива: Разумное экологическое строительство
Текущая платформа агента уже обладает хорошими интерактивными возможностями благодаря визуальному рабочему процессу и дизайну с низким уровнем кода. Однако для того, чтобы превратить интеллект в производительность и по-настоящему удовлетворить потребности пользователей в жизни и работе, необходимо постепенно совершенствовать богатую и стандартизированную экосистему интеллектуальных подключаемых модулей.
Что касается богатства, необходимо глубоко понять и уточнить требования к высокочастотным элементам в каждом сценарии и инкапсулировать решение в универсальные инструменты и плагины, чтобы пользователи могли быстро комбинировать и настраивать функции агента в соответствии со своими потребностями. . Например, в сценариях обслуживания клиентов высокочастотные потребности включают автоматические ответы на часто задаваемые вопросы, анализ настроений и перевод в реальном времени.
Что касается стандартизации, необходимо сформулировать унифицированные форматы плагинов, API-интерфейсы и другие технические характеристики, а также обеспечить совместимость с разными крупными моделями. Это похоже на текущую проблему стандартизации векторных библиотек в RAG. Стандартизация помогает обеспечить взаимодействие между различными агентами и плагинами, позволяя разработчикам легче создавать и интегрировать новые инструменты и функции, обеспечивая масштабируемость платформы и здоровое развитие экосистемы плагинов.
3. Долгосрочная перспектива: улучшение возможностей больших моделей.
Опыт применения агента в конечном итоге будет зависеть от улучшения возможностей самой большой модели.
Во-первых, это улучшение возможностей долгоконтекстного рассуждения. Когда текущие агенты обрабатывают задачи со сложными рабочими процессами, им трудно удерживать внимание на длинных контекстах, что приводит к невозможности всегда поддерживать согласованность с целями пользователя во время планирования задач и вызова инструментов.
С одной стороны, модель может быть направлена на пошаговое мышление Системы 2 во время обучения, что позволяет лучше использовать обучающие данные, так что нет необходимости полагаться на сложную структуру слов-подсказок во время вывода. С другой стороны, целью предварительного обучения большой модели является завершение данных последовательности, а данными точной настройки являются пары вопросов и ответов, а специального обучения для планирования задач и задач вызова инструментов не существует. Таким образом, эти возможности модели могут быть улучшены за счет аннотирования человеком данных планирования и действий, имитации обучения поведению человека и интерактивной обратной связи с окружающей средой.
Второе – это накопление опыта. Текущая способность агентов, основанных на больших моделях, применять метод проб и ошибок и учиться на ошибках недостаточна. По сравнению с агентами, основанными на обучении с подкреплением, хотя общее знание больших языковых моделей позволяет им иметь определенные возможности генерализации задач, существующие механизмы осаждения опыта, подобные рефлексии, могут храниться только в долговременной памяти.
Восстановление памяти в форме RAG не может гарантировать эффективное использование опыта. Необходимо изучить соответствующие методы обучения с подкреплением и перенести этот опыт в структуру подсказок в качестве постоянной кратковременной памяти или интегрировать его в параметры модели, чтобы он стал способностью самой большой модели. Кроме того, неоднозначность и нечеткость естественного языка также в определенной степени влияют на эффективность и стабильность обучения опыту. Для обеспечения концентрирования опыта и непрерывного обучения агента необходим относительно унифицированный метод представления.
В-третьих, это повышение доверия и согласованности. Из-за добавления памяти, выполнения, планирования и других связей возникают новые технические проблемы, которые необходимо решить для обеспечения доверия и согласованности интеллектуальных агентов. С точки зрения состязательной устойчивости мы должны не только обращать внимание на устойчивость к атакам самой модели, но также учитывать безопасность носителя памяти, набора инструментов, процесса планирования и т. д.
Например, инструменты агентов и подключаемые модули должны пройти строгую проверку безопасности, чтобы предотвратить внедрение вредоносных инструментов или атаки на сами инструменты. Имея дело с галлюцинациями, важно не только бороться с галлюцинациями на стадиях восприятия и познания, но и не допускать распространения этих галлюцинаций и создания новых галлюцинаций на стадиях принятия решений и действий. Например, когда агент принимает и выполняет решения, он может совершать неправильные действия из-за предыдущих галлюцинаций. Это требует внедрения механизмов проверки и корректировки до принятия решений и действий для обеспечения точности и надежности решений и действий.
[Заключение] В фильме «Оппенгеймер» Оппенгеймер отправляется в Принстон, чтобы спросить Эйнштейна, уничтожит ли мир цепная реакция. Будучи «похитителем огня» атомной энергии, Эйнштейн заложил основы теории ядерного деления и открыл ящик Пандоры, а Оппенгеймер претворил теорию в реальность и освободил от бедствия атомной бомбы. Будучи умным «похитителем огня», Хинтон заложил основы теории глубокого обучения, а его ученик Иия обучал GPT. То же самое — сочетание теории и практики; разница в том, что атомная энергия — это дар Вселенной, а интеллект — результат накопления и сжатия массивных данных человеком.
Это победа науки и тем более техники. Ян Жилин сказал: «Достижение AGI требует новой организационной формы, которая сочетает в себе исследования, разработки, продукты и бизнес».
После того, как Иия выпустил гигантского дракона GPT, он осознал потенциальную опасность, связанную с его непрерывной эволюцией, и попытался найти способ контролировать и приручить его. Однако открывшийся ящик Пандоры закрыть сложно. После ухода Ильи OpenAI, похоже, движется вперед по пути коммерциализации. Возможно, e/acc — это реальный путь, который приведет нас к AGI.
(Агенты и агентские платформы, представленные в этой статье, представляют собой обзор, основанный на общедоступной информации, и в нем могут быть упущения или неполнота. Соответствующий анализ и мнения предназначены только для обсуждения.)