В последние годы популярность ИИ продолжает расти, причем значительно растут как масштабы финансирования, так и популярность пользователей. В 2023 году масштаб финансирования китайской индустрии искусственного интеллекта достигнет 263,1 миллиарда юаней, что на 51% больше, чем в 2022 году. Во втором квартале 2024 года масштаб финансирования глобальных стартапов в области искусственного интеллекта составит 24 миллиарда долларов США, что вдвое больше, чем в 2023 году. первый квартал. Поскольку возможности ИИ продолжают улучшаться, сценарии его бизнес-приложений также расширяются.
В мае этого года в центре внимания отрасли оказался недавно выпущенный OpenAI GPT-4o. Это первая крупная модель, реализующая сквозной речевой ввод и вывод с реальным выражением эмоций, пониманием контекста и возможностями рассуждения. В то же время, благодаря возможностям связи RTC со сверхмалой задержкой, средняя задержка ввода-вывода GPT-4o находится в пределах 500 миллисекунд, что позволяет вести диалог между людьми и ИИ в реальном времени, что можно назвать революционное обновление интерактивного опыта.
01. С момента выпуска GPT-4o влияние и изменения в отраслевых приложениях
В правой части рисунка ниже показан эффект внедрения GPT-4o в отраслевых сценариях. Такие сценарии, как обслуживание клиентов и изучение языка, требующие высокой эффективности и производительности в режиме реального времени, раньше выполнялись вручную. Однако, когда ИИ становится работающим в режиме реального времени, затраты можно сократить, а эффективность повысить за счет обслуживания клиентов ИИ, помощников по изучению языков ИИ. личные помощники и т. д. . В развлекательных сценариях после улучшения производительности ИИ в реальном времени такие сценарии, как якоря ИИ и общение в чате ИИ, можно реализовать с помощью AI+RTC. Можно определить, что диалоговые агенты в реальном времени на базе искусственного интеллекта станут тем направлением продуктов, которому отрасль уделит наибольшее внимание в этом году, что позволит комплексно модернизировать бизнес-возможности и дополнительно добиться снижения затрат и повышения эффективности.
Столкновение технологий искусственного интеллекта и реального времени предоставило нам огромный простор для воображения, но текущая реализация диалога искусственного интеллекта в реальном времени по-прежнему сталкивается со многими проблемами.
Во-первых, это проблема сквозной задержки. Мультимодальное взаимодействие, продемонстрированное GPT-4o, является будущим направлением развития. Однако отечественная мультимодальная технология в настоящее время еще не развита. В краткосрочной перспективе в ней по-прежнему будет доминировать одномодальность, что требует помощи ASR. (автоматическое распознавание речи) и TTS (преобразование текста в речь и другие продукты последовательно со всем процессом). Однако, когда по всему каналу используется несколько продуктов, обеспечение низкой задержки по всему каналу является сложной проблемой.
Во-вторых, это вопрос снижения шума и прерывания. В реальной среде существуют различные источники шума и помех, такие как кафе, уличный шум и т. д. Этот шум влияет на точность распознавания речи, а также может стать причиной случайного прерывания работы ИИ во время разговора. Как эффективно снизить шум и защиту от помех, а также повысить точность распознавания речи, также является серьезной проблемой.
Наконец, существует проблема слабой сетевой среды. Как обеспечить нормальное использование разговоров в реальном времени в сценариях с плохим состоянием сети, таких как метро и лифты?
В ответ на вышеперечисленные проблемы TRTC (Tencent Real-time Audio and Video) полностью объединила свои собственные возможности аудио- и видеосвязи для запуска новой услуги TRTC AI. Объединив большие модели сторонних производителей и технологию TTS (преобразование текста в речь), клиенты могут легко создавать интерактивные возможности искусственного интеллекта в реальном времени, сравнимые с тем, что демонстрирует GPT-4o, и применять их в реальных бизнес-сценариях.
02. Чтобы создать новый опыт взаимодействия в реальном времени, TRTC запускает диалоговое решение искусственного интеллекта в реальном времени.
Диалоговое решение TRTC на основе искусственного интеллекта обеспечивает универсальные возможности полного соединения: от сбора, обработки и передачи аудио и видео до облачных служб обработки искусственного интеллекта. Клиентское приложение захватывает звук через TRTC SDK и отправляет его в облако. После получения облако отправляет его в сервис AI для обработки. STT (автоматическое распознавание речи) преобразует аудио в текст, одновременно выполняя анализ настроений и обработку антропоморфных разговоров. Обработанный текст передается в LLM (большую языковую модель) для дальнейшего понимания и генерации. Наконец, сгенерированный текст преобразуется в речь с помощью модуля TTS (преобразование текста в речь) и публикуется обратно в клиентское приложение, образуя замкнутый цикл. Для клиентов с более персонализированными потребностями решение также предоставляет соответствующие каналы для доступа к сторонним LLM (большая языковая модель) и TTS.
Более плавный и естественный разговор
Мощные технические преимущества, реакция в реальном времени на уровне миллисекунд
Диалоговый искусственный интеллект TRTC обеспечивает диалог искусственного интеллекта со сверхмалой задержкой, точное распознавание ASR, плавную интеграцию сторонних LLM и TTS, а также высокую совместимость. Решение глубоко оптимизировано для всей линии диалога AI. Сквозная задержка аудио и видео составляет менее 300 миллисекунд, а задержка диалога AI составляет менее 1000 миллисекунд. Оно поддерживает распознавание английского, испанского, Японский, корейский, китайский, 23 диалекта и 130 международных языков; Поддерживает настройку учетных данных для служб LLM и TTS и может быть легко интегрирован в серверную часть службы;; Поддерживает iOS, Android, Windows, macOS, Web, Flutter, Electron. Unity, Unreal и React Нативные и другие многочисленные платформы совместимы с более чем 20 000 моделями устройств.
Кроме того, разговорный искусственный интеллект TRTC имеет множество технических преимуществ, таких как прерывание двух разговоров, шумоподавление искусственного интеллекта, пауза в диалоге, субтитры в реальном времени, слабое сопротивление сети и стабильность обслуживания. Общаясь с ИИ, пользователи могут прерывать или приостанавливать чат в режиме реального времени. Когда чат возобновляется, ИИ может беспрепятственно продолжить общение, действительно создавая реальный опыт общения с людьми. В то же время решение TRTC для разговорного искусственного интеллекта также оснащено новым механизмом шумоподавления, который может уменьшить окружающий шум и удаленные человеческие голоса во время реальных разговоров, а также повысить точность распознавания ASR. Наконец, его услуги стабильны и надежны. TRTC имеет более 3200 узлов ускорения по всему миру, имеет возможности мультисервисного аварийного восстановления и отличается высокой стабильностью и сверхнизкой задержкой даже в слабой сетевой среде с высокой скоростью потери пакетов. до 80%, он может осуществлять обычные аудиовызовы.
Широкое пространство применения
Подходит для различных сцен
Диалоговый искусственный интеллект TRTC может широко использоваться в социальных развлечениях, интеллектуальном обслуживании клиентов, крупных моделях чат-ботов с искусственным интеллектом, онлайн-медицине, корпоративном офисе, онлайн-образовании и других сценариях. Например, в сфере социальных развлечений такие сценарии, как чаты с искусственным интеллектом, частные сватовства и психологические консультации, могли требовать специального персонала для проведения онлайн- или офлайн-консультаций и общения. Однако в прошлом с помощью ИИ пользователи могли лучше. помочь пользователям в поиске желаемых партнеров. Чат также может повысить эффективность работы с клиентами и снизить затраты на рабочую силу.
ИИ в чате
До появления ИИ в чате-компаньоне это обычно было общение между пользователями. После внедрения ИИ бизнес-сторона может создать несколько агентов ИИ (интеллектуальных агентов) и установить для этих ИИ разные роли. Пользователи могут самостоятельно выбрать AI-Агента, отвечающего их собственным потребностям в общении. В прошлом взаимодействие между пользователями и ИИ в основном ограничивалось текстом, аналогично использованию WeChat и QQ для общения. Однако после доступа к диалоговому решению TRTC для ИИ пользователи могут совершать голосовые вызовы в режиме реального времени с помощью ИИ, точно так же, как и при совершении звонка. телефонный звонок становится более удобным, и вы можете получить больше эмоциональной ценности. После того, как наши клиенты интегрировали диалоговое решение искусственного интеллекта TRTC в свой бизнес, время взаимодействия между пользователями и искусственным интеллектом и конверсии платежей увеличились вдвое.
Служба поддержки клиентов с использованием ИИ
Еще одна сцена приземления РазговорногоAI — Служба. поддержки клиентов с использованием ИИ. У наших клиентов есть миллионы драйверов выполнения заказов.,Водитель находится на междугороднем транспорте,Необходимо ехать через другие города для погрузки и разгрузки.,И требуется частое общение с платформой каждый раз при погрузке и разгрузке. Если для Служить используется ручная поддержка,Стоимость очень высока. После доступа к AI-решению,Общаться с водителем можно через AI,Затем ИИ сопоставляет соответствующие потребности с большой моделью, независимо разработанной серверной частью клиента.,Например, есть ли в Гуанчжоу товары, пригодные для перевозки на своем транспорте?,Затем быстро дайте обратную связь пользователю. Изначально ИИ мог использовать только ввод текста.,Неудобно использовать водителям во время вождения.,РазговорныйAI решает эту проблему. После того, как клиент получит доступ к плану,Скорость приема клиентов и скорость выполнения заказов значительно улучшились.,В то же время это также снижает затраты на рабочую силу и повышает эффективность работы клиентов.
Если вы хотите узнать больше о возможностях Tencent Cloud, связанных с аудио и видео, отсканируйте приведенный ниже QR-код, чтобы добавить аудио- и видео-женщину в WeChat, и мы организуем, чтобы студенты-промышленники и студенты-исследователи специально отвечали на ваши потребности.
Tencent Cloud Аудио и видеосуществовать Аудио и Сфера видео имеет более чем 21-летний опыт накопления технологий и продолжает поддерживать 90% отечественного аудио. и видео Клиенты реализуют облачные инновации и имеют эксклюзивную глобальную сеть Tencent Cloud RT-ONE™. На этом основании она является самой полной в отрасли. PaaS семейство продуктов,и пройтиTencent Cloud Cube RT-Cube™ Предоставить Все in One Терминальный SDK помогает клиентам получить многочисленные аудио- и видеовозможности Tencent Cloud одним щелчком мыши. Tencent Cloud Audio and Video оказывает надежную цифровую помощь в эпоху Интернета Цюаньчжэнь.