Не так давно мы запустили систему знаний больших моделей Tencent Cloud, которая позволяет клиентам легко создать помощника по обслуживанию знаний для конкретного предприятия всего за 5 минут. Как двигатель знаний, вы должны сначала понять и понять «огромные знания» — особенно сложные и разнообразные PDF-файлы, изображения, таблицы и файлы других форматов!
Для традиционной технологии оптического распознавания символов,Разбираться в огромных объемах документации,Документы особенно сложной компоновки действительно представляют собой большую проблему, но Тенсент Облако — механизм знаний модели;,Иметь основные возможности, которые лидируют в отрасли——Большой модельный анализ документов механизма знаний!
Прежде чем разобраться в синтаксическом анализе документов с помощью механизма знаний большой модели, мы сначала поймем недостатки и трудности традиционного распознавания документов.
Оглядываясь назад, были ли у вас когда-нибудь следующие переживания?
а. Крупные контракты, отчеты и т. д. необходимо вводить в систему вручную; б. Громоздкая документация и преобразование формата данных для обучения модели; в. Во время лекции я взял много презентаций, но их было сложно систематизировать и редактировать; d. Результаты оптического распознавания символов находятся в неупорядоченном порядке при загрузке в горизонтальные и вертикальные таблицы; e. PDF-документ, найденный Xinxinannian, был распознан как искаженные символы после копирования и вставки. ...
Когда-то эти сцены и процессы заставляли людей чувствовать себя бессильными.
Фактически, всем, от частных лиц до предприятий, приходится каждый день иметь дело с большим количеством документальных материалов, включая контракты, отчеты, документы, тестовые бумаги, инструкции, рекламные материалы, PPT, формы и т. д. Эти документы часто существуют в виде изображений или т. д.; PDF-формат, что затрудняет их непосредственную обработку, анализ и электронное архивирование.
Хотя традиционная технология оптического распознавания символов позволяет очень хорошо распознавать структурированную информацию, ее ограничения также очевидны.
С технической точки зрения традиционное оптическое распознавание символов имеет крайне ограниченную адаптируемость к сложным сценам и контекстуальному семантическому пониманию. Трудно точно идентифицировать и разделить области символов на изображениях с разнообразными таблицами, смешанным содержимым, фоновыми помехами и низким разрешением, что приводит к увеличению количества ошибок распознавания.
С другой стороны, традиционному распознаванию текста не хватает гибкости в возможностях распознавания, и ему трудно справиться с разнообразными входными данными. В разных отраслях используются разные форматы документов и изображений, и традиционное оптическое распознавание текста часто сложно быстро адаптировать к этим изменениям и требует множества корректировок и оптимизаций, что еще больше увеличивает затраты на использование и затраты времени.
В частности, бум на большие модели создал огромный спрос на данные. Обобщаемость и качество данных напрямую влияют на эффект обучения и эффективность модели. Компании, занимающиеся обучением моделей, больше полагаются на структурированные источники данных, но традиционная работа по подготовке данных не требуется. Это обременительно и требует много времени. Это также приводит к высокой стоимости сбора имеющихся данных.
Как точно идентифицировать и преобразовать сложные неструктурированные документы в работоспособные и удобные в использовании структурированные данные, стало актуальной проблемой для решения предприятий. Это также ключевое предложение для развития возможностей традиционных платформ инструментов OCR.
Какой из них лучше: традиционное оптическое распознавание текста и анализ документов большой модели? Разные сценарии должны иметь свои преимущества.
Анализ документов больших моделей основан на крупномасштабном обучении данных и мощных возможностях глубокого обучения. Он обладает большей адаптируемостью и точностью, может справляться с различными сложными сценариями, обладает хорошей масштабируемостью и легко интегрируется с другими технологиями.
Стремясь продвигать «реформу эффективности» в области обработки документов и предоставлять пользователям более эффективный, удобный и точный опыт обработки документов, это всегда было целью достижения больших моделей механизмов знаний при синтаксическом анализе документов.
Чтобы облегчить всем четкое понимание, мы уточнили основные моменты анализа документов системы знаний большой модели Tencent Cloud:
1) Исходная модель анализа больших мультимодальных документов: алгоритмически, на основе нового поколения большой модели анализа мультимодальных документов, независимо разработанной Tencent Youtu Lab, положение и порядок элементов генерируются посредством грубой генерации, дополненной контентом. Генерация для предоставления контекста. Его семантическое восприятие может решить различные сложные проблемы верстки и имеет больше преимуществ в сценариях, где смешаны графика, текст и таблицы.
2) Интеллектуальный анализ макета. В отличие от традиционного распознавания текста OCR, продукты анализа документов могут быстро извлекать ключевые атрибуты документов и поддерживать точный анализ документов со сложным макетом, например, с несколькими столбцами и смешанным содержимым, например, документы, отчеты, книги и другие документы. Он извлекает заголовки, абзацы, изображения, таблицы, формулы, верхние и нижние колонтитулы и другие элементы макета, а также извлекает содержимое в порядке чтения.
3) Распознавание структуры таблиц. В ответ на традиционную проблему распознавания таблиц новая модель распознавания структуры таблиц может точно обнаруживать и идентифицировать содержимое таблиц и создавать структуры в сложных сценариях, таких как обычные, проводные, беспроводные, несколько строк, несколько таблиц и т. д. и межстраничные таблицы.
4) Высокоточное распознавание текста: он может точно идентифицировать китайские, английские, традиционные китайские иероглифы, редкие символы и другие шрифты. Даже изображения и PDF-документы, которые не могут быть проанализированы, могут быть распознаны с высокой точностью.
5) Вывод в формате Markdown: поддерживает преобразование изображений и PDF-документов в формат Markdown. Этот легкий язык разметки легко читается и пишется и очень подходит для крупномасштабного обучения моделей и электронного документирования.
Короче говоря, анализ документов механизма знаний большой модели объединяет несколько возможностей алгоритма, таких как анализ макета, распознавание текста, распознавание таблиц, распознавание формул и распознавание подграфов.На основе мультимодального Модельспособность,Способность разумно понимать и анализировать элементы макета в изображениях и файлах PDF.,Преобразование неструктурированных данных в структурированный код Json и файлы формата Markdown.,Значительно повысить эффективность и точность обработки документов.
Чтобы облегчить каждому использование и интеграцию возможностей анализа документов, мы инкапсулировали их в стандартизированный сервис API, который можно использовать «из коробки».
С точки зрения бизнеса выбор технологии зависит от конкретных сценариев применения и требований.
Для некоторых конкретных сценариев, когда формат документа относительно фиксирован и качество изображения хорошее, традиционное OCR У него все еще есть преимущества с точки зрения стоимости и вычислительных ресурсов. Благодаря прорыву в технологии глубокого обучения традиционная область оптического распознавания символов также претерпевает новые изменения. Распознавание текста Облако как пример,Продолжайте углублять область оптического распознавания символов,Создан универсальный текст, Тип карты、счета иИнтеллектуальное структурированиеИдентификация и десятки других богатыхспособность,Накоплен богатый практический опыт в сценариях.,Поддержка доступа к API,Готов к использованию прямо из коробки.
В ситуациях, когда необходимо обрабатывать сложные документы, такие как неструктурированные, разнообразные таблицы или смешанная графика и текст, мультимодальный анализ документов больших моделей имеет большие преимущества.Тенсент Облакобольшой Модель Продукт анализа документов механизма знаний основан на новом поколении мультимодального анализа документов, независимо разработанном лабораторией Tencent Youtu.большой Модель,в алгоритмеспособность、Точность модели、Адаптивность、Сценарии применения、Он обладает ведущими в отрасли преимуществами с точки зрения гибкого доступа и других аспектов.
Что касается сценариев практического применения, на примере обучения модели неструктурированные данные могут быть включены в процесс обучения модели путем преобразования файлов PDF в формат Markdown. Крупные поставщики услуг моделей могут получить более широкий и удобный охват данных, улучшая производительность модели. Способность к обобщению и адаптивность предоставляют модели более сложные обучающие данные, помогая модели лучше понимать и обрабатывать сложные продукты, технологии, отраслевые отчеты и другие документы.
Основным продуктом отечественной компании по производству крупномасштабных моделей является большая модель искусственного интеллекта, поддерживающая обработку длинных текстов. В процессе обучения модели десятки миллионов документов PDF и Word обрабатываются в среднем каждый месяц в автономном режиме с точки зрения вывода модели, загруженные документы обрабатываются в реальном времени, почти тысяча документов в минуту, из которых 60% PDF; документы содержат содержимое формулы, и для возврата 30 страниц результатов распознавания документов требуется задержка 3-5 секунд.
Анализируя потребности бизнеса, можно выделить несколько основных болевых точек:
1) На примере чата научных исследований документы, загружаемые пользователями, содержат большое количество математических формул и выражений. Символы формул сложны и разнообразны, а их расположение неравномерно, что значительно затрудняет идентификацию документа. содержание; 2) Многие математические символы и символы очень похожи по форме, например, «ноль» и «буква О», «единица» и «знак минус» и т. д., что легко может привести к ошибкам распознавания и тем самым передать неправильное значение статья к большой модели; 3) Даже если математическая формула распознана, ее точное преобразование в код LaTeX по-прежнему представляет собой проблему, особенно для формул, содержащих несколько уровней вложенности и пользовательских команд. Неполное преобразование значительно увеличивает время ручной корректуры и исправлений в будущем. .
После доступа к возможностям анализа документов в системе знаний больших моделей Tencent Cloud:
1) Модель сначала определяет положение, тип и порядок элементов макета, затем идентифицирует содержимое различных типов элементов (содержимое фрагментов изображений, формулы, таблицы и т. д.) и, наконец, интегрирует результаты распознавания каждого элемента в Маркдаун. Распознавайте и переводите более точно, понимая контекст математических формул и технических выражений. 2) По сравнению с основными поставщиками распознавания документов в отрасли, точность анализа документов на каждом этапе высока, а точность сложных формул достигает более 90%. Содержимое распознанных результатов Markdown является полным, что соответствует удобен для дальнейшего редактирования, анализа и использования.
также,большой Модель Также доступен анализ документов механизма знаний.Корпоративный WeChat, браузер QQ, документы Tencent, конференция Tencent, Tencent Yuanbao, Tencent Yuanqi и т. д.Он постепенно интегрировался во многие внутренние продукты и предприятия Tencent.,Обслуживание множества пользователей как внутри компании, так и за ее пределами.
По мере ускорения внедрения технологий область применения больших мультимодальных моделей анализа документов будет еще больше расширяться.
В настоящее время, в дополнение к расширению возможностей обучения на крупных моделях предприятий для повышения качества и эффективности, анализ документов в рамках механизма знаний крупной модели также обеспечивает оцифровку документов и повсеместные интерактивные инструменты на стороне C, особенно в некоторых конкретных областях (таких как здравоохранение, финансы и т. д.). , логистика, образование, редактирование и т. д.), издательское дело и т. д.), также играет уникальное значение.
От практического использования небольших инструментов до интеграции больших систем нетрудно увидеть, что традиционная технология оптического распознавания символов превратилась в возможности мультимодальных больших моделей и «погружена» в базовые аппаратные возможности, обеспечивающие базовую техническую поддержку. для различных бизнес-приложений верхнего уровня.
Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты. Простой в использовании инструмент анализа документов не только помогает компаниям повысить качество и эффективность, но также является большим подспорьем для профессионалов и студентов.