Трудности парсинга документов | В эпоху больших моделей как точнее парсить сложные документы?

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

Не так давно мы запустили систему знаний больших моделей Tencent Cloud, которая позволяет клиентам легко создать помощника по обслуживанию знаний для конкретного предприятия всего за 5 минут. Как двигатель знаний, вы должны сначала понять и понять «огромные знания» — особенно сложные и разнообразные PDF-файлы, изображения, таблицы и файлы других форматов!

Для традиционной технологии оптического распознавания символов,Разбираться в огромных объемах документации,Документы особенно сложной компоновки действительно представляют собой большую проблему, но Тенсент Облако — механизм знаний модели;,Иметь основные возможности, которые лидируют в отрасли——Большой модельный анализ документов механизма знаний!

Прежде чем разобраться в синтаксическом анализе документов с помощью механизма знаний большой модели, мы сначала поймем недостатки и трудности традиционного распознавания документов.

01. Традиционное распознавание текста: ограничения и эволюция

Оглядываясь назад, были ли у вас когда-нибудь следующие переживания?

а. Крупные контракты, отчеты и т. д. необходимо вводить в систему вручную; б. Громоздкая документация и преобразование формата данных для обучения модели; в. Во время лекции я взял много презентаций, но их было сложно систематизировать и редактировать; d. Результаты оптического распознавания символов находятся в неупорядоченном порядке при загрузке в горизонтальные и вертикальные таблицы; e. PDF-документ, найденный Xinxinannian, был распознан как искаженные символы после копирования и вставки. ...

Когда-то эти сцены и процессы заставляли людей чувствовать себя бессильными.

Фактически, всем, от частных лиц до предприятий, приходится каждый день иметь дело с большим количеством документальных материалов, включая контракты, отчеты, документы, тестовые бумаги, инструкции, рекламные материалы, PPT, формы и т. д. Эти документы часто существуют в виде изображений или т. д.; PDF-формат, что затрудняет их непосредственную обработку, анализ и электронное архивирование.

Хотя традиционная технология оптического распознавания символов позволяет очень хорошо распознавать структурированную информацию, ее ограничения также очевидны.

С технической точки зрения традиционное оптическое распознавание символов имеет крайне ограниченную адаптируемость к сложным сценам и контекстуальному семантическому пониманию. Трудно точно идентифицировать и разделить области символов на изображениях с разнообразными таблицами, смешанным содержимым, фоновыми помехами и низким разрешением, что приводит к увеличению количества ошибок распознавания.

С другой стороны, традиционному распознаванию текста не хватает гибкости в возможностях распознавания, и ему трудно справиться с разнообразными входными данными. В разных отраслях используются разные форматы документов и изображений, и традиционное оптическое распознавание текста часто сложно быстро адаптировать к этим изменениям и требует множества корректировок и оптимизаций, что еще больше увеличивает затраты на использование и затраты времени.

В частности, бум на большие модели создал огромный спрос на данные. Обобщаемость и качество данных напрямую влияют на эффект обучения и эффективность модели. Компании, занимающиеся обучением моделей, больше полагаются на структурированные источники данных, но традиционная работа по подготовке данных не требуется. Это обременительно и требует много времени. Это также приводит к высокой стоимости сбора имеющихся данных.

Как точно идентифицировать и преобразовать сложные неструктурированные документы в работоспособные и удобные в использовании структурированные данные, стало актуальной проблемой для решения предприятий. Это также ключевое предложение для развития возможностей традиционных платформ инструментов OCR.

02. Анализ мультимодального документа большой модели: взлом и преодоление

Какой из них лучше: традиционное оптическое распознавание текста и анализ документов большой модели? Разные сценарии должны иметь свои преимущества.

Анализ документов больших моделей основан на крупномасштабном обучении данных и мощных возможностях глубокого обучения. Он обладает большей адаптируемостью и точностью, может справляться с различными сложными сценариями, обладает хорошей масштабируемостью и легко интегрируется с другими технологиями.

Стремясь продвигать «реформу эффективности» в области обработки документов и предоставлять пользователям более эффективный, удобный и точный опыт обработки документов, это всегда было целью достижения больших моделей механизмов знаний при синтаксическом анализе документов.

Чтобы облегчить всем четкое понимание, мы уточнили основные моменты анализа документов системы знаний большой модели Tencent Cloud:

1) Исходная модель анализа больших мультимодальных документов: алгоритмически, на основе нового поколения большой модели анализа мультимодальных документов, независимо разработанной Tencent Youtu Lab, положение и порядок элементов генерируются посредством грубой генерации, дополненной контентом. Генерация для предоставления контекста. Его семантическое восприятие может решить различные сложные проблемы верстки и имеет больше преимуществ в сценариях, где смешаны графика, текст и таблицы.

2) Интеллектуальный анализ макета. В отличие от традиционного распознавания текста OCR, продукты анализа документов могут быстро извлекать ключевые атрибуты документов и поддерживать точный анализ документов со сложным макетом, например, с несколькими столбцами и смешанным содержимым, например, документы, отчеты, книги и другие документы. Он извлекает заголовки, абзацы, изображения, таблицы, формулы, верхние и нижние колонтитулы и другие элементы макета, а также извлекает содержимое в порядке чтения.

3) Распознавание структуры таблиц. В ответ на традиционную проблему распознавания таблиц новая модель распознавания структуры таблиц может точно обнаруживать и идентифицировать содержимое таблиц и создавать структуры в сложных сценариях, таких как обычные, проводные, беспроводные, несколько строк, несколько таблиц и т. д. и межстраничные таблицы.

4) Высокоточное распознавание текста: он может точно идентифицировать китайские, английские, традиционные китайские иероглифы, редкие символы и другие шрифты. Даже изображения и PDF-документы, которые не могут быть проанализированы, могут быть распознаны с высокой точностью.

5) Вывод в формате Markdown: поддерживает преобразование изображений и PDF-документов в формат Markdown. Этот легкий язык разметки легко читается и пишется и очень подходит для крупномасштабного обучения моделей и электронного документирования.

Короче говоря, анализ документов механизма знаний большой модели объединяет несколько возможностей алгоритма, таких как анализ макета, распознавание текста, распознавание таблиц, распознавание формул и распознавание подграфов.На основе мультимодального Модельспособность,Способность разумно понимать и анализировать элементы макета в изображениях и файлах PDF.,Преобразование неструктурированных данных в структурированный код Json и файлы формата Markdown.,Значительно повысить эффективность и точность обработки документов.

Чтобы облегчить каждому использование и интеграцию возможностей анализа документов, мы инкапсулировали их в стандартизированный сервис API, который можно использовать «из коробки».

03. Решить «маленькую боль» и достичь «большой красоты»

С точки зрения бизнеса выбор технологии зависит от конкретных сценариев применения и требований.

Для некоторых конкретных сценариев, когда формат документа относительно фиксирован и качество изображения хорошее, традиционное OCR У него все еще есть преимущества с точки зрения стоимости и вычислительных ресурсов. Благодаря прорыву в технологии глубокого обучения традиционная область оптического распознавания символов также претерпевает новые изменения. Распознавание текста Облако как пример,Продолжайте углублять область оптического распознавания символов,Создан универсальный текст, Тип карты、счета иИнтеллектуальное структурированиеИдентификация и десятки других богатыхспособность,Накоплен богатый практический опыт в сценариях.,Поддержка доступа к API,Готов к использованию прямо из коробки.

В ситуациях, когда необходимо обрабатывать сложные документы, такие как неструктурированные, разнообразные таблицы или смешанная графика и текст, мультимодальный анализ документов больших моделей имеет большие преимущества.Тенсент Облакобольшой Модель Продукт анализа документов механизма знаний основан на новом поколении мультимодального анализа документов, независимо разработанном лабораторией Tencent Youtu.большой Модель,в алгоритмеспособность、Точность модели、Адаптивность、Сценарии применения、Он обладает ведущими в отрасли преимуществами с точки зрения гибкого доступа и других аспектов.

Что касается сценариев практического применения, на примере обучения модели неструктурированные данные могут быть включены в процесс обучения модели путем преобразования файлов PDF в формат Markdown. Крупные поставщики услуг моделей могут получить более широкий и удобный охват данных, улучшая производительность модели. Способность к обобщению и адаптивность предоставляют модели более сложные обучающие данные, помогая модели лучше понимать и обрабатывать сложные продукты, технологии, отраслевые отчеты и другие документы.

Основным продуктом отечественной компании по производству крупномасштабных моделей является большая модель искусственного интеллекта, поддерживающая обработку длинных текстов. В процессе обучения модели десятки миллионов документов PDF и Word обрабатываются в среднем каждый месяц в автономном режиме с точки зрения вывода модели, загруженные документы обрабатываются в реальном времени, почти тысяча документов в минуту, из которых 60% PDF; документы содержат содержимое формулы, и для возврата 30 страниц результатов распознавания документов требуется задержка 3-5 секунд.

Анализируя потребности бизнеса, можно выделить несколько основных болевых точек:

1) На примере чата научных исследований документы, загружаемые пользователями, содержат большое количество математических формул и выражений. Символы формул сложны и разнообразны, а их расположение неравномерно, что значительно затрудняет идентификацию документа. содержание; 2) Многие математические символы и символы очень похожи по форме, например, «ноль» и «буква О», «единица» и «знак минус» и т. д., что легко может привести к ошибкам распознавания и тем самым передать неправильное значение статья к большой модели; 3) Даже если математическая формула распознана, ее точное преобразование в код LaTeX по-прежнему представляет собой проблему, особенно для формул, содержащих несколько уровней вложенности и пользовательских команд. Неполное преобразование значительно увеличивает время ручной корректуры и исправлений в будущем. .

После доступа к возможностям анализа документов в системе знаний больших моделей Tencent Cloud:

1) Модель сначала определяет положение, тип и порядок элементов макета, затем идентифицирует содержимое различных типов элементов (содержимое фрагментов изображений, формулы, таблицы и т. д.) и, наконец, интегрирует результаты распознавания каждого элемента в Маркдаун. Распознавайте и переводите более точно, понимая контекст математических формул и технических выражений. 2) По сравнению с основными поставщиками распознавания документов в отрасли, точность анализа документов на каждом этапе высока, а точность сложных формул достигает более 90%. Содержимое распознанных результатов Markdown является полным, что соответствует удобен для дальнейшего редактирования, анализа и использования.

также,большой Модель Также доступен анализ документов механизма знаний.Корпоративный WeChat, браузер QQ, документы Tencent, конференция Tencent, Tencent Yuanbao, Tencent Yuanqi и т. д.Он постепенно интегрировался во многие внутренние продукты и предприятия Tencent.,Обслуживание множества пользователей как внутри компании, так и за ее пределами.

По мере ускорения внедрения технологий область применения больших мультимодальных моделей анализа документов будет еще больше расширяться.

В настоящее время, в дополнение к расширению возможностей обучения на крупных моделях предприятий для повышения качества и эффективности, анализ документов в рамках механизма знаний крупной модели также обеспечивает оцифровку документов и повсеместные интерактивные инструменты на стороне C, особенно в некоторых конкретных областях (таких как здравоохранение, финансы и т. д.). , логистика, образование, редактирование и т. д.), издательское дело и т. д.), также играет уникальное значение.

От практического использования небольших инструментов до интеграции больших систем нетрудно увидеть, что традиционная технология оптического распознавания символов превратилась в возможности мультимодальных больших моделей и «погружена» в базовые аппаратные возможности, обеспечивающие базовую техническую поддержку. для различных бизнес-приложений верхнего уровня.

Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты. Простой в использовании инструмент анализа документов не только помогает компаниям повысить качество и эффективность, но также является большим подспорьем для профессионалов и студентов.

Рекомендация

Категории

Модель данные предприятие Тенсент Облако list

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

Трудности парсинга документов | В эпоху больших моделей как точнее парсить сложные документы?

01. Традиционное распознавание текста: ограничения и эволюция

02. Анализ мультимодального документа большой модели: взлом и преодоление

03. Решить «маленькую боль» и достичь «большой красоты»

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

Трудности парсинга документов | В эпоху больших моделей как точнее парсить сложные документы?

01. Традиционное распознавание текста: ограничения и эволюция

02. Анализ мультимодального документа большой модели: взлом и преодоление

03. Решить «маленькую боль» и достичь «большой красоты»

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose