Привет, я Го Чжэнь
pdfplumber
это Python библиотека, предназначенная для рабов PDF 文件中Извлечение текста и табличных данныхИ дизайн。
Сравнение других библиотек обработки PDF,pdfplumber
Больше внимания уделяется сохранению визуального расположения текста на странице, что делает его полезным при работе со страницами, содержащими сложные макеты или несколько столбцов текста. PDF работать лучше с файлами。pdfplumber
зависит от PDFMiner
анализировать PDF файл, но обеспечивает более удобный и интуитивно понятный API。
pdfplumber
Может точно извлечь текст на странице,Сохраняя информацию о макете текста,Это полезно для анализа структуры документа.pdfplumber
Предоставляет способ визуализации страницы, позволяя пользователям понять, как текст и другие элементы организованы на странице.pdfplumber
может пройти pip легкий Установить:
pip install pdfplumber
Ниже приведен базовый пример использования, показывает, как открыть PDF файл и извлеките его текстовое содержимое:
import pdfplumber
with pdfplumber.open("тест искусственного интеллекта.pdf") as pdf:
first_page = pdf.pages[0] # Получить первую страницу
text = first_page.extract_text() # Извлечь текст
print(text)
Это первая страница PDF-файла. Извлеченное текстовое содержимое печатается следующим образом:
Уровень точности по-прежнему относительно высок, но не на 100 %, а также извлекается содержимое таблицы.
Для добычи листовых,pdfplumber
Также предусмотрен простой и прямой метод:
with pdfplumber.open("тест искусственного интеллекта.pdf") as pdf:
page = pdf.pages[0]
table = page.extract_table() # экстракт листовые
for row in table:
print(row)
Результаты извлечения содержимого таблицы следующие, и они полностью верны:
pdfplumber
Благодаря своим простым, но мощным функциям он становится средством обработки PDF Мощный инструмент для задач извлечения текста и данных из файлов.,Особенно подходит для анализа данных и автоматического создания отчетов.и т. д.。