[Python] Анализ и реализация кода функций read_excel() и to_excel() в pandas
[Python] Анализ и реализация кода функций read_excel() и to_excel() в pandas

Содержание этой статьи

  • Предисловие
  • 1. Знакомство с функцией read_excel()
    • 1.1 Основной синтаксис
  • 2. Знакомство с функцией to_excel()
  • 3. Кодовые случаи
    • Чтение и обработка данных Excel
    • Сценарий 2. Объединение нескольких листов Excel
    • Записать отформатированный файл Excel
  • 4. Практика использования данных Read_excel()
    • прототип функции
    • sheetname
    • header
    • skiprows
    • skip_footer
    • index_col
    • names
  • 5. Практика работы с данными To_excel()
    • excel_writer
    • sheet_name
    • na_rep
    • colums
    • header
    • index
  • Подвести итог

Предисловие

Pandas — мощная библиотека для анализа и манипулирования данными на Python. Она предоставляет множество удобных функций для обработки данных в различных форматах.

В качестве распространенного формата хранения данных файлы Excel часто используются при обработке данных.

Pandas предоставляет функцию read_excel() для чтения файлов Excel и функцию to_excel() для записи данных в Excel.

В этой статье будет подробно проанализировано использование этих двух функций и показано их применение в различных сценариях на примерах кода.

1. Знакомство с функцией read_excel()

Pandas — это библиотека анализа и манипулирования данными с открытым исходным кодом, которая обеспечивает быстрые, гибкие и выразительные структуры данных, призванные упростить очистку и анализ данных. Pandas построен на NumPy и поэтому легко интегрируется с NumPy.

Функция read_excel() используется для чтения файлов Excel и преобразования их в объекты Pandas DataFrame. Это основа работы с данными Excel.

1.1 Основной синтаксис

Язык кода:javascript
копировать
pandas.read_excel(io, sheet_name=0, header=0, names=None, 
index_col=None, usecols=None, 
dtype=None, engine=None, converters=None, true_values=None, 
false_values=None, skiprows=None, nrows=None, na_values=None, 
keep_default_na=True, verbose=True, parse_dates=False, 
date_parser=None, thousands=None, comment=None, 
skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)

Часто используемые описания параметров:

Язык кода:javascript
копировать
io : string, path object ; excel путь.
sheetname : string, int, mixed list of strings/ints, or None, default 0 Чтобы вернуть несколько таблиц, используйте имя_листа=[0,1]. Если имя_листа=Нет, верните всю таблицу. Примечание. int/string возвращает кадр данных, а none и list возвращают кадр данных.
header : int, list of ints, default 0 Укажите строку имени столбца, значение по умолчанию — 0, то есть возьмите первую строку, данные — это данные под строкой имени столбца. Если данные не содержат имена столбцов, установите header = None
skiprows : list-like,Rows to skip at the beginning,Пропустить указанное количество строк данных
skip_footer : int,default 0, Пропустить отсчет строк int с конца данных
index_col : int, list of ints, default NoneУкажите столбец в качестве индексного столбца, вы также можете использовать u «строки».
names : array-like, default None, Укажите имя столбца.

Пример кода

Язык кода:javascript
копировать
import pandas as pd

# Чтение файла Excel
df = pd.read_excel('path_to_your_excel_file.xlsx')

# Читать только определенные столбцы
df = pd.read_excel('path_to_your_excel_file.xlsx', usecols=['Column1', 'Column2'])

2. Знакомство с функцией to_excel()

Функция to_excel() используется для записи объектов DataFrame в файлы Excel. Вы можете управлять форматом вывода, именем листа и т. д.

базовая грамматика

Язык кода:javascript
копировать
DataFrame.to_excel(io, excel_writer, sheet_name='Sheet1',
na_rep='', float_format=None, columns=None, header=True, 
index=True, index_label=None, startrow=0, startcol=0, 
engine=None, merge_cells=True, encoding=None, 
inf_rep='inf', verbose=True, freeze_panes=None, 
storage_options=None)

Часто используемые описания параметров:

Язык кода:javascript
копировать
io: Путь или файловый объект файла Excel.
sheet_name: Имя листа для записи.
na_rep: Представление отсутствующих значений, которое по умолчанию представляет собой пустую строку.
columns: Укажите столбцы для записи.
header: Записывать ли имена столбцов.
index: Записывать ли в index.

Пример кода

Язык кода:javascript
копировать
# Записать DataFrame в файл Excel
df.to_excel('output_excel_file.xlsx', sheet_name='Sheet1')

# Пишите только определенные столбцы
df.to_excel('output_excel_file.xlsx', columns=['Column1', 'Column2'])

3. Кодовые случаи

Чтение и обработка данных Excel

Язык кода:javascript
копировать
# Чтение файла Excel
df = pd.read_excel('data.xlsx')

# Очистка данных: удаление повторяющихся записей
df = df.drop_duplicates()

# Запишите обработанные данные обратно в Excel.
df.to_excel('cleaned_data.xlsx')

Сценарий 2. Объединение нескольких листов Excel

Язык кода:javascript
копировать
# Чтение файла Все листы в Excel
xls = pd.ExcelFile('multi_sheets.xlsx')

# Перебирайте рабочий лист и читайте данные.
dfs = {sheet: xls.parse(sheet) for sheet in xls.sheet_names}

# данные для объединения всех листов
combined_df = pd.concat(dfs.values(), ignore_index=True)

# Запишите объединенные данные в новый файл Excel.
combined_df.to_excel('combined_data.xlsx', index=False)

Записать отформатированный файл Excel

Язык кода:javascript
копировать
# Запишите в файл Excel, укажите имена столбцов и не записывайте индексы.
df.to_excel('formatted_data.xlsx', index=False, header=True, columns=['Column1', 'Column2'])

# Используйте ExcelWriter для форматирования листов
with pd.ExcelWriter('styled_data.xlsx', engine='xlsxwriter') as writer:
    df.to_excel(writer, sheet_name='Sheet1', startrow=2, startcol=3, index=False)
    workbook  = writer.book
    worksheet = writer.sheets['Sheet1']
    worksheet.set_column('A:D', 15)  # Установить ширину столбца

4. Практика использования данных Read_excel()

Предположим, у нас есть следующий источник данных:

Язык кода:javascript
копировать
sheet1:
ID  NUM-1   NUM-2   NUM-3
36901   142 168 661
36902   78  521 602
36903   144 600 521
36904   95  457 468
36905   69  596 695

sheet2:
ID  NUM-1   NUM-2   NUM-3
36906   190 527 691
36907   101 403 470

прототип функции

Язык кода:javascript
копировать
basestation ="F://pythonBook_PyPDAM/data/test.xls"
data = pd.read_excel(basestation)
print data

Вывод кадра данных

Язык кода:javascript
копировать
      ID  NUM-1  NUM-2  NUM-3
0  36901    142    168    661
1  36902     78    521    602
2  36903    144    600    521
3  36904     95    457    468
4  36905     69    596    695

sheetname

Параметр имя_листа: используйте имя_листа=[0,1] для возврата нескольких листов. Если имя_листа=Нет, верните весь лист.

Примечание. int/string возвращает кадр данных, а none и list возвращают кадр данных.

Язык кода:javascript
копировать
data_1 = pd.read_excel(basestation,sheetname=[0,1])
print data_1
print type(data_1)

Вывод: dict dataframe

Язык кода:javascript
копировать
OrderedDict([(0, ID  NUM-1  NUM-2  NUM-3
0  36901    142    168    661
1  36902     78    521    602
2  36903    144    600    521
3  36904     95    457    468
4  36905     69    596    695), 
(1,       ID  NUM-1  NUM-2  NUM-3
0  36906    190    527    691
1  36907    101    403    470)])

header

Укажите строку имени столбца, значение по умолчанию — 0, то есть возьмите первую строку, а данные — это данные под строкой имени столбца. Если данные не содержат имен столбцов, установите заголовок = None. Обратите внимание, что есть также. строка с именами столбцов.

Язык кода:javascript
копировать
data = pd.read_excel(basestation,header=None)
print data
Выход:
       0      1      2      3
0     ID  NUM-1  NUM-2  NUM-3
1  36901    142    168    661
2  36902     78    521    602
3  36903    144    600    521
4  36904     95    457    468
5  36905     69    596    695

data = pd.read_excel(basestation,header=[3])
print data
Выход:
   36903  144    600    521  
0  36904     95    457    468
1  36905     69    596    695

skiprows

Пропустить указанное количество строк данных

Язык кода:javascript
копировать
data = pd.read_excel(basestation,skiprows = [1])
print data
Выход:
      ID  NUM-1  NUM-2  NUM-3
0  36902     78    521    602
1  36903    144    600    521
2  36904     95    457    468
3  36905     69    596    695

skip_footer

Опустить данные int строки, считая с конца

Язык кода:javascript
копировать
data = pd.read_excel(basestation, skip_footer=3)
print data
Выход:
      ID  NUM-1  NUM-2  NUM-3
0  36901    142    168    661
1  36902     78    521    602

index_col

Укажите столбец в качестве индексного столбца, вы также можете использовать u «строки».

Язык кода:javascript
копировать
data = pd.read_excel(basestation, index_col="NUM-3")
print data
Выход:
          ID  NUM-1  NUM-2
NUM-3                     
661    36901    142    168
602    36902     78    521
521    36903    144    600
468    36904     95    457
695    36905     69    596

names

Укажите имя столбца.

Язык кода:javascript
копировать
data = pd.read_excel(basestation,names=["a","b","c","e"])
print data
       a    b    c    e
0  36901  142  168  661
1  36902   78  521  602
2  36903  144  600  521
3  36904   95  457  468
4  36905   69  596  695

5. Практика работы с данными To_excel()

источник данных

Язык кода:javascript
копировать
    ID  NUM-1   NUM-2   NUM-3
0   36901   142 168 661
1   36902   78  521 602
2   36903   144 600 521
3   36904   95  457 468
4   36905   69  596 695
5   36906   165 453 нагрузкаданные:
basestation ="F://python/data/test.xls"
basestation_end ="F://python/data/test_end.xls"
data = pd.read_excel(basestation)

excel_writer

Параметр excel_writer, путь вывода.

Язык кода:javascript
копировать
data.to_excel(basestation_end)
Выход:
    ID  NUM-1   NUM-2   NUM-3
0   36901   142 168 661
1   36902   78  521 602
2   36903   144 600 521
3   36904   95  457 468
4   36905   69  596 695
5   36906   165 453 

sheet_name

Сохраните данные на странице листа Excel.

Язык кода:javascript
копировать
data.to_excel(basestation_end,sheet_name="sheet2")

na_rep

Не заполнено значение

Язык кода:javascript
копировать
data.to_excel(basestation_end,na_rep="NULL")
Выход:
    ID  NUM-1   NUM-2   NUM-3
0   36901   142 168 661
1   36902   78  521 602
2   36903   144 600 521
3   36904   95  457 468
4   36905   69  596 695
5   36906   165 453 NULL

colums

последовательность, необязательно, Столбцы для записи выбирают выходные столбцы.

Язык кода:javascript
копировать
data.to_excel(basestation_end,columns=["ID"])
выход
    ID
0   36901
1   36902
2   36903
3   36904
4   36905
5   36906

header

логическое значение или список строк, по умолчанию — True, вы можете использовать список для присвоения имени столбцу. header = False не выводит заголовок.

Язык кода:javascript
копировать
data.to_excel(basestation_end,header=["a","b","c","d"])
Выход:
    a   b   c   d
0   36901   142 168 661
1   36902   78  521 602
2   36903   144 600 521
3   36904   95  457 468
4   36905   69  596 695
5   36906   165 453 

data.to_excel(basestation_end,header=False,columns=["ID"])
header = False Тогда не ломай голову
Выход:
0   36901
1   36902
2   36903
3   36904
4   36905
5   36906

index

index: логическое значение, имена строк True Write по умолчанию (индекс) По умолчанию установлено значение True, и индекс отображается. Если index=False, индекс строки (имя) не отображается.

index_label: строка или последовательность, по умолчанию Нет. Задайте имя столбца индекса.

Язык кода:javascript
копировать
data.to_excel(basestation_end,index=False)
Выход:
ID  NUM-1   NUM-2   NUM-3
36901   142 168 661
36902   78  521 602
36903   144 600 521
36904   95  457 468
36905   69  596 695
36906   165 453 

data.to_excel(basestation_end,index_label=["f"])
Выход:
f   ID  NUM-1   NUM-2   NUM-3
0   36901   142 168 661
1   36902   78  521 602
2   36903   144 600 521
3   36904   95  457 468
4   36905   69  596 695
5   36906   165 453 
boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose