Создание датафрейма pandas: подробное руководство для начинающих

Если вы только начинаете изучать науку о данных или работать с анализом данных, то одним из первых инструментов, с которым вам следует познакомиться, является библиотека pandas для языка программирования Python. Она предоставляет возможность эффективно работать с табличными данными и обладает широким набором функций для обработки, фильтрации и анализа данных.

Одной из основных структур данных в pandas является датафрейм, который представляет собой двумерную таблицу с метками строк и столбцов. Создание датафрейма является неотъемлемой частью работы с pandas, поэтому в этом руководстве мы подробно рассмотрим основные способы создания датафрейма.

Вы узнаете, как создать датафрейм из списка, словаря, массива NumPy, CSV-файла и других источников данных. Мы рассмотрим различные параметры и методы, которые могут быть использованы при создании датафрейма, а также покажем примеры их применения. После изучения этого руководства вы будете готовы перейти к более сложным операциям с датафреймами и начать анализ данных с помощью pandas.

Содержание

Основы создания датафрейма pandas
Установка и импорт библиотеки pandas
Создание датафрейма из списка или массива данных
Создание датафрейма из CSV-файла
Создание датафрейма из словаря или серии
Работа с колонками и строками датафрейма

Основы создания датафрейма pandas

Создание пустого датафрейма
Использование списков или массивов
Чтение данных из файла

Создание пустого датафрейма может быть полезным, если вы планируете заполнить его данными позже. Для этого можно использовать следующий код:

import pandas as pd
df = pd.DataFrame()
print(df)

Чтобы создать датафрейм из списков или массивов, вы можете передать их в конструктор DataFrame. Каждый список или массив будет представлять столбец в датафрейме, а его элементы будут значениями в этом столбце. Например, вот как создать датафрейм из списков с именем и возрастом:

import pandas as pd
names = ['Alice', 'Bob', 'Charlie']
ages = [25, 32, 28]
df = pd.DataFrame({'Name': names, 'Age': ages})
print(df)

Кроме того, вы можете создать датафрейм, прочитав данные из файла. Pandas поддерживает множество форматов файлов, таких как CSV, Excel, SQL, JSON и др. Например, для чтения CSV файла вы можете использовать следующий код:

import pandas as pd
df = pd.read_csv('data.csv')
print(df)

В результате выполнения этих примеров в консоли или Jupyter Notebook вы увидите содержимое созданного датафрейма. Отображение может выглядеть подобным образом:

Name   Age
0  Alice    25
1    Bob    32
2 Charlie  28

Теперь вы знаете основы создания датафрейма pandas и можете приступить к работе с данными.

Установка и импорт библиотеки pandas

Для установки библиотеки pandas можно воспользоваться менеджером пакетов pip. Для этого нужно открыть командную строку и ввести следующую команду:

pip install pandas

После успешной установки можно приступить к импорту библиотеки. Для этого необходимо в начале скрипта добавить следующую строку:

import pandas as pd

Теперь вы можете использовать возможности и функции библиотеки pandas для создания, визуализации и анализа датафреймов.

Создание датафрейма из списка или массива данных

Для начала, нам необходимо импортировать библиотеку pandas. После этого мы можем создать список или массив данных, содержащий нужные нам значения. Например, мы можем создать список с именами людей:

import pandas as pd
names = ['Alice', 'Bob', 'Charlie', 'David']

Теперь мы можем использовать функцию pandas.DataFrame(), передавая в нее наш список в качестве аргумента. При этом каждый элемент списка станет отдельной строкой в датафрейме:

df = pd.DataFrame(names)
print(df)

Результатом выполнения данного кода будет следующая таблица:

	0
0	Alice
1	Bob
2	Charlie
3	David

В приведенном примере мы передали список names в функцию pd.DataFrame(). Каждому элементу списка был присвоен новый индекс (по умолчанию это числа от 0 до n-1, где n — количество элементов в списке).

Если у нас есть несколько списков, мы можем создать датафрейм, передав их в функцию pd.DataFrame() в виде словаря, где ключами будут названия столбцов, а значениями — списки данных:

data = {'Name': names, 'Age': [25, 32, 47, 18]}
df = pd.DataFrame(data)
print(df)

Результатом выполнения данного кода будет следующая таблица:

	Name	Age
0	Alice	25
1	Bob	32
2	Charlie	47
3	David	18

В данном примере мы создали словарь data, в котором каждому ключу (Name, Age) соответствует отдельный список данных. При создании датафрейма, каждый список становится отдельным столбцом.

Создание датафрейма из CSV-файла

Для импорта данных из CSV-файла в pandas мы используем функцию read_csv(). Она позволяет нам считывать данные из файла и представлять их в виде датафрейма.

Прежде чем приступить к чтению данных из файла, убедитесь, что файл находится в том же каталоге, что и ваш сценарий Python, или укажите полный путь до файла.

Давайте рассмотрим пример:

import pandas as pd
# Чтение данных из CSV-файла и создание датафрейма
df = pd.read_csv('data.csv')
print(df.head())

Обратите внимание, что можно изменить разделитель значений, используемый в CSV-файле, с помощью аргумента delimiter функции read_csv(). По умолчанию разделитель значений — запятая.

Если ваш файл CSV не содержит заголовка (названия столбцов), вы можете указать это, установив аргумент header=None функции read_csv(). В этом случае pandas назначит имена столбцов по умолчанию (0, 1, 2 и т.д.).

Таким образом, импорт данных из CSV-файла в pandas — это очень простой и удобный способ создания датафрейма. После импорта вы можете выполнять различные операции над данными, такие как фильтрация, агрегация или визуализация.

Создание датафрейма из словаря или серии

Для создания датафрейма из словаря, каждый ключ словаря становится названием столбца, а значения словаря становятся данными в этих столбцах. Вот простой пример:

import pandas as pd
data = {'имя': ['Мария', 'Олег', 'Анна'],
'возраст': [25, 30, 35],
'город': ['Москва', 'Санкт-Петербург', 'Екатеринбург']}
df = pd.DataFrame(data)

В результате получим следующий датафрейм:

имя	возраст	город
Мария	25	Москва
Олег	30	Санкт-Петербург
Анна	35	Екатеринбург

Также можно создать датафрейм из серии, при условии, что индексы в серии идентичны. Вот пример:

import pandas as pd
name = pd.Series(['Мария', 'Олег', 'Анна'])
age = pd.Series([25, 30, 35])
city = pd.Series(['Москва', 'Санкт-Петербург', 'Екатеринбург'])
data = {'имя': name,
'возраст': age,
'город': city}
df = pd.DataFrame(data)

Получим тот же самый датафрейм, как и в предыдущем примере.

Теперь вы знаете, как создать датафрейм из словаря или серии. Вы можете использовать этот метод для удобной работы с данными в pandas.

Работа с колонками и строками датафрейма

Для работы с колонками и строками в датафрейме pandas существуют множество методов и функций, которые позволяют выполнять различные операции.

Один из основных способов обращения к колонкам датафрейма – использование названия колонки в квадратных скобках. Например, для обращения к колонке «имя» датафрейма df можно использовать следующую конструкцию: df[‘имя’].

С помощью метода loc можно получить доступ к определённой строке или диапазону строк по их индексам. Например, чтобы получить доступ к строке с индексом 0, необходимо использовать следующий синтаксис: df.loc[0].

Также можно осуществлять фильтрацию датафрейма по определённому условию. Для этого используется оператор сравнения внутри квадратных скобок. Например, чтобы получить только те строки, где значение в колонке «возраст» больше 25, можно использовать следующий синтаксис: df[df[‘возраст’] > 25].

Для добавления новой колонки в датафрейм используется присваивание значения к новому столбцу с помощью оператора «=» и указания его названия. Например, чтобы добавить новый столбец «пол», содержащий значения «мужской» для всех строк, можно использовать следующий синтаксис: df[‘пол’] = ‘мужской’.

Также можно изменять значения в определённом столбце с помощью метода at, который позволяет получить доступ к элементу датафрейма по его индексу и названию столбца. Например, чтобы изменить значение в колонке «номер» для строки с индексом 0, можно использовать следующий синтаксис: df.at[0, ‘номер’] = 123.

Если необходимо удалить определённый столбец из датафрейма, можно воспользоваться методом drop, указав название столбца и параметр axis=1. Например, чтобы удалить столбец «позиция», можно использовать следующий синтаксис: df.drop(‘позиция’, axis=1).

Метод	Описание
df[‘имя’]	Обращение к колонке по названию
df.loc[0]	Получение доступа к строке по индексу
df[df[‘возраст’] > 25]	Фильтрация датафрейма по условию
df[‘пол’] = ‘мужской’	Добавление нового столбца
df.at[0, ‘номер’] = 123	Изменение значения в столбце
df.drop(‘позиция’, axis=1)	Удаление столбца

Это лишь некоторые из методов и функций работы с колонками и строками датафрейма pandas. Более подробную информацию можно найти в документации библиотеки.

Подробное руководство для начинающих — создание датафрейма pandas