Pandas(パンダス)とは?Pythonでデータを簡単に操作・分析できる強力ライブラリ
Pandas(パンダス)は、Pythonで表形式のデータ(テーブル)を簡単に操作・分析できるライブラリです。
CSVファイルの読み込み、行・列の抽出、集計やソートなど、Excel感覚でプログラミングによるデータ処理が可能になります。
Pandasの特徴
- 表形式データを扱うDataFrame型が中心
- データの読み込み・加工・集計・可視化まで対応
- CSV・Excel・SQL・JSONなど多くの形式に対応
- データ分析・機械学習の前処理に必須
インストール方法
pip install pandas
基本構造:SeriesとDataFrame
import pandas as pd
# Series(1列のデータ)
s = pd.Series([10, 20, 30])
print(s)
# DataFrame(表形式)
df = pd.DataFrame({
"名前": ["さくら", "たろう", "はなこ"],
"年齢": [20, 25, 23]
})
print(df)
CSVファイルの読み込み
df = pd.read_csv("sample.csv")
print(df.head()) # 最初の5行を表示
read_csv()
関数を使えば、CSVファイルを簡単に読み込んでDataFrameに変換できます。
データの基本操作
print(df.columns) # 列名一覧
print(df["名前"]) # 列の抽出
print(df.iloc[0]) # 行番号で抽出
print(df.loc[0, "名前"]) # 行・列を指定して抽出
データの集計・フィルタ
print(df.describe()) # 要約統計量
print(df["年齢"].mean()) # 平均値
print(df[df["年齢"] > 21]) # 年齢が21歳より大きい行
並べ替え・グループ化
print(df.sort_values("年齢")) # 年齢で昇順
print(df.groupby("名前").mean()) # 名前ごとの平均
欠損値の処理
df.isnull() # 欠損の確認(True/False)
df.dropna() # 欠損値を含む行を削除
df.fillna(0) # 欠損値を0で埋める
データの保存
df.to_csv("output.csv", index=False)
加工したデータをCSV形式などで簡単に出力できます。
まとめ
Pandasは、Pythonにおけるデータ分析・処理の中心的ライブラリです。
簡単なコードで大量のデータを操作・集計・変換できるため、データサイエンス・業務自動化・統計分析など幅広く活用されています。
まずは read_csv()
と DataFrame
の基本から始めて、徐々に集計や可視化へと活用を広げていきましょう!