# pandas入門

[pandas](https://pandas.pydata.org)は表形式のデータと時系列データを効率良く扱うために便利なPythonライブラリである．
pandasは行列データを効率的に扱う[NumPy](https://numpy.org/ja/)をバックエンドに持っており，機械学習ライブラリとの相性も良い．
そのため，Pythonを用いたデータ分析を行う際に非常に良く用いられる．

この文書では，データ分析の際に実用的に用いるpandasの機能のうち，最低限覚えておくべき内容をピックアップする．


## はじめに - 表データとデータフレーム

pandasで扱うデータは，以下のように行と列からなる表データである．

| 都道府県ID | 都道府県名 | 2020年法定人口 | 県庁所在地 |
| - | - | - | - |
| 1 | 北海道 | 5224614 | 札幌市 |
| 2 | 青森県 | 1237984 | 青森市 |
| 3 | 岩手県 | 1210534 | 盛岡市 |
| ... |  |  |  |


一般に表データはMicrosoftのExcelファイルで取り扱われることが多い．
しかし，データ分析の世界では，比較的小さな表データは，特定のソフトウェアに依存しない（互換性の高い）**CSV（comma-sepprated values）ファイル**，もしくは**TSV（tab-separated values）ファイル**で保存/配布されることが多い．

CSVファイルは表の各項目の値をカンマ（,）で区切ったテキストデータである．
CSVファイルの行が表の行に相当する．
CSVファイルの1行目には，表の構造を示す項目名を並べることがある．
CSVファイルの拡張子には`.csv`が用いられる．

以下は，上記都道府県に関する表データをCSVファイルとして保存したその中身の例である．

```
 都道府県ID,都道府県名,2020年法定人口,県庁所在地
 1,北海道,5224614,札幌市
 2,青森県,1237984,青森市
 3,岩手県,1210534,盛岡市
...
```


1行には表の項目（見出し）が，2行目以降には各都道府県に関するデータがカンマで区切られ定義されている．
この表データをTSVファイルで保存する場合は，カンマではなくタブ記号（\t）でデータを区切る．
TSVファイルの拡張子は`.tsv`である．

pandasライブラリでは，表形式のデータを**データフレーム（DataFrame）** という形式に変換し，データの前処理や分析を行う．
データフレームとは，Pythonで**計算処理を効率的に行うための表データ**のようなものと思えば良い．
以下，pandasの扱い方について説明する．

## ライブラリの準備

pandasはPythonの標準ライブラリではない．
お手元の計算環境にpandasライブラリがない場合は，以下のコマンドでpandasをインストールしよう．

```shell
pip install pandas
```

pandasをインストール後，以下のコードを実行してpandasライブラリを読み込む．

In [1]:
import pandas as pd

Jupyterを用いている場合は，セルに以下を書いて実行しよう．

In [2]:
try:
    import pandas as pd
except:
    !pip install pandas
    import pandas as pd

以下は，表示を見やすくするためのおまじないである．

In [3]:
# データフレームの表示数を指定（以下のコードは書かなくてOK）
pd.options.display.max_rows = 10

In [4]:
# 警告文を非表示に
import warnings
warnings.filterwarnings('ignore')

## データの読み込み

### CSV/TSVファイルを読み込む

Pythonで表データを分析する場合，誰かが作成したCSV/TSVファイルをpandasライブラリで読み込むのが典型的なシナリオである．
[このURL](https://raw.githubusercontent.com/hontolab-courses/dmml-2022/main/dataset/titanic_train.csv)に[タイタニック号](https://ja.wikipedia.org/wiki/タイタニック_(客船))の乗船客に関するCSVファイルがある．
こちらをダウンロードしてpandasで読み込んでみよう．
ダウンロードしたファイルは`data`ディレクトリに`titanic_train.csv`という名前で保存したとする．

pandasで表データを読み込むには`read_table`関数を用いる．
以下は`dataset`ディレクトリにある`titanic_train.csv`を読み込み，ファイルの中身をデータフレームに変換したものを変数`df`に格納するコードである．
関数の1つ目の引数にはファイルの保存先を指定する．
`sep`という引数では，読み込んだファイルに用いられている区切り文字を指定している．
今回読み込むファイルはCSVファイルなのでカンマ（,）を指定している．
TSVファイルを読み込む場合はタブ文字（\t）を指定する．

In [5]:
df = pd.read_table('data/titanic_train.csv', sep=',')

変数`df`を表示してみよう．
Jupyterを用いている場合，下記コードを実行すると`df`の中身（の一部）が表示される．
データフレーム形式のデータが得られていることが分かる．

In [6]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


先ほどはダウンロードしたファイルを読み込んだが，`read_table`関数はURLを指定することでファイルのダウンロードと読み込みを一括して行ってくれる．
先ほどのコードを以下に書き換えると，指定したURL上のファイルを読み込み，データフレームを作成する．

In [7]:
df = pd.read_table('https://raw.githubusercontent.com/hontolab-courses/ml-lecturenote/refs/heads/main/content/data/titanic_train.csv', sep=',')

`read_table`関数は引数に様々なオプションを指定できる（詳しくは[ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_table.html)を参考）．
代表的な引数は以下の通り：
- `sep`: 区切り文字
- `header`: 指定ファイルの中で見出し項目が格納された行番号（デフォルトは0）
- `encoding`: ファイルの文字コード
- `index_col`: インデックスをつけるために用いる列名


```{note}
### インデックス

DataFrameオブジェクトにおけるインデックスとは，表中の行を識別するために各行につけられた固有の名前である．
pandasでCSVファイルやTSVファイルをデータフレームとして読み込む際，インデックスを指定しない場合，行番号（先頭から数えて何番目の行かを表す数字）がインデックスとなる．
インデックスが指定されていると，インデックスと行番号が同じにならないこともある．
```

例えば，[こちらのURL](https://www.nstac.go.jp/sys/files/SSDSE-E-2024.csv)で公開されている独立行政法人統計センター作成の[教育用標準データセットSSDSE-基本素材（SSDSE-E）](https://www.nstac.go.jp/use/literacy/ssdse/#SSDSE-E)の表データを読み込んでみよう．

このデータはCSVファイルに格納されているが，文字コードとしてSHIFT-JISが用いられている．
また，表の見出しは3行目で定義されており，4行目以降に実データが記述されている．
このことを踏まえて，SSDSE-Eのデータをデータフレームとして読み込むコードは以下となる．

In [8]:
# CSVファイルの1行目をpandasではゼロ行目と読むので，3行目のデータを見出しとして指定する場合はheader=2となる
# 地域コードをインデックス名として指定
df = pd.read_table('https://www.nstac.go.jp/sys/files/SSDSE-E-2024.csv',
                   sep=',', header=2, encoding='shift-jis',
                   index_col='地域コード')

## データの確認

以下，上で読み込んだ独立行政法人統計センター作成の[教育用標準データセットSSDSE-基本素材（SSDSE-E）](https://www.nstac.go.jp/use/literacy/ssdse/#SSDSE-E)の表データがデータフレームに変換の上，変数`df`に格納されているとの前提で説明する．

### 表の行数，列数の確認

DataFrameオブジェクトのプロパティ`shape`にアクセスすると行数と列数のタプルが得られる．

In [9]:
df.shape

(48, 91)

### 表の行数

表データの行数だけを得たいときは，`len`関数を用いる（[★Quiz Q2](#C1-Q2)）．

In [10]:
len(df)

48

### 表の項目情報

表データの項目名を取得したい場合は，DataFrameオブジェクトのプロパティ`columns`にアクセスする．
`columns`にアクセスすると，項目名のリストを得られる．

In [11]:
df.columns

Index(['都道府県', '総人口', '日本人人口', '15歳未満人口', '15〜64歳人口', '65歳以上人口', '外国人人口',
       '出生数', '合計特殊出生率', '死亡数', '転入者数（日本人移動者）', '転出者数（日本人移動者）', '一般世帯数',
       '一般世帯人員数', '単独世帯数', '婚姻件数', '離婚件数', '総面積（北方地域及び竹島を除く）', '可住地面積',
       '自然公園面積', '県内総生産額（平成27年基準）', '県民所得（平成27年基準）', '1人当たり県民所得（平成27年基準）',
       '事業所数（民営）', '事業所数（民営）（建設業）', '事業所数（民営）（製造業）', '事業所数（民営）（情報通信業）',
       '事業所数（民営）（卸売業、小売業）', '事業所数（民営）（宿泊業、飲食サービス業）', '事業所数（民営）（生活関連サービス業、娯楽業）',
       '事業所数（民営）（医療、福祉）', '従業者数（民営）', '従業者数（民営）（建設業）', '従業者数（民営）（製造業）',
       '従業者数（民営）（情報通信業）', '従業者数（民営）（卸売業、小売業）', '従業者数（民営）（宿泊業、飲食サービス業）',
       '従業者数（民営）（生活関連サービス業、娯楽業）', '従業者数（民営）（医療、福祉）', '農家数（販売農家）', '農家数（自給的農家）',
       '耕地面積', '旅館営業施設数（ホテルを含む）', '旅館営業施設客室数（ホテルを含む）', '幼稚園数', '幼稚園在園者数',
       '小学校数', '小学校児童数', '中学校数', '中学校生徒数', '高等学校数', '高等学校生徒数', '短期大学数', '大学数',
       '短期大学学生数', '大学学生数', '公民館数', '図書館数', '博物館数', '劇場、音楽堂等数', '社会体育施設数',
       '民間体育施設数', '映画館数', '一般旅券発行件数', '延べ宿泊者数', '外国人延べ宿泊者数', '総住宅数', '空き家数',
       '持ち家数', '一戸建住宅数', '

### 基本統計量

DataFrameオブジェクトのメソッド`describe`を用いると，表の各項目の基本統計量が得られる．
得られる基本統計量は以下の通り：
- データ数
- 平均
- 標準偏差
- 最小値，最大値
- 中央値
- 第1四分位数，第3四分位数


In [12]:
df.describe()

Unnamed: 0,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,転入者数（日本人移動者）,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
count,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,...,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0,48.0
mean,5206104.0,5084646.0,604312.5,3092000.0,1509812.0,100102.5,33817.354167,1.397708,59975.79,93973.42,...,2829.125,14150.958333,4476.791667,13415.916667,1249.75,110133.1,289656.083333,76615.958333,19231.125,25987.6875
std,17865880.0,17443750.0,2072707.0,10632090.0,5164664.0,349759.2,116144.047847,0.145225,205122.3,325985.1,...,9765.277128,48665.779507,15458.270437,46353.143907,4278.561169,376987.8,18982.531256,5518.803196,4783.81712,3771.185339
min,544000.0,539000.0,66000.0,298000.0,180000.0,3651.0,3708.0,1.08,7605.0,7967.0,...,254.0,1871.0,369.0,1229.0,185.0,16403.0,245054.0,67889.0,6220.0,17601.0
25%,1049250.0,1041250.0,120500.0,569000.0,350000.0,9606.75,6409.75,1.3,13668.0,15445.75,...,489.5,2867.25,738.0,2424.0,298.75,24884.25,276968.25,72335.5,16401.0,22929.25
50%,1640500.0,1619500.0,202500.0,913500.0,527000.0,15677.0,11108.0,1.4,21809.0,24771.0,...,804.0,4348.5,1277.5,3524.0,447.5,39533.0,289323.0,75822.5,19698.5,25953.5
75%,2780000.0,2722750.0,325750.0,1609250.0,835500.0,52689.5,17035.5,1.4675,32284.0,48188.5,...,1413.0,7921.5,2151.0,6954.0,684.5,59555.5,301817.0,80910.25,22282.0,28304.5
max,124947000.0,122031000.0,14503000.0,74208000.0,36236000.0,2402460.0,811622.0,1.8,1439856.0,2255362.0,...,67899.0,339623.0,107443.0,321982.0,29994.0,2643196.0,324793.0,87973.0,30323.0,35050.0


## データフレームへのアクセス

### 先頭・末尾のレコード（行）の取得

DataFrameオブジェクトのメソッド`head`は，データフレームの先頭$N$件のレコードを返す．
引数に何も指定しないと5件返す．

In [13]:
df.head()

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R00000,全国,124947000,122031000,14503000,74208000,36236000,2402460,811622,1.3,1439856,...,67899,339623,107443,321982,29994,2643196,290865,77474,18645,26642
R01000,北海道,5140000,5098000,530000,2924000,1686000,34321,28762,1.2,69023,...,2818,13731,4418,11802,1075,76885,277737,73037,24873,27234
R02000,青森県,1204000,1198000,123000,663000,419000,5409,6513,1.31,18785,...,505,2773,735,2345,472,30738,249660,73725,10541,20068
R03000,岩手県,1181000,1173000,125000,648000,408000,6937,6472,1.3,17631,...,557,2700,1016,2536,393,28580,285815,77251,18814,25733
R04000,宮城県,2280000,2256000,258000,1363000,659000,19453,13761,1.15,25897,...,1051,5950,1896,5502,506,40519,287781,78589,22951,26516


DataFrameオブジェクトのメソッド`tail`は，データフレームの末尾$N$件のレコードを返す．
引数に何も指定しないと5件返す（[★Quiz Q1](#C1-Q1)）．

In [14]:
df.tail()

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R43000,熊本県,1718000,1699000,223000,943000,552000,14591,12670,1.59,22093,...,835,5415,1377,4036,623,52158,281836,70132,30323,24428
R44000,大分県,1107000,1092000,131000,600000,376000,10168,7327,1.54,15104,...,530,3370,740,2317,335,26578,298060,75218,18820,28260
R45000,宮崎県,1052000,1044000,136000,565000,352000,6474,7590,1.64,14520,...,493,2879,731,2272,420,30732,271613,70162,15433,21950
R46000,鹿児島県,1563000,1550000,201000,838000,523000,10037,11618,1.65,21979,...,795,4653,1352,3266,582,40357,279101,70070,20822,22440
R47000,沖縄県,1468000,1446000,240000,884000,344000,18157,14535,1.8,13582,...,607,3887,885,2432,614,57108,251735,68318,25189,18429


### 射影

表データから指定した列のみに注目してデータを抽出する操作，関係データベースの分野では**射影**と呼ぶ．

pandasのDataFrameで射影を行う方法は2種類ある．
1つ目は注目したい列項目名をドット（.）で指定する方法である．
以下は，データフレーム`df`から列「総人口」にあるデータを抽出するコードである．

In [15]:
df.総人口

地域コード
R00000    124947000
R01000      5140000
R02000      1204000
R03000      1181000
R04000      2280000
            ...    
R43000      1718000
R44000      1107000
R45000      1052000
R46000      1563000
R47000      1468000
Name: 総人口, Length: 48, dtype: int64

もう1つの射影方法は，中括弧の中で列項目名を指定する方法である．
この方法では，注目したい列名を**文字列もしくは文字列のリスト**で指定する．
以下は，データフレーム`df`から列「総人口」にあるデータを抽出するコードである．

In [16]:
df['総人口']

地域コード
R00000    124947000
R01000      5140000
R02000      1204000
R03000      1181000
R04000      2280000
            ...    
R43000      1718000
R44000      1107000
R45000      1052000
R46000      1563000
R47000      1468000
Name: 総人口, Length: 48, dtype: int64

ドットを用いる方法は簡便であるが，列項目を複数指定して射影できない．
中括弧を用いる射影方法では，中括弧の中に文字列のリストを与えることで，複数の列項目に注目してデータを抽出できる．
以下は，データフレーム`df`から「都道府県」「総人口」の列のデータを抽出するコードである（[★Quiz Q3](#C1-Q3)）．

In [17]:
target_columns = ['都道府県', '総人口']
df[target_columns]

# 以下のように書いても問題ない
# df[['都道府県', '総人口']]

Unnamed: 0_level_0,都道府県,総人口
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1
R00000,全国,124947000
R01000,北海道,5140000
R02000,青森県,1204000
R03000,岩手県,1181000
R04000,宮城県,2280000
...,...,...
R43000,熊本県,1718000
R44000,大分県,1107000
R45000,宮崎県,1052000
R46000,鹿児島県,1563000


### データフレームに対する四則演算

pandasのDataFrameオブジェクトから任意の列を射影した後，スカラーの四則演算を適用すると，射影した列データ全体に演算が適用される．
例えば，以下はデータフレーム`df`の`総人口`列の各値に100を加算するコード例である．

In [18]:
# 総人口列の各値に100が加算された列が返る
df.総人口 + 100

地域コード
R00000    124947100
R01000      5140100
R02000      1204100
R03000      1181100
R04000      2280100
            ...    
R43000      1718100
R44000      1107100
R45000      1052100
R46000      1563100
R47000      1468100
Name: 総人口, Length: 48, dtype: int64

列と列の長さ（要素数）が同じなら，列同士の四則演算を行うことができる．
2つの列同士の四則演算を行うと，双方の列の各行の値を四則演算した結果の列が返る．

以下は，データフレーム`df`の`日本人人口`列の値を`総人口`列の値で割る（つまり，日本人の割合を求める）コード例である．

In [19]:
df['日本人人口'] / df['総人口']

地域コード
R00000    0.976662
R01000    0.991829
R02000    0.995017
R03000    0.993226
R04000    0.989474
            ...   
R43000    0.988941
R44000    0.986450
R45000    0.992395
R46000    0.991683
R47000    0.985014
Length: 48, dtype: float64

### 任意の行にあるレコードの取得

`df[i:j]`と書くと，データフレーム`df`の`i`件目（ゼロを起点）から`j-1`件目のレコードを取得できる．
以下はデータフレーム`df`の2件目から4件目まで（5件目は含まれない）のレコードを取得するコードである．

In [20]:
df[2:5]

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R02000,青森県,1204000,1198000,123000,663000,419000,5409,6513,1.31,18785,...,505,2773,735,2345,472,30738,249660,73725,10541,20068
R03000,岩手県,1181000,1173000,125000,648000,408000,6937,6472,1.3,17631,...,557,2700,1016,2536,393,28580,285815,77251,18814,25733
R04000,宮城県,2280000,2256000,258000,1363000,659000,19453,13761,1.15,25897,...,1051,5950,1896,5502,506,40519,287781,78589,22951,26516


DataFrameオブジェクトの`loc`，`iloc`メソッドを用いると，任意の行にある任意の列の値を取得することができる．
- `loc`メソッドは任意の行**名**（インデックス名），列**名**で
- `iloc`メソッドは任意の行**番号**，列**番号**で

値を取得するという違いがある．

`loc`メソッドを用いると，行名，列名でレコードを取得できる．
以下はデータフレーム`df`のインデックス名が任意の値をもつレコード（つまり全てのレコード）について，「都道府県」「総人口」の列の値だけ抽出（射影）するコードである．
ここで，コロン（\"）は**すべて**を意味する．

In [21]:
target_columns = ['都道府県', '総人口']
df.loc[:, target_columns]

Unnamed: 0_level_0,都道府県,総人口
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1
R00000,全国,124947000
R01000,北海道,5140000
R02000,青森県,1204000
R03000,岩手県,1181000
R04000,宮城県,2280000
...,...,...
R43000,熊本県,1718000
R44000,大分県,1107000
R45000,宮崎県,1052000
R46000,鹿児島県,1563000


上記コードは，以下と同じ（射影後に取得行を絞る）．

In [22]:
target_columns = ['都道府県', '総人口']
df[target_columns]

Unnamed: 0_level_0,都道府県,総人口
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1
R00000,全国,124947000
R01000,北海道,5140000
R02000,青森県,1204000
R03000,岩手県,1181000
R04000,宮城県,2280000
...,...,...
R43000,熊本県,1718000
R44000,大分県,1107000
R45000,宮崎県,1052000
R46000,鹿児島県,1563000


以下のように`loc`メソッドの引数を指定すると，インデックス名と列名の両方でDataFrameオブジェクトを絞り込むことができる．

In [23]:
target_columns = ['都道府県', '総人口']
target_indices = ['R13000', 'R26000', 'R27000']
df.loc[target_indices, target_columns]

# 上記は以下のようにも書ける
# df.loc[['都道府県', '総人口'], ['R13000', 'R26000', 'R27000']]

Unnamed: 0_level_0,都道府県,総人口
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1
R13000,東京都,14038000
R26000,京都府,2550000
R27000,大阪府,8782000


`iloc`メソッドを用いると，行番号，列番号でレコードを取得できる．
以下はデータフレーム`df`の行番号が2から4までのレコードについて，列番号が0から3までの列の値を抽出（射影）するコードである．

In [24]:
# データフレーム`df`の2件目から4件目（5件目未満）のレコードについて，
# 列番号が0から3までの列（つまり，「都道府県」「総人口」「日本人人口」）の列の値を抽出（射影）する
df.iloc[2:5, 0:3]

Unnamed: 0_level_0,都道府県,総人口,日本人人口
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
R02000,青森県,1204000,1198000
R03000,岩手県,1181000,1173000
R04000,宮城県,2280000,2256000


上の例では`2`件目から`4`件目までのように連続するレコードを取得していたが，`iloc`メソッドでは具体的なレコードの行番号をリストで指定してレコードを取得することもできる．
以下は，データフレーム`df`の1件目と11件目と21件目のレコードを抽出（射影）するコードである．

In [25]:
target_rows = [1, 11, 21]
df.iloc[target_rows, :]

# 以下のように書いても問題ない
# df.iloc[[1, 11, 21], :]

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R01000,北海道,5140000,5098000,530000,2924000,1686000,34321,28762,1.2,69023,...,2818,13731,4418,11802,1075,76885,277737,73037,24873,27234
R11000,埼玉県,7337000,7136000,847000,4483000,2007000,161439,45424,1.22,75164,...,3550,13604,5575,16370,1474,123008,324793,87922,21820,35050
R21000,岐阜県,1946000,1888000,231000,1111000,604000,48979,11730,1.4,24126,...,959,4580,1735,4060,415,38709,313314,77357,13720,27226


### 絞り込み

DataFrameオブジェクトから特定の条件を満たすレコードのみを取得するには2種類の方法がある：
- 中括弧の中で条件を指定する方法
- `query`メソッドを使用する方法

データフレーム`df`にあるレコードの中で，「総人口」の値が700万以上になるものだけを抽出する例を考えてみよう．
中括弧の中で条件を指定してデータフレームにアクセスすると，条件にマッチするレコードだけが絞り込まれる．
条件指定には射影を用いる．

In [26]:
df[df['総人口'] >= 7000000]

# ドット表現を用いて条件を指定することも可能
# df[df.総人口 >= 7000000]

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R00000,全国,124947000,122031000,14503000,74208000,36236000,2402460,811622,1.3,1439856,...,67899,339623,107443,321982,29994,2643196,290865,77474,18645,26642
R11000,埼玉県,7337000,7136000,847000,4483000,2007000,161439,45424,1.22,75164,...,3550,13604,5575,16370,1474,123008,324793,87922,21820,35050
R13000,東京都,14038000,13443000,1535000,9301000,3202000,483372,95404,1.08,127649,...,10678,48072,17245,52842,3523,290125,321633,87973,29988,33099
R14000,神奈川県,9232000,8991000,1053000,5797000,2383000,195535,58836,1.22,89701,...,4984,21377,7605,23872,2012,165014,301379,85076,23065,29394
R23000,愛知県,7495000,7228000,948000,4628000,1920000,231369,53918,1.41,73769,...,3718,17842,6159,16003,1558,148009,319344,79757,22575,30894
R27000,大阪府,8782000,8524000,1002000,5349000,2432000,208681,59780,1.27,97282,...,5442,26431,8184,27297,1573,172365,265161,80890,18350,25978


```{note}
#### df.総人口 >= 7000000 を実行すると何が返ってくるのか？
実行してみると分かるが，`df`の各レコードの`総人口`が700万以上かそうでないかを`True`か`False`で表したpandas.Series（リストのようなもの）が返ってくる．
返ってくるpandas.Seriesでは，nつ目の要素が`df`のn番目のレコードが`True`か`False`を表している．
pandasのDataFrameオブジェクトは中括弧の中に`True/False`のリスト（もしくはpandas.Series）を入れると，値がTrueのレコードだけをDataFrameオブジェクトから抽出して返す．
この振る舞いを利用して，pandasではレコードの絞り込みを行うのである．
```

同じことをDataFrameオブジェクトの`query`メソッドを使って書くと，以下のようになる（[★Quiz Q4](#C1-Q4)）．

In [28]:
df.query('総人口 >= 7000000')

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R00000,全国,124947000,122031000,14503000,74208000,36236000,2402460,811622,1.3,1439856,...,67899,339623,107443,321982,29994,2643196,290865,77474,18645,26642
R11000,埼玉県,7337000,7136000,847000,4483000,2007000,161439,45424,1.22,75164,...,3550,13604,5575,16370,1474,123008,324793,87922,21820,35050
R13000,東京都,14038000,13443000,1535000,9301000,3202000,483372,95404,1.08,127649,...,10678,48072,17245,52842,3523,290125,321633,87973,29988,33099
R14000,神奈川県,9232000,8991000,1053000,5797000,2383000,195535,58836,1.22,89701,...,4984,21377,7605,23872,2012,165014,301379,85076,23065,29394
R23000,愛知県,7495000,7228000,948000,4628000,1920000,231369,53918,1.41,73769,...,3718,17842,6159,16003,1558,148009,319344,79757,22575,30894
R27000,大阪府,8782000,8524000,1002000,5349000,2432000,208681,59780,1.27,97282,...,5442,26431,8184,27297,1573,172365,265161,80890,18350,25978


絞り込み条件は複数書くこともできる．
以下はAND条件の例．AND条件は`&`で繋ぐ．なお，1つ1つの条件は丸括弧で囲む．

In [29]:
# 総人口が700万人以上かつ都道府県名が「全国」でないレコードをすべて抽出
df[(df.総人口 >= 7000000) & (df.都道府県 != '全国')]

# queryメソッドを使うと，以下のように書ける
df.query('総人口 >= 7000000 & 都道府県 != "全国"')

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R11000,埼玉県,7337000,7136000,847000,4483000,2007000,161439,45424,1.22,75164,...,3550,13604,5575,16370,1474,123008,324793,87922,21820,35050
R13000,東京都,14038000,13443000,1535000,9301000,3202000,483372,95404,1.08,127649,...,10678,48072,17245,52842,3523,290125,321633,87973,29988,33099
R14000,神奈川県,9232000,8991000,1053000,5797000,2383000,195535,58836,1.22,89701,...,4984,21377,7605,23872,2012,165014,301379,85076,23065,29394
R23000,愛知県,7495000,7228000,948000,4628000,1920000,231369,53918,1.41,73769,...,3718,17842,6159,16003,1558,148009,319344,79757,22575,30894
R27000,大阪府,8782000,8524000,1002000,5349000,2432000,208681,59780,1.27,97282,...,5442,26431,8184,27297,1573,172365,265161,80890,18350,25978


以下はOR条件の例．OR条件は`|`（パイプ）で繋ぐ．
条件が増えると，中括弧で条件を指定する方法は見にくくなる．
条件が多い場合は，`query`メソッドを使った方がコードの可読性を高められる（[★Quiz Q5](#C1-Q5)）．

In [30]:
# 合計特殊出生率が1.8以上もしくは1.1未満のレコードをすべて抽出
df[(df.合計特殊出生率 >= 1.8) | (df.合計特殊出生率 < 1.1)]

# queryメソッドを使うと，以下のように書ける
# df.query('合計特殊出生率 >= 1.8 | 合計特殊出生率 < 1.1')

Unnamed: 0_level_0,都道府県,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R13000,東京都,14038000,13443000,1535000,9301000,3202000,483372,95404,1.08,127649,...,10678,48072,17245,52842,3523,290125,321633,87973,29988,33099
R47000,沖縄県,1468000,1446000,240000,884000,344000,18157,14535,1.8,13582,...,607,3887,885,2432,614,57108,251735,68318,25189,18429


## データフレームの保存

データフレームの中身をCSV/TSVファイルに保存するにはDataFrameオブジェクトの`to_csv`メソッドを用いる．
以下，データフレーム`df`を`data`ディレクトリにCSVファイルとして保存するコード例．

In [31]:
df.to_csv('data/SSDSE-E-2024.csv')

`to_csv`メソッドは指定がなければ，データフレームをCSVファイルとして保存する．
TSVファイルとして保存したい場合は，以下のように引数`sep`に`\t`を指定する．
ファイル名の拡張子も`.tsv`としておこう．

In [32]:
df.to_csv('data/SSDSE-E-2024.tsv', sep='\t')

見出しやインデックス（データフレームが割り振った索引名）を保存するかは`header`引数および`index`引数で指定する．
双方の引数ともにデフォルトは`True`（保存する）．

In [33]:
# 以下の場合，見出しはCSVファイルに保存し，インデックスは保存しない
df.to_csv('data/SSDSE-E-2024.csv', header=True, index=False)

## 前処理

### 列名の変更

列名の変更はDataFrameオブジェクトの`rename`メソッドで行う．
`rename`メソッドのの`columns`引数に`{'変更前の列名': '変更後の列名'}`形式の辞書を与えると，列名を変更できる．
`rename`メソッドは列名変更後のDataFrameオブジェクトを返す．

In [34]:
df.rename(columns={'都道府県': 'prefecture'})

Unnamed: 0_level_0,prefecture,総人口,日本人人口,15歳未満人口,15〜64歳人口,65歳以上人口,外国人人口,出生数,合計特殊出生率,死亡数,...,歯科診療所数,医師数,歯科医師数,薬剤師数,保育所等数,保育所等在所児数,消費支出（二人以上の世帯）,食料費（二人以上の世帯）,住居費（二人以上の世帯）,教養娯楽費（二人以上の世帯）
地域コード,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
R00000,全国,124947000,122031000,14503000,74208000,36236000,2402460,811622,1.30,1439856,...,67899,339623,107443,321982,29994,2643196,290865,77474,18645,26642
R01000,北海道,5140000,5098000,530000,2924000,1686000,34321,28762,1.20,69023,...,2818,13731,4418,11802,1075,76885,277737,73037,24873,27234
R02000,青森県,1204000,1198000,123000,663000,419000,5409,6513,1.31,18785,...,505,2773,735,2345,472,30738,249660,73725,10541,20068
R03000,岩手県,1181000,1173000,125000,648000,408000,6937,6472,1.30,17631,...,557,2700,1016,2536,393,28580,285815,77251,18814,25733
R04000,宮城県,2280000,2256000,258000,1363000,659000,19453,13761,1.15,25897,...,1051,5950,1896,5502,506,40519,287781,78589,22951,26516
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
R43000,熊本県,1718000,1699000,223000,943000,552000,14591,12670,1.59,22093,...,835,5415,1377,4036,623,52158,281836,70132,30323,24428
R44000,大分県,1107000,1092000,131000,600000,376000,10168,7327,1.54,15104,...,530,3370,740,2317,335,26578,298060,75218,18820,28260
R45000,宮崎県,1052000,1044000,136000,565000,352000,6474,7590,1.64,14520,...,493,2879,731,2272,420,30732,271613,70162,15433,21950
R46000,鹿児島県,1563000,1550000,201000,838000,523000,10037,11618,1.65,21979,...,795,4653,1352,3266,582,40357,279101,70070,20822,22440


### 新しい列の追加

DataFrameオブジェクトに新しい列を追加する最も単純な方法は，中括弧で新規で追加する列に「アクセス」して値を代入する方法である．
以下は，データフレーム`df`に`生産年齢人口率`という列名を追加して，`15〜64歳人口`列の値を`総人口`列の値で割った値を代入するコード例である．

In [35]:
df['生産年齢人口率'] = df['15〜64歳人口'] / df['総人口']

DataFrameオブジェクトに新しい列を追加するもう1つの方法は`assign`メソッドを用いる方法である．
`assign`メソッドを用いると，複数の列を同時に追加できる．

以下は，データフレーム`df`に`生産年齢人口率`に加えて，`医師数`列，`歯科医師数`列，`薬剤師数`列の値の合計値を格納した`医療従事者数`という列を追加するコード例である．
なお，`assign`メソッドは返り値として列を追加後のDataFrameオブジェクトを返すことに注意（元のDataFrameオブジェクトを変更しない）．
また，`assign`メソッドを使用するときは，代入先の列名はクオーツ（'）で包まない（文字列リテラルにする）ことに注意（[★Quiz Q6](#C1-Q6)，[★Quiz Q7](#C1-Q7)）．

In [36]:
df = df.assign(
    生産年齢人口率 = df['15〜64歳人口'] / df['総人口'],
    医療従事者数 = df['医師数'] + df['歯科医師数'] + df['薬剤師数']
)

### NumPy行列の取得

DataFrameオブジェクトからNumPy形式の（数値）行列を取り出すには，DataFrameオブジェクトの`values`メソッドを用いる．
以下は，データフレーム`df`から`総人口`，`日本人人口`，`外国人人口`を抜き出して，NumPy行列（ndarray）に変換するコード例である．

In [37]:
target_columns = ['総人口', '日本人人口', '外国人人口']
df[target_columns].values

array([[124947000, 122031000,   2402460],
       [  5140000,   5098000,     34321],
       [  1204000,   1198000,      5409],
       [  1181000,   1173000,      6937],
       [  2280000,   2256000,     19453],
       [   930000,    926000,      3651],
       [  1041000,   1033000,      7149],
       [  1790000,   1776000,     12868],
       [  2840000,   2767000,     57819],
       [  1909000,   1865000,     37408],
       [  1913000,   1850000,     53432],
       [  7337000,   7136000,    161439],
       [  6266000,   6100000,    142177],
       [ 14038000,  13443000,    483372],
       [  9232000,   8991000,    195535],
       [  2153000,   2136000,     15028],
       [  1017000,    998000,     16326],
       [  1118000,   1102000,     13685],
       [   753000,    738000,     13796],
       [   802000,    784000,     13993],
       [  2020000,   1984000,     31491],
       [  1946000,   1888000,     48979],
       [  3582000,   3484000,     86046],
       [  7495000,   7228000,    2

---

## クイズ
以下のクイズの回答にGoogle Colaboratoryを使いたい方は[コチラ](https://colab.research.google.com/github/hontolab-courses/ml-lecturenote/blob/main/content/quiz/introduction-to-pandas.ipynb)をクリック．

(C1-Q1)=
### Q1: データの読み込み
[pokemonData](https://github.com/lgreski/pokemonData)は，ポケットモンスターシリーズに登場するポケモンの能力値をまとめたデータセットである．
[コチラ](https://raw.githubusercontent.com/lgreski/pokemonData/refs/heads/master/Pokemon.csv)のURLからCSVファイルをダウンロードし，その内容をpandasデータフレームに変換して変数`pokemon_df`に代入しなさい．
さらに，`pokemon_df`の中身を確認しなさい．

(C1-Q2)=
### Q2: データの確認
データフレーム`pokemon_df`で取り扱われているポケモンの数（行数）および列数を調べなさい．

(C1-Q3)=
### Q3: HP, 攻撃力, 防御力
データフレーム`pokemon_df`で扱われているポケモンの`HP`，攻撃力（`Attack`），防御力（`Defense`）の平均値を調べなさい．

(C1-Q4)=
### Q4: 第9世代
データフレーム`pokemon_df`の中で，第9世代（スカーレット・ヴァイオレット）のポケモンの情報を表示しなさい．

(C1-Q5)=
### Q5: ゴーストタイプ
データフレーム`pokemon_df`の中で「ゴースト（Ghost）」タイプのポケモンの情報を表示しなさい．

(C1-Q6)=
### Q6: 偏差値
データフレーム`pokemon_df`の情報によると，`Total`値の平均値は443.1，標準偏差は121.2である．
この値を用いてデータフレーム`pokemon_df`中の各ポケモンの`Total`値に関する偏差値を算出しなさい．
また，計算した偏差値を`pokemon_df`の列`Total_Z_score`に格納しなさい．

なお，$x$の平均値を$\mu$，標準偏差を$\sigma$としたとき，$x$の偏差値$z$は以下の式で計算できる：
    
$$
z = \frac{x - \mu}{\sigma} \times 10 + 50
$$

(C1-Q7)=
### Q7: データフレームの保存
`Total`の偏差値に関する列を追加したデータフレーム`pokemon_df`をTSVファイルとして保存しなさい．
また，保存したTSVファイルをテキストエディタやExcelなどを用いて確認しなさい．
なお，TSVファイル名は`pokemon.tsv`とし，見出し（列名）をファイル内に含めるようにすること．