# pandas入門

## クイズ

### Q1: データの読み込み
[pokemonData](https://github.com/lgreski/pokemonData)は，ポケットモンスターシリーズに登場するポケモンの能力値をまとめたデータセットである．
[コチラ](https://raw.githubusercontent.com/lgreski/pokemonData/refs/heads/master/Pokemon.csv)のURLからCSVファイルをダウンロードし，その内容をpandasデータフレームに変換して変数`pokemon_df`に代入しなさい．
さらに，`pokemon_df`の中身を確認しなさい．

In [1]:
import pandas as pd

pokemon_df = pd.read_table(
    'https://raw.githubusercontent.com/lgreski/pokemonData/refs/heads/master/Pokemon.csv', sep=',', na_values=[' '])

### Q2: データの確認
データフレーム`pokemon_df`で取り扱われているポケモンの数（行数）および列数を調べなさい．

In [2]:
pokemon_df.shape

(1215, 13)

### Q3: HP, 攻撃力, 防御力
データフレーム`pokemon_df`で扱われているポケモンの`HP`，攻撃力（`Attack`），防御力（`Defense`）の平均値を調べなさい．

In [3]:
pokemon_df[['HP', 'Attack', 'Defense']].describe()

# 以下のほうが分かりやすい
# target_columns = ['HP', 'Attack', 'Defense']
# pokemon_df[target_columns].describe()

Unnamed: 0,HP,Attack,Defense
count,1215.0,1215.0,1215.0
mean,71.244444,81.152263,75.007407
std,26.927819,32.037134,30.740999
min,1.0,5.0,5.0
25%,52.0,57.0,52.0
50%,70.0,80.0,70.0
75%,85.0,100.0,91.0
max,255.0,190.0,250.0


### Q4: 第9世代
データフレーム`pokemon_df`の中で，第9世代（スカーレット・ヴァイオレット）のポケモンの情報を表示しなさい．

In [4]:
pokemon_df[pokemon_df.Generation == 9]

Unnamed: 0,ID,Name,Form,Type1,Type2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
1075,128,Tauros,Combat Breed,Fighting,,490,75,110,105,30,70,100,9
1076,128,Tauros,Blaze Breed,Fighting,Fire,490,75,110,105,30,70,100,9
1077,128,Tauros,Aqua Breed,Fighting,Water,490,75,110,105,30,70,100,9
1078,194,Wooper,Paldean Wooper,Poison,Ground,210,55,45,45,25,25,15,9
1079,901,Ursaluna,Bloodmoon,Ground,Normal,555,113,70,120,135,65,52,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1210,1023,Iron Crown,,Steel,Psychic,590,90,72,100,122,108,98,9
1211,1024,Terapagos,Normal Form,Normal,,450,90,65,85,65,85,60,9
1212,1024,Terapagos,Terastal Form,Normal,,600,95,95,110,105,110,85,9
1213,1024,Terapagos,Stellar Form,Normal,,700,160,105,110,130,110,85,9


### Q5: ゴーストタイプ
データフレーム`pokemon_df`の中で「ゴースト（Ghost）」タイプのポケモンの情報を表示しなさい．

In [5]:
pokemon_df[(pokemon_df.Type1 == 'Ghost') | (pokemon_df.Type2 == 'Ghost')]

# 以下でもOK
# pokemon_df.query('Type1 == "Ghost" or Type2 == "Ghost"')

Unnamed: 0,ID,Name,Form,Type1,Type2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
91,92,Gastly,,Ghost,Poison,310,30,35,30,100,35,80,1
92,93,Haunter,,Ghost,Poison,405,45,50,45,115,55,95,1
93,94,Gengar,,Ghost,Poison,500,60,65,60,130,75,110,1
199,200,Misdreavus,,Ghost,,435,60,60,60,85,85,85,2
291,292,Shedinja,,Bug,Ghost,236,1,90,45,30,30,40,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1183,999,Gimmighoul,Roaming Form,Ghost,,300,45,30,25,75,45,80,9
1184,1000,Gholdengo,,Steel,Ghost,550,87,60,95,133,91,84,9
1196,1012,Poltchageist,,Grass,Ghost,308,40,45,45,74,54,50,9
1197,1013,Sinistcha,,Grass,Ghost,508,71,60,106,121,80,70,9


### Q6: 偏差値
データフレーム`pokemon_df`の情報によると，`Total`値の平均値は443.1，標準偏差は121.2である．
この値を用いてデータフレーム`pokemon_df`中の各ポケモンの`Total`値に関する偏差値を算出しなさい．
また，計算した偏差値を`pokemon_df`の列`Total_Z_score`に格納しなさい．

なお，$x$の平均値を$\mu$，標準偏差を$\sigma$としたとき，$x$の偏差値$z$は以下の式で計算できる：
$$
z = \frac{x - \mu}{\sigma} \times 10 + 50
$$

In [6]:
pokemon_df['Total_Z_score'] = ((pokemon_df.Total - 443.1) / 121.2) * 10 + 50

### Q7: データフレームの保存
`Total`の偏差値に関する列を追加したデータフレーム`pokemon_df`をTSVファイルとして保存しなさい．
また，保存したTSVファイルをテキストエディタやExcelなどを用いて確認しなさい．
なお，TSVファイル名は`pokemon.tsv`とし，見出し（列名）をファイル内に含めるようにすること．

In [7]:
pokemon_df.to_csv('pokemon.tsv', sep='\t', header=True)