{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "user_expressions": []
   },
   "source": [
    "# 決定木から始める機械学習"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "このHands-onでは，機械学習手法のひとつである**決定木**を使って，あらかじめ与えられたデータから，未知データを分類する規則を抽出・適用する**教師あり学習**を体験する．\n",
    "このHands-onで用いるデータは以下の通り：\n",
    "\n",
    "* アヤメ（花の種類）のデータ\n",
    "* タイタニック号の乗船者データ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "まず，必要なライブラリを準備しよう．\n",
    "Google Colaboratory（もしくはJupyter）に\n",
    "* graphviz\n",
    "* category_encoders\n",
    "\n",
    "の2つのライブラリをインストールするために， 以下のコードを実行しよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "tags": [
     "remove-out"
    ]
   },
   "outputs": [],
   "source": [
    "try:\n",
    "    import category_encoders\n",
    "    import graphviz\n",
    "except:\n",
    "    !pip install graphviz\n",
    "    !pip install category_encoders"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "続けて，必要なライブラリを読み込む．\n",
    "以下のコードを実行しよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 表形式のデータを操作するためのライブラリ\n",
    "import pandas as pd\n",
    "\n",
    "# 機械学習用ライブラリsklearn\n",
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.tree import DecisionTreeClassifier\n",
    "from sklearn.metrics import accuracy_score\n",
    "from sklearn.tree import export_graphviz\n",
    "\n",
    "# その他\n",
    "import category_encoders\n",
    "\n",
    "# グラフ描画ライブラリ\n",
    "from graphviz import Source\n",
    "import matplotlib.pyplot as plt\n",
    "%matplotlib inline"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "\n",
    "---\n",
    "## 例題1: アヤメ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "データマイニングや機械学習を学ぶ際，例題データとしてアヤメ（英語名:Iris）データがよく用いられる（[アヤメ](https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%A4%E3%83%A1)は植物の1つ）． \n",
    "決定木アルゴリズムを体験する題材として，このHands-onでもアヤメデータを使ってみよう．\n",
    "\n",
    "以下のコードを実行して，アヤメのデータを読み込みむ．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>sepal_length</th>\n",
       "      <th>sepal_width</th>\n",
       "      <th>petal_length</th>\n",
       "      <th>petal_width</th>\n",
       "      <th>species</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>5.1</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.4</td>\n",
       "      <td>0.2</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>4.9</td>\n",
       "      <td>3.0</td>\n",
       "      <td>1.4</td>\n",
       "      <td>0.2</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>4.7</td>\n",
       "      <td>3.2</td>\n",
       "      <td>1.3</td>\n",
       "      <td>0.2</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4.6</td>\n",
       "      <td>3.1</td>\n",
       "      <td>1.5</td>\n",
       "      <td>0.2</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5.0</td>\n",
       "      <td>3.6</td>\n",
       "      <td>1.4</td>\n",
       "      <td>0.2</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   sepal_length  sepal_width  petal_length  petal_width species\n",
       "0           5.1          3.5           1.4          0.2  setosa\n",
       "1           4.9          3.0           1.4          0.2  setosa\n",
       "2           4.7          3.2           1.3          0.2  setosa\n",
       "3           4.6          3.1           1.5          0.2  setosa\n",
       "4           5.0          3.6           1.4          0.2  setosa"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from sklearn import datasets\n",
    "\n",
    "# Iris（アヤメ）の大きさに関するデータをロード\n",
    "iris = datasets.load_iris()\n",
    "iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)\n",
    "iris_df['species'] = iris.target_names[iris.target]\n",
    "\n",
    "# 簡単のために，カラム名を修正しておく\n",
    "iris_df = iris_df.rename(\n",
    "    columns = {\n",
    "        'sepal length (cm)': 'sepal_length',\n",
    "        'sepal width (cm)': 'sepal_width',\n",
    "        'petal length (cm)': 'petal_length',\n",
    "        'petal width (cm)': 'petal_width'\n",
    "    }\n",
    ")\n",
    "\n",
    "# 最初の数件を表示\n",
    "iris_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "このアヤメデータには，花弁（petal）の長さ・幅，がく（sepal）の長さ・幅，品種が記されている．\n",
    "例題1の目標は，**花弁の長さ・幅，がくの長さ・幅から品種を推定する予測モデルの構築**である．\n",
    "早速，決定木を用いて予測モデルを構築してみよう．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "一般に教師あり学習で予測を行うモデルを構築する際には，データを**学習用（訓練）データ**と**評価用データ**に分割してデータ分析を行う．\n",
    "以下のコードを実行して，先ほど用意したデータを学習用（70%）と評価用（30%）に分割する．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# データを学習用（70%）と評価用（30%）に分割する\n",
    "iris_train_df, iris_test_df = train_test_split(\n",
    "                                iris_df, test_size=0.3,\n",
    "                                random_state=1,\n",
    "                                stratify=iris_df.species)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "変数``iris_test_df``には品種情報も含まれる．\n",
    "予測モデルの性能評価の際には，品種情報が未知であるとして予測を行い，予測結果と（隠しておいた）品種情報を照らし合わせて評価することになる．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "では，教師あり学習のひとつである決定木アルゴリズムを適用してみよう．\n",
    "``iris_train_df``に決定木アルゴリズムを適用して，品種を見分けるルールを抽出（学習）しよう．\n",
    "\n",
    "決定木アルゴリズムは`sklearn`ライブラリの``DecisionTreeClassifier``クラスを使って実行できる．\n",
    "下記コードを実行してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "DecisionTreeClassifier(criterion='entropy', random_state=12345)"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# X_trainは，品種（Species）以外のすべての指標\n",
    "features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']\n",
    "X_train = iris_train_df[features]\n",
    "\n",
    "# y_trainは品種の指標\n",
    "y_train = iris_train_df.species\n",
    "\n",
    "# 学習\n",
    "model = DecisionTreeClassifier(criterion='entropy',\n",
    "                               random_state=12345) # 初期値を固定\n",
    "model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "品種を予測するルールが学習された．\n",
    "以下のコードを実行して，予測ルールをわかりやすく可視化してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/svg+xml": [
       "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"no\"?>\n",
       "<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n",
       " \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n",
       "<!-- Generated by graphviz version 9.0.0 (20230911.1827)\n",
       " -->\n",
       "<!-- Title: Tree Pages: 1 -->\n",
       "<svg width=\"743pt\" height=\"1028pt\"\n",
       " viewBox=\"0.00 0.00 742.75 1028.00\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\n",
       "<g id=\"graph0\" class=\"graph\" transform=\"scale(1 1) rotate(0) translate(4 1024)\">\n",
       "<title>Tree</title>\n",
       "<polygon fill=\"white\" stroke=\"none\" points=\"-4,4 -4,-1024 738.75,-1024 738.75,4 -4,4\"/>\n",
       "<!-- 0 -->\n",
       "<g id=\"node1\" class=\"node\">\n",
       "<title>0</title>\n",
       "<path fill=\"#ffffff\" stroke=\"black\" d=\"M488.25,-1020C488.25,-1020 324.5,-1020 324.5,-1020 318.5,-1020 312.5,-1014 312.5,-1008 312.5,-1008 312.5,-949 312.5,-949 312.5,-943 318.5,-937 324.5,-937 324.5,-937 488.25,-937 488.25,-937 494.25,-937 500.25,-943 500.25,-949 500.25,-949 500.25,-1008 500.25,-1008 500.25,-1014 494.25,-1020 488.25,-1020\"/>\n",
       "<text text-anchor=\"middle\" x=\"406.38\" y=\"-1002.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_length &lt;= 2.6</text>\n",
       "<text text-anchor=\"middle\" x=\"406.38\" y=\"-987.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 1.585</text>\n",
       "<text text-anchor=\"middle\" x=\"406.38\" y=\"-972.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 100.0%</text>\n",
       "<text text-anchor=\"middle\" x=\"406.38\" y=\"-957.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.333, 0.333, 0.333]</text>\n",
       "<text text-anchor=\"middle\" x=\"406.38\" y=\"-942.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = setosa</text>\n",
       "</g>\n",
       "<!-- 1 -->\n",
       "<g id=\"node2\" class=\"node\">\n",
       "<title>1</title>\n",
       "<path fill=\"#e58139\" stroke=\"black\" d=\"M385.75,-893.5C385.75,-893.5 267,-893.5 267,-893.5 261,-893.5 255,-887.5 255,-881.5 255,-881.5 255,-837.5 255,-837.5 255,-831.5 261,-825.5 267,-825.5 267,-825.5 385.75,-825.5 385.75,-825.5 391.75,-825.5 397.75,-831.5 397.75,-837.5 397.75,-837.5 397.75,-881.5 397.75,-881.5 397.75,-887.5 391.75,-893.5 385.75,-893.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"326.38\" y=\"-876.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"326.38\" y=\"-861.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 33.3%</text>\n",
       "<text text-anchor=\"middle\" x=\"326.38\" y=\"-846.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [1.0, 0.0, 0.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"326.38\" y=\"-831.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = setosa</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;1 -->\n",
       "<g id=\"edge1\" class=\"edge\">\n",
       "<title>0&#45;&gt;1</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M378.39,-936.58C371.01,-925.77 363.02,-914.09 355.57,-903.19\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"358.57,-901.39 350.04,-895.11 352.8,-905.34 358.57,-901.39\"/>\n",
       "<text text-anchor=\"middle\" x=\"344.57\" y=\"-912.63\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">True</text>\n",
       "</g>\n",
       "<!-- 2 -->\n",
       "<g id=\"node3\" class=\"node\">\n",
       "<title>2</title>\n",
       "<path fill=\"#ffffff\" stroke=\"black\" d=\"M546.75,-901C546.75,-901 428,-901 428,-901 422,-901 416,-895 416,-889 416,-889 416,-830 416,-830 416,-824 422,-818 428,-818 428,-818 546.75,-818 546.75,-818 552.75,-818 558.75,-824 558.75,-830 558.75,-830 558.75,-889 558.75,-889 558.75,-895 552.75,-901 546.75,-901\"/>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-883.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_length &lt;= 4.75</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-868.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 1.0</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-853.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 66.7%</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-838.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.5, 0.5]</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-823.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;2 -->\n",
       "<g id=\"edge2\" class=\"edge\">\n",
       "<title>0&#45;&gt;2</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M434.7,-936.58C440.53,-928.16 446.73,-919.2 452.76,-910.5\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"455.52,-912.66 458.34,-902.44 449.77,-908.67 455.52,-912.66\"/>\n",
       "<text text-anchor=\"middle\" x=\"463.67\" y=\"-920\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">False</text>\n",
       "</g>\n",
       "<!-- 3 -->\n",
       "<g id=\"node4\" class=\"node\">\n",
       "<title>3</title>\n",
       "<path fill=\"#39e581\" stroke=\"black\" d=\"M458.75,-774.5C458.75,-774.5 340,-774.5 340,-774.5 334,-774.5 328,-768.5 328,-762.5 328,-762.5 328,-718.5 328,-718.5 328,-712.5 334,-706.5 340,-706.5 340,-706.5 458.75,-706.5 458.75,-706.5 464.75,-706.5 470.75,-712.5 470.75,-718.5 470.75,-718.5 470.75,-762.5 470.75,-762.5 470.75,-768.5 464.75,-774.5 458.75,-774.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"399.38\" y=\"-757.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"399.38\" y=\"-742.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 28.6%</text>\n",
       "<text text-anchor=\"middle\" x=\"399.38\" y=\"-727.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 1.0, 0.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"399.38\" y=\"-712.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;3 -->\n",
       "<g id=\"edge3\" class=\"edge\">\n",
       "<title>2&#45;&gt;3</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M456.6,-817.58C448.39,-806.66 439.5,-794.85 431.24,-783.86\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"434.19,-781.96 425.38,-776.07 428.59,-786.17 434.19,-781.96\"/>\n",
       "</g>\n",
       "<!-- 4 -->\n",
       "<g id=\"node5\" class=\"node\">\n",
       "<title>4</title>\n",
       "<path fill=\"#9355e9\" stroke=\"black\" d=\"M649.75,-782C649.75,-782 501,-782 501,-782 495,-782 489,-776 489,-770 489,-770 489,-711 489,-711 489,-705 495,-699 501,-699 501,-699 649.75,-699 649.75,-699 655.75,-699 661.75,-705 661.75,-711 661.75,-711 661.75,-770 661.75,-770 661.75,-776 655.75,-782 649.75,-782\"/>\n",
       "<text text-anchor=\"middle\" x=\"575.38\" y=\"-764.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_length &lt;= 5.15</text>\n",
       "<text text-anchor=\"middle\" x=\"575.38\" y=\"-749.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.544</text>\n",
       "<text text-anchor=\"middle\" x=\"575.38\" y=\"-734.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 38.1%</text>\n",
       "<text text-anchor=\"middle\" x=\"575.38\" y=\"-719.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.125, 0.875]</text>\n",
       "<text text-anchor=\"middle\" x=\"575.38\" y=\"-704.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;4 -->\n",
       "<g id=\"edge4\" class=\"edge\">\n",
       "<title>2&#45;&gt;4</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M518.15,-817.58C524.55,-809.07 531.37,-800.01 537.97,-791.23\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"540.64,-793.51 543.85,-783.41 535.04,-789.3 540.64,-793.51\"/>\n",
       "</g>\n",
       "<!-- 5 -->\n",
       "<g id=\"node6\" class=\"node\">\n",
       "<title>5</title>\n",
       "<path fill=\"#c09cf2\" stroke=\"black\" d=\"M561.75,-663C561.75,-663 413,-663 413,-663 407,-663 401,-657 401,-651 401,-651 401,-592 401,-592 401,-586 407,-580 413,-580 413,-580 561.75,-580 561.75,-580 567.75,-580 573.75,-586 573.75,-592 573.75,-592 573.75,-651 573.75,-651 573.75,-657 567.75,-663 561.75,-663\"/>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-645.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_width &lt;= 1.85</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-630.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.918</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-615.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 14.3%</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-600.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.333, 0.667]</text>\n",
       "<text text-anchor=\"middle\" x=\"487.38\" y=\"-585.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 4&#45;&gt;5 -->\n",
       "<g id=\"edge5\" class=\"edge\">\n",
       "<title>4&#45;&gt;5</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M544.6,-698.58C538.2,-690.07 531.38,-681.01 524.78,-672.23\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"527.71,-670.3 518.9,-664.41 522.11,-674.51 527.71,-670.3\"/>\n",
       "</g>\n",
       "<!-- 16 -->\n",
       "<g id=\"node17\" class=\"node\">\n",
       "<title>16</title>\n",
       "<path fill=\"#8139e5\" stroke=\"black\" d=\"M722.75,-655.5C722.75,-655.5 604,-655.5 604,-655.5 598,-655.5 592,-649.5 592,-643.5 592,-643.5 592,-599.5 592,-599.5 592,-593.5 598,-587.5 604,-587.5 604,-587.5 722.75,-587.5 722.75,-587.5 728.75,-587.5 734.75,-593.5 734.75,-599.5 734.75,-599.5 734.75,-643.5 734.75,-643.5 734.75,-649.5 728.75,-655.5 722.75,-655.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"663.38\" y=\"-638.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"663.38\" y=\"-623.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 23.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"663.38\" y=\"-608.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.0, 1.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"663.38\" y=\"-593.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 4&#45;&gt;16 -->\n",
       "<g id=\"edge16\" class=\"edge\">\n",
       "<title>4&#45;&gt;16</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M606.15,-698.58C614.36,-687.66 623.25,-675.85 631.51,-664.86\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"634.16,-667.17 637.37,-657.07 628.56,-662.96 634.16,-667.17\"/>\n",
       "</g>\n",
       "<!-- 6 -->\n",
       "<g id=\"node7\" class=\"node\">\n",
       "<title>6</title>\n",
       "<path fill=\"#ffffff\" stroke=\"black\" d=\"M466.75,-544C466.75,-544 348,-544 348,-544 342,-544 336,-538 336,-532 336,-532 336,-473 336,-473 336,-467 342,-461 348,-461 348,-461 466.75,-461 466.75,-461 472.75,-461 478.75,-467 478.75,-473 478.75,-473 478.75,-532 478.75,-532 478.75,-538 472.75,-544 466.75,-544\"/>\n",
       "<text text-anchor=\"middle\" x=\"407.38\" y=\"-526.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">sepal_width &lt;= 3.05</text>\n",
       "<text text-anchor=\"middle\" x=\"407.38\" y=\"-511.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 1.0</text>\n",
       "<text text-anchor=\"middle\" x=\"407.38\" y=\"-496.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 9.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"407.38\" y=\"-481.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.5, 0.5]</text>\n",
       "<text text-anchor=\"middle\" x=\"407.38\" y=\"-466.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;6 -->\n",
       "<g id=\"edge6\" class=\"edge\">\n",
       "<title>5&#45;&gt;6</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M459.39,-579.58C453.64,-571.16 447.51,-562.2 441.56,-553.5\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"444.59,-551.73 436.06,-545.45 438.81,-555.68 444.59,-551.73\"/>\n",
       "</g>\n",
       "<!-- 15 -->\n",
       "<g id=\"node16\" class=\"node\">\n",
       "<title>15</title>\n",
       "<path fill=\"#8139e5\" stroke=\"black\" d=\"M627.75,-536.5C627.75,-536.5 509,-536.5 509,-536.5 503,-536.5 497,-530.5 497,-524.5 497,-524.5 497,-480.5 497,-480.5 497,-474.5 503,-468.5 509,-468.5 509,-468.5 627.75,-468.5 627.75,-468.5 633.75,-468.5 639.75,-474.5 639.75,-480.5 639.75,-480.5 639.75,-524.5 639.75,-524.5 639.75,-530.5 633.75,-536.5 627.75,-536.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"568.38\" y=\"-519.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"568.38\" y=\"-504.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 4.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"568.38\" y=\"-489.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.0, 1.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"568.38\" y=\"-474.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;15 -->\n",
       "<g id=\"edge15\" class=\"edge\">\n",
       "<title>5&#45;&gt;15</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M515.7,-579.58C523.19,-568.77 531.28,-557.09 538.82,-546.19\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"541.6,-548.32 544.42,-538.11 535.85,-544.34 541.6,-548.32\"/>\n",
       "</g>\n",
       "<!-- 7 -->\n",
       "<g id=\"node8\" class=\"node\">\n",
       "<title>7</title>\n",
       "<path fill=\"#cdb0f5\" stroke=\"black\" d=\"M393.75,-425C393.75,-425 245,-425 245,-425 239,-425 233,-419 233,-413 233,-413 233,-354 233,-354 233,-348 239,-342 245,-342 245,-342 393.75,-342 393.75,-342 399.75,-342 405.75,-348 405.75,-354 405.75,-354 405.75,-413 405.75,-413 405.75,-419 399.75,-425 393.75,-425\"/>\n",
       "<text text-anchor=\"middle\" x=\"319.38\" y=\"-407.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_width &lt;= 1.75</text>\n",
       "<text text-anchor=\"middle\" x=\"319.38\" y=\"-392.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.954</text>\n",
       "<text text-anchor=\"middle\" x=\"319.38\" y=\"-377.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 7.6%</text>\n",
       "<text text-anchor=\"middle\" x=\"319.38\" y=\"-362.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.375, 0.625]</text>\n",
       "<text text-anchor=\"middle\" x=\"319.38\" y=\"-347.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 6&#45;&gt;7 -->\n",
       "<g id=\"edge7\" class=\"edge\">\n",
       "<title>6&#45;&gt;7</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M376.6,-460.58C370.2,-452.07 363.38,-443.01 356.78,-434.23\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"359.71,-432.3 350.9,-426.41 354.11,-436.51 359.71,-432.3\"/>\n",
       "</g>\n",
       "<!-- 14 -->\n",
       "<g id=\"node15\" class=\"node\">\n",
       "<title>14</title>\n",
       "<path fill=\"#39e581\" stroke=\"black\" d=\"M554.75,-417.5C554.75,-417.5 436,-417.5 436,-417.5 430,-417.5 424,-411.5 424,-405.5 424,-405.5 424,-361.5 424,-361.5 424,-355.5 430,-349.5 436,-349.5 436,-349.5 554.75,-349.5 554.75,-349.5 560.75,-349.5 566.75,-355.5 566.75,-361.5 566.75,-361.5 566.75,-405.5 566.75,-405.5 566.75,-411.5 560.75,-417.5 554.75,-417.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"495.38\" y=\"-400.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"495.38\" y=\"-385.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 1.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"495.38\" y=\"-370.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 1.0, 0.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"495.38\" y=\"-355.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 6&#45;&gt;14 -->\n",
       "<g id=\"edge14\" class=\"edge\">\n",
       "<title>6&#45;&gt;14</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M438.15,-460.58C446.36,-449.66 455.25,-437.85 463.51,-426.86\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"466.16,-429.17 469.37,-419.07 460.56,-424.96 466.16,-429.17\"/>\n",
       "</g>\n",
       "<!-- 8 -->\n",
       "<g id=\"node9\" class=\"node\">\n",
       "<title>8</title>\n",
       "<path fill=\"#bdf6d5\" stroke=\"black\" d=\"M298.75,-306C298.75,-306 180,-306 180,-306 174,-306 168,-300 168,-294 168,-294 168,-235 168,-235 168,-229 174,-223 180,-223 180,-223 298.75,-223 298.75,-223 304.75,-223 310.75,-229 310.75,-235 310.75,-235 310.75,-294 310.75,-294 310.75,-300 304.75,-306 298.75,-306\"/>\n",
       "<text text-anchor=\"middle\" x=\"239.38\" y=\"-288.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_width &lt;= 1.55</text>\n",
       "<text text-anchor=\"middle\" x=\"239.38\" y=\"-273.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.971</text>\n",
       "<text text-anchor=\"middle\" x=\"239.38\" y=\"-258.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 4.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"239.38\" y=\"-243.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.6, 0.4]</text>\n",
       "<text text-anchor=\"middle\" x=\"239.38\" y=\"-228.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 7&#45;&gt;8 -->\n",
       "<g id=\"edge8\" class=\"edge\">\n",
       "<title>7&#45;&gt;8</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M291.39,-341.58C285.64,-333.16 279.51,-324.2 273.56,-315.5\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"276.59,-313.73 268.06,-307.45 270.81,-317.68 276.59,-313.73\"/>\n",
       "</g>\n",
       "<!-- 13 -->\n",
       "<g id=\"node14\" class=\"node\">\n",
       "<title>13</title>\n",
       "<path fill=\"#8139e5\" stroke=\"black\" d=\"M459.75,-298.5C459.75,-298.5 341,-298.5 341,-298.5 335,-298.5 329,-292.5 329,-286.5 329,-286.5 329,-242.5 329,-242.5 329,-236.5 335,-230.5 341,-230.5 341,-230.5 459.75,-230.5 459.75,-230.5 465.75,-230.5 471.75,-236.5 471.75,-242.5 471.75,-242.5 471.75,-286.5 471.75,-286.5 471.75,-292.5 465.75,-298.5 459.75,-298.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"400.38\" y=\"-281.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"400.38\" y=\"-266.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 2.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"400.38\" y=\"-251.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.0, 1.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"400.38\" y=\"-236.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 7&#45;&gt;13 -->\n",
       "<g id=\"edge13\" class=\"edge\">\n",
       "<title>7&#45;&gt;13</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M347.7,-341.58C355.19,-330.77 363.28,-319.09 370.82,-308.19\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"373.6,-310.32 376.42,-300.11 367.85,-306.34 373.6,-310.32\"/>\n",
       "</g>\n",
       "<!-- 9 -->\n",
       "<g id=\"node10\" class=\"node\">\n",
       "<title>9</title>\n",
       "<path fill=\"#c09cf2\" stroke=\"black\" d=\"M225.75,-187C225.75,-187 77,-187 77,-187 71,-187 65,-181 65,-175 65,-175 65,-116 65,-116 65,-110 71,-104 77,-104 77,-104 225.75,-104 225.75,-104 231.75,-104 237.75,-110 237.75,-116 237.75,-116 237.75,-175 237.75,-175 237.75,-181 231.75,-187 225.75,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"151.38\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">petal_length &lt;= 4.95</text>\n",
       "<text text-anchor=\"middle\" x=\"151.38\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.918</text>\n",
       "<text text-anchor=\"middle\" x=\"151.38\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 2.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"151.38\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.333, 0.667]</text>\n",
       "<text text-anchor=\"middle\" x=\"151.38\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;9 -->\n",
       "<g id=\"edge9\" class=\"edge\">\n",
       "<title>8&#45;&gt;9</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M208.6,-222.58C202.2,-214.07 195.38,-205.01 188.78,-196.23\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"191.71,-194.3 182.9,-188.41 186.11,-198.51 191.71,-194.3\"/>\n",
       "</g>\n",
       "<!-- 12 -->\n",
       "<g id=\"node13\" class=\"node\">\n",
       "<title>12</title>\n",
       "<path fill=\"#39e581\" stroke=\"black\" d=\"M386.75,-179.5C386.75,-179.5 268,-179.5 268,-179.5 262,-179.5 256,-173.5 256,-167.5 256,-167.5 256,-123.5 256,-123.5 256,-117.5 262,-111.5 268,-111.5 268,-111.5 386.75,-111.5 386.75,-111.5 392.75,-111.5 398.75,-117.5 398.75,-123.5 398.75,-123.5 398.75,-167.5 398.75,-167.5 398.75,-173.5 392.75,-179.5 386.75,-179.5\"/>\n",
       "<text text-anchor=\"middle\" x=\"327.38\" y=\"-162.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"327.38\" y=\"-147.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 1.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"327.38\" y=\"-132.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 1.0, 0.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"327.38\" y=\"-117.2\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;12 -->\n",
       "<g id=\"edge12\" class=\"edge\">\n",
       "<title>8&#45;&gt;12</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M270.15,-222.58C278.36,-211.66 287.25,-199.85 295.51,-188.86\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"298.16,-191.17 301.37,-181.07 292.56,-186.96 298.16,-191.17\"/>\n",
       "</g>\n",
       "<!-- 10 -->\n",
       "<g id=\"node11\" class=\"node\">\n",
       "<title>10</title>\n",
       "<path fill=\"#39e581\" stroke=\"black\" d=\"M130.75,-68C130.75,-68 12,-68 12,-68 6,-68 0,-62 0,-56 0,-56 0,-12 0,-12 0,-6 6,0 12,0 12,0 130.75,0 130.75,0 136.75,0 142.75,-6 142.75,-12 142.75,-12 142.75,-56 142.75,-56 142.75,-62 136.75,-68 130.75,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"71.38\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"71.38\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 1.0%</text>\n",
       "<text text-anchor=\"middle\" x=\"71.38\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 1.0, 0.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"71.38\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = versicolor</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;10 -->\n",
       "<g id=\"edge10\" class=\"edge\">\n",
       "<title>9&#45;&gt;10</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M121.59,-103.73C115.32,-95.15 108.7,-86.09 102.39,-77.46\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"105.32,-75.53 96.6,-69.52 99.67,-79.66 105.32,-75.53\"/>\n",
       "</g>\n",
       "<!-- 11 -->\n",
       "<g id=\"node12\" class=\"node\">\n",
       "<title>11</title>\n",
       "<path fill=\"#8139e5\" stroke=\"black\" d=\"M291.75,-68C291.75,-68 173,-68 173,-68 167,-68 161,-62 161,-56 161,-56 161,-12 161,-12 161,-6 167,0 173,0 173,0 291.75,0 291.75,0 297.75,0 303.75,-6 303.75,-12 303.75,-12 303.75,-56 303.75,-56 303.75,-62 297.75,-68 291.75,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"232.38\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.0</text>\n",
       "<text text-anchor=\"middle\" x=\"232.38\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 1.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"232.38\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.0, 0.0, 1.0]</text>\n",
       "<text text-anchor=\"middle\" x=\"232.38\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = virginica</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;11 -->\n",
       "<g id=\"edge11\" class=\"edge\">\n",
       "<title>9&#45;&gt;11</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M181.54,-103.73C187.88,-95.15 194.58,-86.09 200.97,-77.46\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"203.71,-79.64 206.84,-69.52 198.08,-75.47 203.71,-79.64\"/>\n",
       "</g>\n",
       "</g>\n",
       "</svg>\n"
      ],
      "text/plain": [
       "<graphviz.sources.Source at 0x3500f3820>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Source(export_graphviz(model, out_file=None,\n",
    "                       feature_names=features,\n",
    "                       class_names=['setosa', 'versicolor', 'virginica'],\n",
    "                       proportion=True,\n",
    "                       filled=True, rounded=True # 見た目の調整\n",
    "                      ))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "分類ルールが木のように枝分かれした形で可視化された．\n",
    "この可視化結果が，今回の教師あり学習アルゴリズムが **決定「木」** と呼ばれる所以である．\n",
    "\n",
    "各四角が分類ルールの分岐を表している．\n",
    "四角の下に書かれた文字情報が分岐条件を示している．\n",
    "四角中に書かれた文字は，四角に至るまでに適用された分岐条件を満たすと，\n",
    "* その条件を満たすデータが全体の何パーセントあるか\n",
    "* ラベルごとの分類結果の割合が何パーセントか\n",
    "\n",
    "を示している．\n",
    "例えば，上図の上から3段目の左にある「class=versicolor, value=\\[0.0, 1.00, 0.0\\]」という四角は，\n",
    "* 花弁（petal）の長さが2.6より大きい，かつ花弁（petal）の長さが4.75以下の場合，その個体は100%の確率でversicolorであること\n",
    "* この条件にマッチする個体はデータセットに28.6%存在すること\n",
    "\n",
    "を示している．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "さて，ここまでやったことは予測のためのルール（モデル）の構築であった．\n",
    "構築した予測モデルを使って，未知のデータを予測してみよう．\n",
    "この例題の冒頭で，変数``iris_test_df``に**予測モデルの構築に使われていないデータ**を別途用意していたことを思い出そう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>sepal_length</th>\n",
       "      <th>sepal_width</th>\n",
       "      <th>petal_length</th>\n",
       "      <th>petal_width</th>\n",
       "      <th>species</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>148</th>\n",
       "      <td>6.2</td>\n",
       "      <td>3.4</td>\n",
       "      <td>5.4</td>\n",
       "      <td>2.3</td>\n",
       "      <td>virginica</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>5.4</td>\n",
       "      <td>3.9</td>\n",
       "      <td>1.7</td>\n",
       "      <td>0.4</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>4.6</td>\n",
       "      <td>3.4</td>\n",
       "      <td>1.4</td>\n",
       "      <td>0.3</td>\n",
       "      <td>setosa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>106</th>\n",
       "      <td>4.9</td>\n",
       "      <td>2.5</td>\n",
       "      <td>4.5</td>\n",
       "      <td>1.7</td>\n",
       "      <td>virginica</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>75</th>\n",
       "      <td>6.6</td>\n",
       "      <td>3.0</td>\n",
       "      <td>4.4</td>\n",
       "      <td>1.4</td>\n",
       "      <td>versicolor</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     sepal_length  sepal_width  petal_length  petal_width     species\n",
       "148           6.2          3.4           5.4          2.3   virginica\n",
       "5             5.4          3.9           1.7          0.4      setosa\n",
       "6             4.6          3.4           1.4          0.3      setosa\n",
       "106           4.9          2.5           4.5          1.7   virginica\n",
       "75            6.6          3.0           4.4          1.4  versicolor"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 最初の数件を表示\n",
    "iris_test_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "先ほど構築した予測モデルをこの``iris_test_df``に適用して，未知データのアヤメの品種を予測してみよう．\n",
    "構築した予測モデル``iris_model``を用いて未知データを予測するには``predict``関数を用いる．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array(['virginica', 'setosa', 'setosa', 'versicolor', 'versicolor',\n",
       "       'versicolor', 'virginica', 'versicolor', 'virginica', 'setosa',\n",
       "       'setosa', 'virginica', 'setosa', 'versicolor', 'setosa',\n",
       "       'versicolor', 'virginica', 'versicolor', 'versicolor', 'virginica',\n",
       "       'virginica', 'setosa', 'versicolor', 'virginica', 'versicolor',\n",
       "       'versicolor', 'versicolor', 'virginica', 'setosa', 'virginica',\n",
       "       'setosa', 'setosa', 'versicolor', 'versicolor', 'virginica',\n",
       "       'virginica', 'setosa', 'setosa', 'setosa', 'versicolor',\n",
       "       'virginica', 'virginica', 'versicolor', 'setosa', 'setosa'],\n",
       "      dtype=object)"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 評価用データの特徴量と正解ラベルを取得\n",
    "X_test = iris_test_df[features]\n",
    "y_test = iris_test_df.species\n",
    "\n",
    "# 予測モデルを使って，品種が未知の個体の品種を推定\n",
    "iris_predicted = model.predict(X_test)\n",
    "\n",
    "# 予測結果の一部を表示\n",
    "iris_predicted"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "予測結果が変数``iris_predicted``に格納された．\n",
    "``iris_test_df``の列``Species``には実際の品種情報が格納されていた．これと予測結果と照らし合わせて，予測性能を評価してみよう．\n",
    "\n",
    "予測性能の評価指標には様々なものがあるが，ここでは精度（accuracy）を計算してみよう．\n",
    "精度は「予測結果のうち， **各個体の品種について，予測モデルが予測したものと，実際の品種が一致したケースの割合」** を意味する．\n",
    "精度の計算には`sklearn`の`accuracy_score`関数を用いる．\n",
    "第1引数に予測結果，第2引数に実際の結果を入力します．以下のコードを実行してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0.9777777777777777"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "accuracy_score(iris_predicted, iris_test_df.species)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "上記結果によると，Accuracyは約97.8%を示しており，かなりの精度で品種を予測できていることが分かる．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "\n",
    "---\n",
    "## 例題2: タイタニック号の乗船者データ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "1912年4月14日，処女航海中の豪華客船タイタニック号は多くの乗船者を乗せたまま沈没した．\n",
    "タイタニックとその事故は映画化されるなど世界的に有名である．\n",
    "\n",
    "乗船者に関する情報が残っていたために，事故後，多くの人が事故に関する分析を行った．\n",
    "私たちもタイタニック号の乗船者情報を用いて，生死を分けた条件について分析を行ってみよう．\n",
    "以下のコードを実行して，タイタニック号の乗船者（の一部）のデータを読み込もう（[★Quiz 1](#C2-Q1)）．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>PassengerId</th>\n",
       "      <th>Survived</th>\n",
       "      <th>Pclass</th>\n",
       "      <th>Name</th>\n",
       "      <th>Sex</th>\n",
       "      <th>Age</th>\n",
       "      <th>SibSp</th>\n",
       "      <th>Parch</th>\n",
       "      <th>Ticket</th>\n",
       "      <th>Fare</th>\n",
       "      <th>Cabin</th>\n",
       "      <th>Embarked</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>died</td>\n",
       "      <td>3</td>\n",
       "      <td>Braund, Mr. Owen Harris</td>\n",
       "      <td>male</td>\n",
       "      <td>22.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>A/5 21171</td>\n",
       "      <td>7.2500</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>survived</td>\n",
       "      <td>1</td>\n",
       "      <td>Cumings, Mrs. John Bradley (Florence Briggs Th...</td>\n",
       "      <td>female</td>\n",
       "      <td>38.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>PC 17599</td>\n",
       "      <td>71.2833</td>\n",
       "      <td>C85</td>\n",
       "      <td>C</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>survived</td>\n",
       "      <td>3</td>\n",
       "      <td>Heikkinen, Miss. Laina</td>\n",
       "      <td>female</td>\n",
       "      <td>26.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>STON/O2. 3101282</td>\n",
       "      <td>7.9250</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4</td>\n",
       "      <td>survived</td>\n",
       "      <td>1</td>\n",
       "      <td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td>\n",
       "      <td>female</td>\n",
       "      <td>35.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>113803</td>\n",
       "      <td>53.1000</td>\n",
       "      <td>C123</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5</td>\n",
       "      <td>died</td>\n",
       "      <td>3</td>\n",
       "      <td>Allen, Mr. William Henry</td>\n",
       "      <td>male</td>\n",
       "      <td>35.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>373450</td>\n",
       "      <td>8.0500</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   PassengerId  Survived  Pclass  \\\n",
       "0            1      died       3   \n",
       "1            2  survived       1   \n",
       "2            3  survived       3   \n",
       "3            4  survived       1   \n",
       "4            5      died       3   \n",
       "\n",
       "                                                Name     Sex   Age  SibSp  \\\n",
       "0                            Braund, Mr. Owen Harris    male  22.0      1   \n",
       "1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   \n",
       "2                             Heikkinen, Miss. Laina  female  26.0      0   \n",
       "3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   \n",
       "4                           Allen, Mr. William Henry    male  35.0      0   \n",
       "\n",
       "   Parch            Ticket     Fare Cabin Embarked  \n",
       "0      0         A/5 21171   7.2500   NaN        S  \n",
       "1      0          PC 17599  71.2833   C85        C  \n",
       "2      0  STON/O2. 3101282   7.9250   NaN        S  \n",
       "3      0            113803  53.1000  C123        S  \n",
       "4      0            373450   8.0500   NaN        S  "
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# データの読み込み\n",
    "url = \"https://raw.githubusercontent.com/hontolab-courses/ml-lecturenote/refs/heads/main/content/data/titanic_train.csv\"\n",
    "titanic_df = pd.read_table(url, header=0, sep=\",\")\n",
    "\n",
    "# 生存情報を分かりやすくする\n",
    "titanic_df = titanic_df.assign(\n",
    "    Survived = lambda df: df.Survived.map({1: 'survived', 0: 'died'})\n",
    ")\n",
    "\n",
    "# 最初の数件のみ表示\n",
    "titanic_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "様々な情報が表示された．\n",
    "変数``titanic_train_df``に格納されたデータの属性（列名）の詳細は以下の通り：\n",
    "\n",
    "* PassengerId: 乗船者を識別するためのID\n",
    "* Survived: ある乗船者が沈没事故で生き残った否かを示すフラグ．\n",
    "* Pclass: チケットの等級．1は1等乗客，2は2等乗客，3は3等乗客を表す\n",
    "* Name: 乗客名\n",
    "* Sex: 性別\n",
    "* Age: 年齢\n",
    "* SibSp: タイタニック号に同乗した兄弟もしくは配偶者の数\n",
    "* Parch: タイタニック号に乗船した両親もしくは子どもの数\n",
    "* Ticket: チケット番号\n",
    "* Fare: 乗船料金\n",
    "* Cabin: 客室番号\n",
    "* Embarked: 乗船した港．C = Cherbourg, Q = Queenstown, S = Southampton"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "このデータを用いて，どんな乗客が生き残れたのかを予測できるようにしよう．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "決定木を適用する前に，``titanic_df``データに対して簡易的な分析を行い，各データ属性と生存情報との関係を眺めてみよう．\n",
    "以下のコードを実行すると， **乗客の等級（Pclass）と生存の有無（Survived）** の属性の値を集計して，ある等級の乗客のうち生き残った方の割合が表示される．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>Pclass</th>\n",
       "      <th>1</th>\n",
       "      <th>2</th>\n",
       "      <th>3</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Survived</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>died</th>\n",
       "      <td>0.37037</td>\n",
       "      <td>0.527174</td>\n",
       "      <td>0.757637</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>survived</th>\n",
       "      <td>0.62963</td>\n",
       "      <td>0.472826</td>\n",
       "      <td>0.242363</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "Pclass          1         2         3\n",
       "Survived                             \n",
       "died      0.37037  0.527174  0.757637\n",
       "survived  0.62963  0.472826  0.242363"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.crosstab(titanic_df['Survived'], titanic_df['Pclass'], normalize='columns')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "分析の結果，どうやら等級が高い（数値が小さい）ほど生き残っている方の割合が大きいようだ．\n",
    "等級以外の属性でも同様の分析を行ってみよう．\n",
    "例えば，性別（Sex）と生存の有無の関係は以下のコードで得られる（[★Quiz 2](#C2-Q2)，[★Quiz 3](#C2-Q3)）．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>Sex</th>\n",
       "      <th>female</th>\n",
       "      <th>male</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Survived</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>died</th>\n",
       "      <td>0.257962</td>\n",
       "      <td>0.811092</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>survived</th>\n",
       "      <td>0.742038</td>\n",
       "      <td>0.188908</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "Sex         female      male\n",
       "Survived                    \n",
       "died      0.257962  0.811092\n",
       "survived  0.742038  0.188908"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.crosstab(titanic_df['Survived'], titanic_df['Sex'], normalize='columns')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "決定木アルゴリズムを適用する前に，データの欠損を確認しておこう．\n",
    "収集したデータの一部が欠損していることはよくある．\n",
    "欠損値がデータに含まれると，機械学習のアルゴリズムがうまく動作しない場合がある．\n",
    "\n",
    "欠損値がある場合の対応は，\n",
    "* 欠損しているデータを捨てる\n",
    "* 欠損値を代表的な値で埋める\n",
    "\n",
    "といったアプローチが採られることが多い．\n",
    "欠損しているデータを捨ててしまうと，学習に用いる貴重なデータが減るので，今回は欠損値を代表値で埋める．\n",
    "\n",
    "まず，以下のコードを走らせて，欠損値を確認してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "PassengerId      0\n",
       "Survived         0\n",
       "Pclass           0\n",
       "Name             0\n",
       "Sex              0\n",
       "Age            177\n",
       "SibSp            0\n",
       "Parch            0\n",
       "Ticket           0\n",
       "Fare             0\n",
       "Cabin          687\n",
       "Embarked         2\n",
       "dtype: int64"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "titanic_df.isnull().sum()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "上の結果から，Age，Cabin，Embarkedに欠損値が含まれることが分かる．\n",
    "Cabinは乗船客に与えられた固有の情報で，生存者の予測には役立たない．\n",
    "AgeとEmbarkedのみ欠損値を埋めることにしよう．\n",
    "\n",
    "欠損値を埋めるには様々な方法が提案されているが，今回は\n",
    "* Ageは中央値\n",
    "* Embarkedは最頻値\n",
    "\n",
    "で埋めることにする．\n",
    "以下のコードを実行しよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Embarkedの欠損を最頻値で埋める\n",
    "titanic_df[\"Embarked\"] = titanic_df[\"Embarked\"].fillna(titanic_df[\"Embarked\"].mode().iloc[0]) \n",
    "\n",
    "# Ageを中央値で埋める\n",
    "titanic_df[\"Age\"] = titanic_df[\"Age\"].fillna(titanic_df[\"Age\"].median()) "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "これで欠損値はなくなった．\n",
    "それでは決定木アルゴリズムを適用してみよう．\n",
    "例題1と同様，まず，用意したデータを学習用（70%）と評価用（30%）に分割する．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "# データを学習用（70%）と評価用（30%）に分割する\n",
    "titanic_train_df, titanic_test_df = train_test_split(\n",
    "                                        titanic_df, test_size=0.3,\n",
    "                                        random_state=1,\n",
    "                                        stratify=titanic_df.Survived)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "変数``titanic_test_df``には生存の有無の情報も含まれているが，予測モデルの性能評価の際には，生存情報が未知であるとして予測を行い，予測結果と（隠しておいた）生存情報を照らし合わせて評価することになる（[★Quiz 4](#C2-Q4)）．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "簡易的な分析を行ってみると，生存の有無を識別するために有効な指標がありそうな気もする．\n",
    "しかし実際には，複数の指標が絡み合って生存の有無が決まっていると思われる．\n",
    "このような状況で，指標（特徴量）同士の複雑な関係性を考慮しながら，予測のためのルールを抽出するのが**教師あり学習**である．\n",
    "\n",
    "早速，決定木アルゴリズムを適用してみよう．\n",
    "まずは決定木を適用するデータを整形する．\n",
    "データを眺めると，氏名（Name）やチケット番号（Ticket），客室番号（Cabin）は各乗船者に固有に与えられた情報であることが分かる．\n",
    "これら特徴量は生存者の予測には役に立たないため，それ以外の情報を利用することにする．\n",
    "\n",
    "下記コードを実行して，決定木を適用する際に注目する指標を，変数``target_features``に格納しておく．\n",
    "さらに，``titanic_train_df``から上記指標に関するデータのみを抽出する．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Pclass</th>\n",
       "      <th>Sex</th>\n",
       "      <th>Age</th>\n",
       "      <th>SibSp</th>\n",
       "      <th>Parch</th>\n",
       "      <th>Fare</th>\n",
       "      <th>Embarked</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>472</th>\n",
       "      <td>2</td>\n",
       "      <td>female</td>\n",
       "      <td>33.0</td>\n",
       "      <td>1</td>\n",
       "      <td>2</td>\n",
       "      <td>27.7500</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>597</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>49.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>843</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>34.5</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>6.4375</td>\n",
       "      <td>C</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>112</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>22.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>8.0500</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>869</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>4.0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>11.1333</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>650</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>28.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>7.8958</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>241</th>\n",
       "      <td>3</td>\n",
       "      <td>female</td>\n",
       "      <td>28.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>15.5000</td>\n",
       "      <td>Q</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>265</th>\n",
       "      <td>2</td>\n",
       "      <td>male</td>\n",
       "      <td>36.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>10.5000</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>2</td>\n",
       "      <td>female</td>\n",
       "      <td>55.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>16.0000</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>464</th>\n",
       "      <td>3</td>\n",
       "      <td>male</td>\n",
       "      <td>28.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>8.0500</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>623 rows × 7 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "     Pclass     Sex   Age  SibSp  Parch     Fare Embarked\n",
       "472       2  female  33.0      1      2  27.7500        S\n",
       "597       3    male  49.0      0      0   0.0000        S\n",
       "843       3    male  34.5      0      0   6.4375        C\n",
       "112       3    male  22.0      0      0   8.0500        S\n",
       "869       3    male   4.0      1      1  11.1333        S\n",
       "..      ...     ...   ...    ...    ...      ...      ...\n",
       "650       3    male  28.0      0      0   7.8958        S\n",
       "241       3  female  28.0      1      0  15.5000        Q\n",
       "265       2    male  36.0      0      0  10.5000        S\n",
       "15        2  female  55.0      0      0  16.0000        S\n",
       "464       3    male  28.0      0      0   8.0500        S\n",
       "\n",
       "[623 rows x 7 columns]"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 注目する指標\n",
    "target_features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']\n",
    "\n",
    "# 以下のように書けば，target_featuresの指標のみに注目してデータを抽出できる\n",
    "titanic_train_df[target_features]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "性別（Sex）や乗船した港（Embarked）は数値情報ではなくカテゴリ情報である．\n",
    "多くの機械学習は数値を受け取って処理をするので，カテゴリ情報も数値情報に変換しておいた方が都合がよい．\n",
    "ここでは，「EmbarkedがSであることをEmbarked_Sが1，EmbarkedがSでないことをEmbarked_S=0」となるような変換を行う．\n",
    "この変換は下記コードで行える．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "OneHotEncoder(cols=['Embarked', 'Sex'], use_cat_names=True)"
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "encoder = category_encoders.OneHotEncoder(cols=['Embarked', 'Sex'], use_cat_names=True)\n",
    "encoder.fit(titanic_train_df[target_features])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "それでは，``titanic_train_df``に決定木アルゴリズムを適用して，生存の有無のルールを抽出（学習）してみよう．\n",
    "決定木アルゴリズムは``DecisionTreeClassifier``クラスを用いて実行できる．\n",
    "下記コードを実行してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=12345)"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 予測に用いる生存情報以外のすべての指標をX_trainに\n",
    "X_train = titanic_train_df[target_features]\n",
    "\n",
    "# カテゴリ変数を数値情報に変換\n",
    "X_train = encoder.transform(X_train)\n",
    "\n",
    "# y_trainは生存有無をあらわす指標\n",
    "y_train = titanic_train_df.Survived\n",
    "\n",
    "# 学習\n",
    "model = DecisionTreeClassifier(criterion='entropy',\n",
    "                               random_state=12345, # 初期値を固定\n",
    "                               max_depth=3) # 木の深さを3に限定\n",
    "model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "生存の有無を予測するルールが学習された．\n",
    "以下のコードを実行して，生存の有無を予測するためのルールをわかりやすく可視化してみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/svg+xml": [
       "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"no\"?>\n",
       "<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n",
       " \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n",
       "<!-- Generated by graphviz version 9.0.0 (20230911.1827)\n",
       " -->\n",
       "<!-- Title: Tree Pages: 1 -->\n",
       "<svg width=\"1294pt\" height=\"433pt\"\n",
       " viewBox=\"0.00 0.00 1293.50 433.00\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\n",
       "<g id=\"graph0\" class=\"graph\" transform=\"scale(1 1) rotate(0) translate(4 429)\">\n",
       "<title>Tree</title>\n",
       "<polygon fill=\"white\" stroke=\"none\" points=\"-4,4 -4,-429 1289.5,-429 1289.5,4 -4,4\"/>\n",
       "<!-- 0 -->\n",
       "<g id=\"node1\" class=\"node\">\n",
       "<title>0</title>\n",
       "<path fill=\"#f5cfb4\" stroke=\"black\" d=\"M695.5,-425C695.5,-425 573,-425 573,-425 567,-425 561,-419 561,-413 561,-413 561,-354 561,-354 561,-348 567,-342 573,-342 573,-342 695.5,-342 695.5,-342 701.5,-342 707.5,-348 707.5,-354 707.5,-354 707.5,-413 707.5,-413 707.5,-419 701.5,-425 695.5,-425\"/>\n",
       "<text text-anchor=\"middle\" x=\"634.25\" y=\"-407.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Sex_male &lt;= 0.5</text>\n",
       "<text text-anchor=\"middle\" x=\"634.25\" y=\"-392.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.961</text>\n",
       "<text text-anchor=\"middle\" x=\"634.25\" y=\"-377.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 100.0%</text>\n",
       "<text text-anchor=\"middle\" x=\"634.25\" y=\"-362.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.616, 0.384]</text>\n",
       "<text text-anchor=\"middle\" x=\"634.25\" y=\"-347.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 1 -->\n",
       "<g id=\"node2\" class=\"node\">\n",
       "<title>1</title>\n",
       "<path fill=\"#82c1ef\" stroke=\"black\" d=\"M534.5,-306C534.5,-306 412,-306 412,-306 406,-306 400,-300 400,-294 400,-294 400,-235 400,-235 400,-229 406,-223 412,-223 412,-223 534.5,-223 534.5,-223 540.5,-223 546.5,-229 546.5,-235 546.5,-235 546.5,-294 546.5,-294 546.5,-300 540.5,-306 534.5,-306\"/>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-288.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Pclass &lt;= 2.5</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-273.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.839</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-258.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 35.3%</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-243.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.268, 0.732]</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-228.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;1 -->\n",
       "<g id=\"edge1\" class=\"edge\">\n",
       "<title>0&#45;&gt;1</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M577.94,-341.58C565.19,-332.32 551.56,-322.41 538.48,-312.9\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"540.9,-310.34 530.75,-307.29 536.78,-316 540.9,-310.34\"/>\n",
       "<text text-anchor=\"middle\" x=\"533.44\" y=\"-325.29\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">True</text>\n",
       "</g>\n",
       "<!-- 8 -->\n",
       "<g id=\"node9\" class=\"node\">\n",
       "<title>8</title>\n",
       "<path fill=\"#eb9f69\" stroke=\"black\" d=\"M860.5,-306C860.5,-306 738,-306 738,-306 732,-306 726,-300 726,-294 726,-294 726,-235 726,-235 726,-229 732,-223 738,-223 738,-223 860.5,-223 860.5,-223 866.5,-223 872.5,-229 872.5,-235 872.5,-235 872.5,-294 872.5,-294 872.5,-300 866.5,-306 860.5,-306\"/>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-288.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Pclass &lt;= 1.5</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-273.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.709</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-258.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 64.7%</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-243.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.806, 0.194]</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-228.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;8 -->\n",
       "<g id=\"edge8\" class=\"edge\">\n",
       "<title>0&#45;&gt;8</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M691.96,-341.58C705.02,-332.32 719,-322.41 732.4,-312.9\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"734.21,-315.91 740.34,-307.27 730.16,-310.2 734.21,-315.91\"/>\n",
       "<text text-anchor=\"middle\" x=\"737.38\" y=\"-325.24\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">False</text>\n",
       "</g>\n",
       "<!-- 2 -->\n",
       "<g id=\"node3\" class=\"node\">\n",
       "<title>2</title>\n",
       "<path fill=\"#42a1e6\" stroke=\"black\" d=\"M291.5,-187C291.5,-187 169,-187 169,-187 163,-187 157,-181 157,-175 157,-175 157,-116 157,-116 157,-110 163,-104 169,-104 169,-104 291.5,-104 291.5,-104 297.5,-104 303.5,-110 303.5,-116 303.5,-116 303.5,-175 303.5,-175 303.5,-181 297.5,-187 291.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Fare &lt;= 149.035</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.258</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 18.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.043, 0.957]</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 1&#45;&gt;2 -->\n",
       "<g id=\"edge2\" class=\"edge\">\n",
       "<title>1&#45;&gt;2</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M399.68,-228.08C372.69,-215.08 341.93,-200.27 314.1,-186.87\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"315.88,-183.84 305.35,-182.66 312.84,-190.15 315.88,-183.84\"/>\n",
       "</g>\n",
       "<!-- 5 -->\n",
       "<g id=\"node6\" class=\"node\">\n",
       "<title>5</title>\n",
       "<path fill=\"#fef8f4\" stroke=\"black\" d=\"M534.5,-187C534.5,-187 412,-187 412,-187 406,-187 400,-181 400,-175 400,-175 400,-116 400,-116 400,-110 406,-104 412,-104 412,-104 534.5,-104 534.5,-104 540.5,-104 546.5,-110 546.5,-116 546.5,-116 546.5,-175 546.5,-175 546.5,-181 540.5,-187 534.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Fare &lt;= 7.888</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.999</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 16.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.514, 0.486]</text>\n",
       "<text text-anchor=\"middle\" x=\"473.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 1&#45;&gt;5 -->\n",
       "<g id=\"edge5\" class=\"edge\">\n",
       "<title>1&#45;&gt;5</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M473.25,-222.58C473.25,-214.79 473.25,-206.53 473.25,-198.45\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"476.75,-198.71 473.25,-188.71 469.75,-198.71 476.75,-198.71\"/>\n",
       "</g>\n",
       "<!-- 3 -->\n",
       "<g id=\"node4\" class=\"node\">\n",
       "<title>3</title>\n",
       "<path fill=\"#3fa0e6\" stroke=\"black\" d=\"M134.5,-68C134.5,-68 12,-68 12,-68 6,-68 0,-62 0,-56 0,-56 0,-12 0,-12 0,-6 6,0 12,0 12,0 134.5,0 134.5,0 140.5,0 146.5,-6 146.5,-12 146.5,-12 146.5,-56 146.5,-56 146.5,-62 140.5,-68 134.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.184</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 17.2%</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.028, 0.972]</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;3 -->\n",
       "<g id=\"edge3\" class=\"edge\">\n",
       "<title>2&#45;&gt;3</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M171.79,-103.73C158.26,-94.29 143.88,-84.26 130.41,-74.86\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"132.69,-72.19 122.49,-69.34 128.69,-77.93 132.69,-72.19\"/>\n",
       "</g>\n",
       "<!-- 4 -->\n",
       "<g id=\"node5\" class=\"node\">\n",
       "<title>4</title>\n",
       "<path fill=\"#7bbeee\" stroke=\"black\" d=\"M284,-68C284,-68 176.5,-68 176.5,-68 170.5,-68 164.5,-62 164.5,-56 164.5,-56 164.5,-12 164.5,-12 164.5,-6 170.5,0 176.5,0 176.5,0 284,0 284,0 290,0 296,-6 296,-12 296,-12 296,-56 296,-56 296,-62 290,-68 284,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.811</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 1.3%</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.25, 0.75]</text>\n",
       "<text text-anchor=\"middle\" x=\"230.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;4 -->\n",
       "<g id=\"edge4\" class=\"edge\">\n",
       "<title>2&#45;&gt;4</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M230.25,-103.73C230.25,-95.88 230.25,-87.63 230.25,-79.67\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"233.75,-79.81 230.25,-69.81 226.75,-79.81 233.75,-79.81\"/>\n",
       "</g>\n",
       "<!-- 6 -->\n",
       "<g id=\"node7\" class=\"node\">\n",
       "<title>6</title>\n",
       "<path fill=\"#6fb8ec\" stroke=\"black\" d=\"M448.5,-68C448.5,-68 326,-68 326,-68 320,-68 314,-62 314,-56 314,-56 314,-12 314,-12 314,-6 320,0 326,0 326,0 448.5,0 448.5,0 454.5,0 460.5,-6 460.5,-12 460.5,-12 460.5,-56 460.5,-56 460.5,-62 454.5,-68 448.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"387.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.75</text>\n",
       "<text text-anchor=\"middle\" x=\"387.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 4.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"387.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.214, 0.786]</text>\n",
       "<text text-anchor=\"middle\" x=\"387.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;6 -->\n",
       "<g id=\"edge6\" class=\"edge\">\n",
       "<title>5&#45;&gt;6</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M441.23,-103.73C434.42,-95.06 427.22,-85.9 420.38,-77.18\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"423.27,-75.19 414.34,-69.49 417.76,-79.52 423.27,-75.19\"/>\n",
       "</g>\n",
       "<!-- 7 -->\n",
       "<g id=\"node8\" class=\"node\">\n",
       "<title>7</title>\n",
       "<path fill=\"#f5cdb1\" stroke=\"black\" d=\"M613.5,-68C613.5,-68 491,-68 491,-68 485,-68 479,-62 479,-56 479,-56 479,-12 479,-12 479,-6 485,0 491,0 491,0 613.5,0 613.5,0 619.5,0 625.5,-6 625.5,-12 625.5,-12 625.5,-56 625.5,-56 625.5,-62 619.5,-68 613.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"552.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.956</text>\n",
       "<text text-anchor=\"middle\" x=\"552.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 12.4%</text>\n",
       "<text text-anchor=\"middle\" x=\"552.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.623, 0.377]</text>\n",
       "<text text-anchor=\"middle\" x=\"552.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;7 -->\n",
       "<g id=\"edge7\" class=\"edge\">\n",
       "<title>5&#45;&gt;7</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M502.67,-103.73C508.85,-95.15 515.39,-86.09 521.62,-77.46\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"524.33,-79.68 527.34,-69.53 518.65,-75.59 524.33,-79.68\"/>\n",
       "</g>\n",
       "<!-- 9 -->\n",
       "<g id=\"node10\" class=\"node\">\n",
       "<title>9</title>\n",
       "<path fill=\"#f6d6be\" stroke=\"black\" d=\"M860.5,-187C860.5,-187 738,-187 738,-187 732,-187 726,-181 726,-175 726,-175 726,-116 726,-116 726,-110 732,-104 738,-104 738,-104 860.5,-104 860.5,-104 866.5,-104 872.5,-110 872.5,-116 872.5,-116 872.5,-175 872.5,-175 872.5,-181 866.5,-187 860.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Age &lt;= 43.0</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.972</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 14.0%</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.598, 0.402]</text>\n",
       "<text text-anchor=\"middle\" x=\"799.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;9 -->\n",
       "<g id=\"edge9\" class=\"edge\">\n",
       "<title>8&#45;&gt;9</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M799.25,-222.58C799.25,-214.79 799.25,-206.53 799.25,-198.45\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"802.75,-198.71 799.25,-188.71 795.75,-198.71 802.75,-198.71\"/>\n",
       "</g>\n",
       "<!-- 12 -->\n",
       "<g id=\"node13\" class=\"node\">\n",
       "<title>12</title>\n",
       "<path fill=\"#e99558\" stroke=\"black\" d=\"M1108.5,-187C1108.5,-187 986,-187 986,-187 980,-187 974,-181 974,-175 974,-175 974,-116 974,-116 974,-110 980,-104 986,-104 986,-104 1108.5,-104 1108.5,-104 1114.5,-104 1120.5,-110 1120.5,-116 1120.5,-116 1120.5,-175 1120.5,-175 1120.5,-181 1114.5,-187 1108.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">Age &lt;= 6.5</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.574</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 50.7%</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.864, 0.136]</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;12 -->\n",
       "<g id=\"edge12\" class=\"edge\">\n",
       "<title>8&#45;&gt;12</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M872.99,-228.71C901.47,-215.28 934.21,-199.83 963.57,-185.98\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"964.88,-189.23 972.43,-181.8 961.89,-182.9 964.88,-189.23\"/>\n",
       "</g>\n",
       "<!-- 10 -->\n",
       "<g id=\"node11\" class=\"node\">\n",
       "<title>10</title>\n",
       "<path fill=\"#f8fcfe\" stroke=\"black\" d=\"M778.5,-68C778.5,-68 656,-68 656,-68 650,-68 644,-62 644,-56 644,-56 644,-12 644,-12 644,-6 650,0 656,0 656,0 778.5,0 778.5,0 784.5,0 790.5,-6 790.5,-12 790.5,-12 790.5,-56 790.5,-56 790.5,-62 784.5,-68 778.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"717.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 1.0</text>\n",
       "<text text-anchor=\"middle\" x=\"717.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 9.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"717.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.492, 0.508]</text>\n",
       "<text text-anchor=\"middle\" x=\"717.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;10 -->\n",
       "<g id=\"edge10\" class=\"edge\">\n",
       "<title>9&#45;&gt;10</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M768.72,-103.73C762.3,-95.15 755.51,-86.09 749.04,-77.46\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"751.89,-75.42 743.09,-69.51 746.29,-79.61 751.89,-75.42\"/>\n",
       "</g>\n",
       "<!-- 11 -->\n",
       "<g id=\"node12\" class=\"node\">\n",
       "<title>11</title>\n",
       "<path fill=\"#eb9c64\" stroke=\"black\" d=\"M943.5,-68C943.5,-68 821,-68 821,-68 815,-68 809,-62 809,-56 809,-56 809,-12 809,-12 809,-6 815,0 821,0 821,0 943.5,0 943.5,0 949.5,0 955.5,-6 955.5,-12 955.5,-12 955.5,-56 955.5,-56 955.5,-62 949.5,-68 943.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"882.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.677</text>\n",
       "<text text-anchor=\"middle\" x=\"882.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 4.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"882.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.821, 0.179]</text>\n",
       "<text text-anchor=\"middle\" x=\"882.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;11 -->\n",
       "<g id=\"edge11\" class=\"edge\">\n",
       "<title>9&#45;&gt;11</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M830.16,-103.73C836.65,-95.15 843.52,-86.09 850.07,-77.46\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"852.84,-79.59 856.09,-69.51 847.26,-75.36 852.84,-79.59\"/>\n",
       "</g>\n",
       "<!-- 13 -->\n",
       "<g id=\"node14\" class=\"node\">\n",
       "<title>13</title>\n",
       "<path fill=\"#9ccef2\" stroke=\"black\" d=\"M1108.5,-68C1108.5,-68 986,-68 986,-68 980,-68 974,-62 974,-56 974,-56 974,-12 974,-12 974,-6 980,0 986,0 986,0 1108.5,0 1108.5,0 1114.5,0 1120.5,-6 1120.5,-12 1120.5,-12 1120.5,-56 1120.5,-56 1120.5,-62 1114.5,-68 1108.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.918</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 2.9%</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.333, 0.667]</text>\n",
       "<text text-anchor=\"middle\" x=\"1047.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = survived</text>\n",
       "</g>\n",
       "<!-- 12&#45;&gt;13 -->\n",
       "<g id=\"edge13\" class=\"edge\">\n",
       "<title>12&#45;&gt;13</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M1047.25,-103.73C1047.25,-95.88 1047.25,-87.63 1047.25,-79.67\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"1050.75,-79.81 1047.25,-69.81 1043.75,-79.81 1050.75,-79.81\"/>\n",
       "</g>\n",
       "<!-- 14 -->\n",
       "<g id=\"node15\" class=\"node\">\n",
       "<title>14</title>\n",
       "<path fill=\"#e89050\" stroke=\"black\" d=\"M1273.5,-68C1273.5,-68 1151,-68 1151,-68 1145,-68 1139,-62 1139,-56 1139,-56 1139,-12 1139,-12 1139,-6 1145,0 1151,0 1151,0 1273.5,0 1273.5,0 1279.5,0 1285.5,-6 1285.5,-12 1285.5,-12 1285.5,-56 1285.5,-56 1285.5,-62 1279.5,-68 1273.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"1212.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.482</text>\n",
       "<text text-anchor=\"middle\" x=\"1212.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 47.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"1212.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.896, 0.104]</text>\n",
       "<text text-anchor=\"middle\" x=\"1212.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = died</text>\n",
       "</g>\n",
       "<!-- 12&#45;&gt;14 -->\n",
       "<g id=\"edge14\" class=\"edge\">\n",
       "<title>12&#45;&gt;14</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M1108.69,-103.73C1123.05,-94.2 1138.31,-84.07 1152.59,-74.59\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"1154.15,-77.76 1160.55,-69.31 1150.28,-71.92 1154.15,-77.76\"/>\n",
       "</g>\n",
       "</g>\n",
       "</svg>\n"
      ],
      "text/plain": [
       "<graphviz.sources.Source at 0x176b3d0a0>"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Source(export_graphviz(model, out_file=None,\n",
    "                       feature_names=X_train.columns,\n",
    "                       class_names=['died', 'survived'],\n",
    "                       proportion=True,\n",
    "                       filled=True, rounded=True # 見た目の調整\n",
    "                      ))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "分類ルールが得られた．\n",
    "\n",
    "結果を解釈してみよう．\n",
    "例えば，上図の上から3段目，左端にある「class=survived, entropy=0.258」という四角は，\n",
    "* 性別が女性であり（Sex_male<=0.5: True），乗船クラスが1等もしくは2等クラス（Pclass<=2.5: True）の乗客は95.7%の確率で生存したこと\n",
    "* その条件にマッチする乗客は，全体の18.5%存在すること\n",
    "\n",
    "を示している（[★Quiz 5](#C2-Q5)）．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "なんとなく予測ルールは分かったが，各指標が予測にどの程度影響があるかを調べてみよう．\n",
    "以下のコードを実行しよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Pclass\t0.2907129831238367\n",
      "Sex_female\t0.0\n",
      "Sex_male\t0.5350835392973032\n",
      "Age\t0.1165652637163436\n",
      "SibSp\t0.0\n",
      "Parch\t0.0\n",
      "Fare\t0.05763821386251649\n",
      "Embarked_S\t0.0\n",
      "Embarked_C\t0.0\n",
      "Embarked_Q\t0.0\n"
     ]
    }
   ],
   "source": [
    "for feature, importance in zip(X_train.columns, model.feature_importances_):\n",
    "    print(\"{}\\t{}\".format(feature, importance))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "この結果からも，**性別**や**等級**が生存に大きく影響を与えていたことがうかがえる（[★Quiz 6](#C2-Q6)）．\n",
    "\n",
    "さて，ここまでやったことは予測のためのルール（モデル）の構築であった．\n",
    "構築した予測モデルを使って，未知のデータを予測してみよう．\n",
    "この例題の冒頭で，変数``titanic_test_df``に**予測モデルの構築に使われていないデータ**を別途用意していたことを思い出そう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>PassengerId</th>\n",
       "      <th>Survived</th>\n",
       "      <th>Pclass</th>\n",
       "      <th>Name</th>\n",
       "      <th>Sex</th>\n",
       "      <th>Age</th>\n",
       "      <th>SibSp</th>\n",
       "      <th>Parch</th>\n",
       "      <th>Ticket</th>\n",
       "      <th>Fare</th>\n",
       "      <th>Cabin</th>\n",
       "      <th>Embarked</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>433</th>\n",
       "      <td>434</td>\n",
       "      <td>died</td>\n",
       "      <td>3</td>\n",
       "      <td>Kallio, Mr. Nikolai Erland</td>\n",
       "      <td>male</td>\n",
       "      <td>17.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>STON/O 2. 3101274</td>\n",
       "      <td>7.125</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>221</th>\n",
       "      <td>222</td>\n",
       "      <td>died</td>\n",
       "      <td>2</td>\n",
       "      <td>Bracken, Mr. James H</td>\n",
       "      <td>male</td>\n",
       "      <td>27.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>220367</td>\n",
       "      <td>13.000</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>217</th>\n",
       "      <td>218</td>\n",
       "      <td>died</td>\n",
       "      <td>2</td>\n",
       "      <td>Jacobsohn, Mr. Sidney Samuel</td>\n",
       "      <td>male</td>\n",
       "      <td>42.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>243847</td>\n",
       "      <td>27.000</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>376</th>\n",
       "      <td>377</td>\n",
       "      <td>survived</td>\n",
       "      <td>3</td>\n",
       "      <td>Landergren, Miss. Aurora Adelia</td>\n",
       "      <td>female</td>\n",
       "      <td>22.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>C 7077</td>\n",
       "      <td>7.250</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>447</th>\n",
       "      <td>448</td>\n",
       "      <td>survived</td>\n",
       "      <td>1</td>\n",
       "      <td>Seward, Mr. Frederic Kimber</td>\n",
       "      <td>male</td>\n",
       "      <td>34.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>113794</td>\n",
       "      <td>26.550</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     PassengerId  Survived  Pclass                             Name     Sex  \\\n",
       "433          434      died       3       Kallio, Mr. Nikolai Erland    male   \n",
       "221          222      died       2             Bracken, Mr. James H    male   \n",
       "217          218      died       2     Jacobsohn, Mr. Sidney Samuel    male   \n",
       "376          377  survived       3  Landergren, Miss. Aurora Adelia  female   \n",
       "447          448  survived       1      Seward, Mr. Frederic Kimber    male   \n",
       "\n",
       "      Age  SibSp  Parch             Ticket    Fare Cabin Embarked  \n",
       "433  17.0      0      0  STON/O 2. 3101274   7.125   NaN        S  \n",
       "221  27.0      0      0             220367  13.000   NaN        S  \n",
       "217  42.0      1      0             243847  27.000   NaN        S  \n",
       "376  22.0      0      0             C 7077   7.250   NaN        S  \n",
       "447  34.0      0      0             113794  26.550   NaN        S  "
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 最初の数件を表示\n",
    "titanic_test_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "先ほど構築した予測モデルをこの``titanic_test_df``に適用して，生存の有無を予測してみよう．\n",
    "構築した予測モデル``model``を用いて未知データを予測するには``predict``メソッドを用いる．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array(['died', 'died', 'died', 'survived', 'survived', 'died', 'died',\n",
       "       'survived', 'survived', 'died'], dtype=object)"
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# X_testは，生存情報以外のすべての指標\n",
    "X_test = titanic_test_df[target_features]\n",
    "\n",
    "# カテゴリ変数を変換して計算しやすくする\n",
    "X_test = encoder.transform(X_test)\n",
    "\n",
    "# 予測\n",
    "y_predicted = model.predict(X_test)\n",
    "\n",
    "# 予測結果（最初の10件）\n",
    "y_predicted[:10]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "予測結果が変数``y_predicted``に格納された．\n",
    "``titanic_test_df``の列``Survived``には実際の生存情報が格納されていた．\n",
    "これと予測結果と照らし合わせて，予測性能を評価してみよう．\n",
    "以下のコードを実行して，予測性能の評価を行ってみよう．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0.7611940298507462"
      ]
     },
     "execution_count": 23,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# y_testは生存の指標\n",
    "y_test = titanic_test_df.Survived\n",
    "\n",
    "accuracy_score(y_predicted, y_test)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "色々情報が出てきたが，``Accuracy``という数値を見てほしい．\n",
    "Accuracyは予測結果のうち，**実際に生存した乗客を予測モデルが「生存」と予測し，死亡した乗客を予測モデルが「死亡」と予測できたケースの割合**を意味する．\n",
    "上記結果によると，Accuracyは約76.1%を示しており，そこそこの割合で生存の有無を予測できていることが分かる（[★Quiz 7](#C2-Q7)）．\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "\n",
    "---"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "user_expressions": []
   },
   "source": [
    "## クイズ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "user_expressions": []
   },
   "source": [
    "※ 以下のクイズの回答にGoogle Colaboratoryを使いたい方は[コチラ](https://colab.research.google.com/github/hontolab-courses/ml-lecturenote/blob/main/content/quiz/introduction-to-ml.ipynb)をクリック．\n",
    "\n",
    "以下のコードを実行して`income_df`に格納されるデータは，ある年にアメリカで実施された国勢調査のデータである．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>age</th>\n",
       "      <th>workclass</th>\n",
       "      <th>fnlwgt</th>\n",
       "      <th>education</th>\n",
       "      <th>education-num</th>\n",
       "      <th>marital-status</th>\n",
       "      <th>occupation</th>\n",
       "      <th>relationship</th>\n",
       "      <th>race</th>\n",
       "      <th>sex</th>\n",
       "      <th>capital-gain</th>\n",
       "      <th>capital-loss</th>\n",
       "      <th>hours-per-week</th>\n",
       "      <th>native-country</th>\n",
       "      <th>income</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>39</td>\n",
       "      <td>State-gov</td>\n",
       "      <td>77516</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Never-married</td>\n",
       "      <td>Adm-clerical</td>\n",
       "      <td>Not-in-family</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>2174</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>50</td>\n",
       "      <td>Self-emp-not-inc</td>\n",
       "      <td>83311</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Exec-managerial</td>\n",
       "      <td>Husband</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>13</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>38</td>\n",
       "      <td>Private</td>\n",
       "      <td>215646</td>\n",
       "      <td>HS-grad</td>\n",
       "      <td>9</td>\n",
       "      <td>Divorced</td>\n",
       "      <td>Handlers-cleaners</td>\n",
       "      <td>Not-in-family</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>53</td>\n",
       "      <td>Private</td>\n",
       "      <td>234721</td>\n",
       "      <td>11th</td>\n",
       "      <td>7</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Handlers-cleaners</td>\n",
       "      <td>Husband</td>\n",
       "      <td>Black</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>28</td>\n",
       "      <td>Private</td>\n",
       "      <td>338409</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Prof-specialty</td>\n",
       "      <td>Wife</td>\n",
       "      <td>Black</td>\n",
       "      <td>Female</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>Cuba</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   age          workclass  fnlwgt   education  education-num  \\\n",
       "0   39          State-gov   77516   Bachelors             13   \n",
       "1   50   Self-emp-not-inc   83311   Bachelors             13   \n",
       "2   38            Private  215646     HS-grad              9   \n",
       "3   53            Private  234721        11th              7   \n",
       "4   28            Private  338409   Bachelors             13   \n",
       "\n",
       "        marital-status          occupation    relationship    race      sex  \\\n",
       "0        Never-married        Adm-clerical   Not-in-family   White     Male   \n",
       "1   Married-civ-spouse     Exec-managerial         Husband   White     Male   \n",
       "2             Divorced   Handlers-cleaners   Not-in-family   White     Male   \n",
       "3   Married-civ-spouse   Handlers-cleaners         Husband   Black     Male   \n",
       "4   Married-civ-spouse      Prof-specialty            Wife   Black   Female   \n",
       "\n",
       "   capital-gain  capital-loss  hours-per-week  native-country  income  \n",
       "0          2174             0              40   United-States   <=50K  \n",
       "1             0             0              13   United-States   <=50K  \n",
       "2             0             0              40   United-States   <=50K  \n",
       "3             0             0              40   United-States   <=50K  \n",
       "4             0             0              40            Cuba   <=50K  "
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# データの読み込み\n",
    "income_df = pd.read_table(\"https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data\", sep=',', header=None)\n",
    "\n",
    "# 列名（特徴）に名前を付ける\n",
    "income_df.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', \n",
    "                     'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']\n",
    "\n",
    "# データ表示（先頭5件）\n",
    "income_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "データ中の列名（特徴量）の意味は以下の通りである：\n",
    "\n",
    "* age: 年齢（整数）\n",
    "* workclass: 雇用形態（公務員，会社員など）\n",
    "* fnlwgt: 使わない\n",
    "* education: 学歴\n",
    "* education-num: 使わない\n",
    "* marital-status: 婚姻状態\n",
    "* occupation: 職業\n",
    "* relationship: 家族内における役割\n",
    "* race: 人種\n",
    "* sex: 性別\n",
    "* capital-gain: 使わない\n",
    "* capital-loss: 使わない\n",
    "* hours-per-week: 週あたりの労働時間（整数値）\n",
    "* native-country: 出身国\n",
    "* income: 年収（50Kドル以上，50Kドル未満の二値）\n",
    "\n",
    "このデータに対して決定木アルゴリズムを適用して，ある人物が年間収入が50Kドル以上か未満かを分類する機械学習モデルを構築したい．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(C2-Q1)=\n",
    "### Q1: ヒストグラム \n",
    "機械学習モデルを構築する前に，`income_df`データに含まれる調査対象者の年齢の分布を知りたい．\n",
    "年齢に関するヒストグラム（階級数は10）を作成せよ．\n",
    "\n",
    "※ ヒント: ヒストグラムの作成には`pandas.series.hist`関数を用いるとよい（[参考](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html)）"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(C2-Q2)=\n",
    "### Q2: 出現頻度\n",
    "機械学習モデルを構築する前に，`income_df`データに含まれる性別，年収の分布を知りたい．\n",
    "性別（男，女），年収（50K以上，50K未満）について，属性値に対応する人数を求めよ．\n",
    "\n",
    "※ ヒント: 要素の出現頻度を求めるには`pandas.series.value_counts`メソッドを用いるとよい（[参考](https://note.nkmk.me/python-pandas-value-counts/)）"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(C2-Q3)=\n",
    "### Q3: データの集約\n",
    "``income_df``データを集約し，学歴ごとに年間収入クラスの内訳（割合）を調べよ．\n",
    "\n",
    "※ ヒント: pandasの[crosstab](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)関数を使う（タイタニックの例でも使ったので，確認してみよう）"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(C2-Q4)=\n",
    "### Q4: 学習のためのデータ分割\n",
    "`income_df`データに決定木アルゴリズムを適用するために，データを7:3に分割し，7割のデータを学習用データ（`income_train_df`），3割のデータを評価用データ（`income_test_df`）としなさい．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(C2-Q5)=\n",
    "### Q5: 決定木の構築\n",
    "\n",
    "以下は，「年齢」「雇用形態」「学歴」「婚姻の有無」「職業」「家族内における役割」「人種」「性別」「週あたりの労働時間」「出身国」の属性に着目して，`income_df`データから年収カテゴリを予測する決定木を構築するコードである．\n",
    "`# ---------- ` の間を埋めてコードを完成させなさい．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# 注目する属性\n",
    "target_features = ['age', 'workclass', 'education', 'marital-status', 'occupation', \n",
    "                   'relationship', 'race', 'sex', 'hours-per-week', 'native-country']\n",
    "\n",
    "# 数値に変換したいカテゴリ変数\n",
    "encoded_features = ['education', 'workclass', 'marital-status', 'relationship', 'occupation', 'native-country', 'race', 'sex']\n",
    "\n",
    "# カテゴリ変数を数値情報に変換する\n",
    "encoder = category_encoders.OneHotEncoder(cols=encoded_features, use_cat_names=True)\n",
    "encoder.fit(income_train_df[target_features])\n",
    "\n",
    "# ---------------------\n",
    "# ここから必要なコードを埋める\n",
    "\n",
    "\n",
    "# ここまで必要なコードを埋める\n",
    "# ---------------------\n",
    "\n",
    "# 学習用データを使って学習\n",
    "model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": []
   },
   "source": [
    "(C2-Q6)=\n",
    "### Q6: 決定木における各属性の寄与度\n",
    "構築した決定木モデル（`model`）を用いて，年収（`income`）の分類における各属性（列）の寄与度を表示しなさい．\n",
    "なお，寄与度がゼロのものは表示しなくてよい．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "editable": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "user_expressions": []
   },
   "source": [
    "(C2-Q7)=\n",
    "### Q7: 決定木の再構築\n",
    "Q6の結果をもとに年収分類に寄与する特徴量を（最大5つ）特定し，その特徴量のみを用いて再度決定木モデルを構築しなさい．\n",
    "その際，あまり木が深くならないよう調整し，できる限りシンプルなモデルになるようにすること．"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.7"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}