{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "# 決定木から始める機械学習"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "tags": [
     "hidden-input",
     "hidden-output",
     "remove-input",
     "remove-output"
    ]
   },
   "outputs": [],
   "source": [
    "try:\n",
    "    import category_encoders\n",
    "    import graphviz\n",
    "except:\n",
    "    !pip install graphviz\n",
    "    !pip install category_encoders"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 表形式のデータを操作するためのライブラリ\n",
    "import pandas as pd\n",
    "\n",
    "# 機械学習用ライブラリsklearn\n",
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.tree import DecisionTreeClassifier\n",
    "from sklearn.metrics import accuracy_score\n",
    "from sklearn.tree import export_graphviz\n",
    "\n",
    "# その他\n",
    "import category_encoders\n",
    "\n",
    "# グラフ描画ライブラリ\n",
    "from graphviz import Source\n",
    "import matplotlib.pyplot as plt\n",
    "%matplotlib inline"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "\n",
    "---"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "## クイズ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "以下のコードを実行して`income_df`に格納されるデータは，ある年にアメリカで実施された国勢調査のデータである．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>age</th>\n",
       "      <th>workclass</th>\n",
       "      <th>fnlwgt</th>\n",
       "      <th>education</th>\n",
       "      <th>education-num</th>\n",
       "      <th>marital-status</th>\n",
       "      <th>occupation</th>\n",
       "      <th>relationship</th>\n",
       "      <th>race</th>\n",
       "      <th>sex</th>\n",
       "      <th>capital-gain</th>\n",
       "      <th>capital-loss</th>\n",
       "      <th>hours-per-week</th>\n",
       "      <th>native-country</th>\n",
       "      <th>income</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>39</td>\n",
       "      <td>State-gov</td>\n",
       "      <td>77516</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Never-married</td>\n",
       "      <td>Adm-clerical</td>\n",
       "      <td>Not-in-family</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>2174</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>50</td>\n",
       "      <td>Self-emp-not-inc</td>\n",
       "      <td>83311</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Exec-managerial</td>\n",
       "      <td>Husband</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>13</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>38</td>\n",
       "      <td>Private</td>\n",
       "      <td>215646</td>\n",
       "      <td>HS-grad</td>\n",
       "      <td>9</td>\n",
       "      <td>Divorced</td>\n",
       "      <td>Handlers-cleaners</td>\n",
       "      <td>Not-in-family</td>\n",
       "      <td>White</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>53</td>\n",
       "      <td>Private</td>\n",
       "      <td>234721</td>\n",
       "      <td>11th</td>\n",
       "      <td>7</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Handlers-cleaners</td>\n",
       "      <td>Husband</td>\n",
       "      <td>Black</td>\n",
       "      <td>Male</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>United-States</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>28</td>\n",
       "      <td>Private</td>\n",
       "      <td>338409</td>\n",
       "      <td>Bachelors</td>\n",
       "      <td>13</td>\n",
       "      <td>Married-civ-spouse</td>\n",
       "      <td>Prof-specialty</td>\n",
       "      <td>Wife</td>\n",
       "      <td>Black</td>\n",
       "      <td>Female</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>40</td>\n",
       "      <td>Cuba</td>\n",
       "      <td>&lt;=50K</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   age          workclass  fnlwgt   education  education-num  \\\n",
       "0   39          State-gov   77516   Bachelors             13   \n",
       "1   50   Self-emp-not-inc   83311   Bachelors             13   \n",
       "2   38            Private  215646     HS-grad              9   \n",
       "3   53            Private  234721        11th              7   \n",
       "4   28            Private  338409   Bachelors             13   \n",
       "\n",
       "        marital-status          occupation    relationship    race      sex  \\\n",
       "0        Never-married        Adm-clerical   Not-in-family   White     Male   \n",
       "1   Married-civ-spouse     Exec-managerial         Husband   White     Male   \n",
       "2             Divorced   Handlers-cleaners   Not-in-family   White     Male   \n",
       "3   Married-civ-spouse   Handlers-cleaners         Husband   Black     Male   \n",
       "4   Married-civ-spouse      Prof-specialty            Wife   Black   Female   \n",
       "\n",
       "   capital-gain  capital-loss  hours-per-week  native-country  income  \n",
       "0          2174             0              40   United-States   <=50K  \n",
       "1             0             0              13   United-States   <=50K  \n",
       "2             0             0              40   United-States   <=50K  \n",
       "3             0             0              40   United-States   <=50K  \n",
       "4             0             0              40            Cuba   <=50K  "
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# データの読み込み\n",
    "income_df = pd.read_table(\"https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data\", sep=',', header=None)\n",
    "\n",
    "# 列名（特徴）に名前を付ける\n",
    "income_df.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', \n",
    "                     'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']\n",
    "\n",
    "# データ表示（先頭5件）\n",
    "income_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "データ中の列名（特徴量）の意味は以下の通りである：\n",
    "\n",
    "* age: 年齢（整数）\n",
    "* workclass: 雇用形態（公務員，会社員など）\n",
    "* fnlwgt: 使わない\n",
    "* education: 学歴\n",
    "* education-num: 使わない\n",
    "* marital-status: 婚姻状態\n",
    "* occupation: 職業\n",
    "* relationship: 家族内における役割\n",
    "* race: 人種\n",
    "* sex: 性別\n",
    "* capital-gain: 使わない\n",
    "* capital-loss: 使わない\n",
    "* hours-per-week: 週あたりの労働時間（整数値）\n",
    "* native-country: 出身国\n",
    "* income: 年収（50Kドル以上，50Kドル未満の二値）\n",
    "\n",
    "このデータに対して決定木アルゴリズムを適用して，ある人物が年間収入が50Kドル以上か未満かを分類する機械学習モデルを構築したい．"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(L2-Q1)=\n",
    "### Q1: ヒストグラム \n",
    "機械学習モデルを構築する前に，`income_df`データに含まれる調査対象者の年齢の分布を知りたい．\n",
    "年齢に関するヒストグラム（階級数は10）を作成せよ．\n",
    "\n",
    "※ ヒント: ヒストグラムの作成には`pandas.series.hist`関数を用いるとよい（[参考](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html)）"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<AxesSubplot:>"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAX0AAAD4CAYAAAAAczaOAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWH0lEQVR4nO3dfYxc1X3G8e8TnIDjTb12ICvXdmsqLBBhi8Er2yhptIsbYyCKUUUQkRUW5Nb/OClUroppRZ3wojoqhIKUoFqxG5MXNtQJxXIIxDVetVTCgMOL36DegAleGTvBxumCQ7r01z/uWTJs1t6Z3dnZGc7zkVY799xz5/7m7bl3zty5o4jAzMzy8IHxLsDMzGrHoW9mlhGHvplZRhz6ZmYZceibmWVkwngXcDKnn356zJo1q2bre/PNN5k0aVLN1jdSjVBnI9QIrrPaGqHORqgRRlfnjh07fhkRZww5MyLq9m/u3LlRS9u2bavp+kaqEepshBojXGe1NUKdjVBjxOjqBJ6OE+Sqh3fMzDLi0Dczy4hD38wsIw59M7OMOPTNzDLi0Dczy4hD38wsIw59M7OMOPTNzDJS16dhsMYxa9WP3jO9srWfawe1jYX9ay4f83WYvZ94T9/MLCNlhb6kZkkbJb0gaa+kiyRNlbRF0r70f0rqK0n3SOqR9LykC0uupzP13yepc6xulJmZDa3cPf27gUci4hzgfGAvsArYGhGzga1pGuBSYHb6Ww7cCyBpKrAamA/MA1YPbCjMzKw2hh3TlzQZ+BRwLUBE/Ab4jaQlQHvqtgHoBm4ElgD3pTO9PZHeJUxLfbdExJF0vVuAxcD91bs5eRs8rm5mNpiKbD5JB2kOsBbYQ7GXvwO4HuiNiObUR8DRiGiWtBlYExGPp3lbKTYG7cBpEXFbar8ZOB4Rdwxa33KKdwi0tLTM7erqqsoNLUdfXx9NTU01W99InajOnb3HxqGaobVMhEPHx349rdMnj2r5Rn/M600j1NkINcLo6uzo6NgREW1DzSvn6J0JwIXAlyJiu6S7+e1QDgAREZJOvvUoU0SspdjI0NbWFu3t7dW42rJ0d3dTy/WN1InqrMXRMuVa2drPnTvH/uCw/UvbR7V8oz/m9aYR6myEGmHs6ixnTP8AcCAitqfpjRQbgUNp2Ib0/3Ca3wvMLFl+Rmo7UbuZmdXIsKEfEa8Br0o6OzUtpBjq2QQMHIHTCTyULm8CrklH8SwAjkXEQeBRYJGkKekD3EWpzczMaqTc999fAr4r6UPAS8B1FBuMByQtA14Brkp9HwYuA3qAt1JfIuKIpFuBp1K/WwY+1H2/GesPVGv1xScze/8pK/Qj4llgqA8FFg7RN4AVJ7ie9cD6CuozM7Mq8jdyzcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy8r7+jdxKT4fg0xuY2fud9/TNzDLi0Dczy4hD38wsIw59M7OMOPTNzDLi0Dczy4hD38wsIw59M7OMOPTNzDLi0Dczy4hD38wsIw59M7OMOPTNzDLi0Dczy4hD38wsI2WFvqT9knZKelbS06ltqqQtkval/1NSuyTdI6lH0vOSLiy5ns7Uf5+kzrG5SWZmdiKV7Ol3RMSciGhL06uArRExG9iapgEuBWanv+XAvVBsJIDVwHxgHrB6YENhZma1MZrhnSXAhnR5A3BFSft9UXgCaJY0DbgE2BIRRyLiKLAFWDyK9ZuZWYUUEcN3kl4GjgIB/HNErJX0RkQ0p/kCjkZEs6TNwJqIeDzN2wrcCLQDp0XEban9ZuB4RNwxaF3LKd4h0NLSMrerq2vEN25n77GK+rdMhEPHR7y6mmmEOmtVY+v0yaNavq+vj6ampipVM3ZcZ/U0Qo0wujo7Ojp2lIzKvEe5v5H7yYjolfQxYIukF0pnRkRIGn7rUYaIWAusBWhra4v29vYRX1elv3e7srWfO3fW/88GN0Kdtapx/9L2US3f3d3NaJ5jteI6q6cRaoSxq7Os4Z2I6E3/DwMPUozJH0rDNqT/h1P3XmBmyeIzUtuJ2s3MrEaGDX1JkyR9ZOAysAjYBWwCBo7A6QQeSpc3Adeko3gWAMci4iDwKLBI0pT0Ae6i1GZmZjVSzvvvFuDBYtieCcD3IuIRSU8BD0haBrwCXJX6PwxcBvQAbwHXAUTEEUm3Ak+lfrdExJGq3RIzMxvWsKEfES8B5w/R/jqwcIj2AFac4LrWA+srL9PMzKrB38g1M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwyUnboSzpF0jOSNqfpMyVtl9Qj6fuSPpTaT03TPWn+rJLruCm1vyjpkqrfGjMzO6lK9vSvB/aWTH8VuCsizgKOAstS+zLgaGq/K/VD0rnA1cDHgcXANySdMrryzcysEmWFvqQZwOXAN9O0gIuBjanLBuCKdHlJmibNX5j6LwG6IuLtiHgZ6AHmVeE2mJlZmRQRw3eSNgL/AHwE+GvgWuCJtDePpJnAjyPiPEm7gMURcSDN+xkwH/hyWuY7qX1dWmbjoHUtB5YDtLS0zO3q6hrxjdvZe6yi/i0T4dDxEa+uZhqhzlrV2Dp98qiW7+vro6mpqUrVjB3XWT2NUCOMrs6Ojo4dEdE21LwJwy0s6TPA4YjYIal9RBVUICLWAmsB2traor195Ku8dtWPKuq/srWfO3cOe5eMu0aos1Y17l/aPqrlu7u7Gc1zrFZcZ/U0Qo0wdnWW86r8BPBZSZcBpwG/B9wNNEuaEBH9wAygN/XvBWYCByRNACYDr5e0DyhdxmxEZlW4YR9sZWt/xTsHA/avuXxU6zYbD8OO6UfETRExIyJmUXwQ+1hELAW2AVembp3AQ+nypjRNmv9YFGNIm4Cr09E9ZwKzgSerdkvMzGxYo3n/fSPQJek24BlgXWpfB3xbUg9whGJDQUTslvQAsAfoB1ZExDujWL+ZmVWootCPiG6gO11+iSGOvomIXwOfO8HytwO3V1qkmZlVh7+Ra2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWkWFDX9Jpkp6U9Jyk3ZK+ktrPlLRdUo+k70v6UGo/NU33pPmzSq7rptT+oqRLxuxWmZnZkMrZ038buDgizgfmAIslLQC+CtwVEWcBR4Flqf8y4Ghqvyv1Q9K5wNXAx4HFwDcknVLF22JmZsMYNvSj0JcmP5j+ArgY2JjaNwBXpMtL0jRp/kJJSu1dEfF2RLwM9ADzqnEjzMysPIqI4TsVe+Q7gLOArwP/CDyR9uaRNBP4cUScJ2kXsDgiDqR5PwPmA19Oy3wnta9Ly2wctK7lwHKAlpaWuV1dXSO+cTt7j1XUv2UiHDo+4tXVTCPU2Qg1wujqbJ0+ubrFnERfXx9NTU01W99INUKdjVAjjK7Ojo6OHRHRNtS8CeVcQUS8A8yR1Aw8CJwzokrKW9daYC1AW1tbtLe3j/i6rl31o4r6r2zt586dZd0l46oR6myEGmF0de5f2l7dYk6iu7ub0bwWaqUR6myEGmHs6qzo6J2IeAPYBlwENEsaeLXMAHrT5V5gJkCaPxl4vbR9iGXMzKwGyjl654y0h4+kicCngb0U4X9l6tYJPJQub0rTpPmPRTGGtAm4Oh3dcyYwG3iySrfDzMzKUM772mnAhjSu/wHggYjYLGkP0CXpNuAZYF3qvw74tqQe4AjFETtExG5JDwB7gH5gRRo2MjOzGhk29CPieeCCIdpfYoijbyLi18DnTnBdtwO3V16mmZlVg7+Ra2aWEYe+mVlGHPpmZhlx6JuZZcShb2aWEYe+mVlGHPpmZhlx6JuZZaT+z4hlVqdmVXhCv9FY2dr/7gkE96+5vGbrtfcf7+mbmWXEoW9mlhGHvplZRhz6ZmYZceibmWXEoW9mlhGHvplZRhz6ZmYZceibmWXEoW9mlhGHvplZRhz6ZmYZceibmWXEoW9mlhGHvplZRoYNfUkzJW2TtEfSbknXp/apkrZI2pf+T0ntknSPpB5Jz0u6sOS6OlP/fZI6x+5mmZnZUMrZ0+8HVkbEucACYIWkc4FVwNaImA1sTdMAlwKz099y4F4oNhLAamA+MA9YPbChMDOz2hg29CPiYET8NF3+H2AvMB1YAmxI3TYAV6TLS4D7ovAE0CxpGnAJsCUijkTEUWALsLiaN8bMzE6uojF9SbOAC4DtQEtEHEyzXgNa0uXpwKslix1IbSdqNzOzGin7N3IlNQE/AG6IiF9JendeRISkqEZBkpZTDAvR0tJCd3f3iK9rZWt/Rf1bJla+zHhohDoboUZozDpH85oYa319fXVdHzRGjTB2dZYV+pI+SBH4342IH6bmQ5KmRcTBNHxzOLX3AjNLFp+R2nqB9kHt3YPXFRFrgbUAbW1t0d7ePrhL2a6t8IerV7b2c+fO+v+t+EaosxFqhMasc//S9vEt5iS6u7sZzWu2FhqhRhi7Oss5ekfAOmBvRHytZNYmYOAInE7goZL2a9JRPAuAY2kY6FFgkaQp6QPcRanNzMxqpJxdnE8AXwB2Sno2tf0tsAZ4QNIy4BXgqjTvYeAyoAd4C7gOICKOSLoVeCr1uyUijlTjRpiZWXmGDf2IeBzQCWYvHKJ/ACtOcF3rgfWVFGhmZtXjb+SamWXEoW9mlhGHvplZRhz6ZmYZceibmWXEoW9mlhGHvplZRhz6ZmYZqf+TjpjZe8yq8JxS1bR/zeXjtm6rDu/pm5llxKFvZpYRh76ZWUYc+mZmGXHom5llxKFvZpYRh76ZWUYc+mZmGXHom5llxKFvZpYRh76ZWUYc+mZmGXHom5llxKFvZpYRh76ZWUYc+mZmGRk29CWtl3RY0q6StqmStkjal/5PSe2SdI+kHknPS7qwZJnO1H+fpM6xuTlmZnYy5ezpfwtYPKhtFbA1ImYDW9M0wKXA7PS3HLgXio0EsBqYD8wDVg9sKMzMrHaGDf2I+A/gyKDmJcCGdHkDcEVJ+31ReAJoljQNuATYEhFHIuIosIXf3ZCYmdkYU0QM30maBWyOiPPS9BsR0ZwuCzgaEc2SNgNrIuLxNG8rcCPQDpwWEbel9puB4xFxxxDrWk7xLoGWlpa5XV1dI75xO3uPVdS/ZSIcOj7i1dVMI9TZCDWC66xU6/TJJ53f19dHU1NTjaoZmUaoEUZXZ0dHx46IaBtq3qh/GD0iQtLwW47yr28tsBagra0t2tvbR3xd11b4A9IrW/u5c2f9/1Z8I9TZCDWC66zU/qXtJ53f3d3NaF6ztdAINcLY1TnSo3cOpWEb0v/Dqb0XmFnSb0ZqO1G7mZnV0EhDfxMwcAROJ/BQSfs16SieBcCxiDgIPAoskjQlfYC7KLWZmVkNDft+UdL9FGPyp0s6QHEUzhrgAUnLgFeAq1L3h4HLgB7gLeA6gIg4IulW4KnU75aIGPzhsJmZjbFhQz8iPn+CWQuH6BvAihNcz3pgfUXVmZlZVfkbuWZmGXHom5llxKFvZpYRh76ZWUYc+mZmGXHom5llxKFvZpYRh76ZWUYc+mZmGXHom5llxKFvZpaR8T9Bt5k1jFnD/EbFytb+in/Hohz711xe9evMlff0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIQ9/MLCMOfTOzjDj0zcwy4tA3M8uIT8NgZnVvuNM/VKKSU0W8H0//4D19M7OMOPTNzDJS89CXtFjSi5J6JK2q9frNzHJW0zF9SacAXwc+DRwAnpK0KSL21LIOM7NyVPOzhEp9a/GkMbneWu/pzwN6IuKliPgN0AUsqXENZmbZUkTUbmXSlcDiiPjzNP0FYH5EfLGkz3JgeZo8G3ixZgXC6cAva7i+kWqEOhuhRnCd1dYIdTZCjTC6Ov8wIs4YakbdHbIZEWuBteOxbklPR0TbeKy7Eo1QZyPUCK6z2hqhzkaoEcauzloP7/QCM0umZ6Q2MzOrgVqH/lPAbElnSvoQcDWwqcY1mJllq6bDOxHRL+mLwKPAKcD6iNhdyxqGMS7DSiPQCHU2Qo3gOqutEepshBphjOqs6Qe5ZmY2vvyNXDOzjDj0zcwykmXoS5opaZukPZJ2S7o+tU+VtEXSvvR/yjjXeZqkJyU9l+r8Smo/U9L2dCqL76cPxcedpFMkPSNpc5quuzol7Ze0U9Kzkp5ObfX2uDdL2ijpBUl7JV1UhzWene7Dgb9fSbqh3upMtf5Vev3sknR/el3V1XNT0vWpvt2SbkhtY3JfZhn6QD+wMiLOBRYAKySdC6wCtkbEbGBrmh5PbwMXR8T5wBxgsaQFwFeBuyLiLOAosGz8SnyP64G9JdP1WmdHRMwpOQa63h73u4FHIuIc4HyK+7SuaoyIF9N9OAeYC7wFPEid1SlpOvCXQFtEnEdxAMnV1NFzU9J5wF9QnLHgfOAzks5irO7LiMj+D3iI4nxALwLTUts04MXxrq2kxg8DPwXmU3xLb0Jqvwh4tA7qm5GemBcDmwHVaZ37gdMHtdXN4w5MBl4mHWRRjzUOUfMi4L/qsU5gOvAqMJXiaMXNwCX19NwEPgesK5m+Gfibsbovc93Tf5ekWcAFwHagJSIOplmvAS3jVdeANGTyLHAY2AL8DHgjIvpTlwMUT+zx9k8UT9T/S9MfpT7rDOAnknakU35AfT3uZwK/AP4lDZV9U9Ik6qvGwa4G7k+X66rOiOgF7gB+DhwEjgE7qK/n5i7gTyR9VNKHgcsovsQ6Jvdl1qEvqQn4AXBDRPyqdF4Um9dxP541It6J4i30DIq3f+eMb0W/S9JngMMRsWO8aynDJyPiQuBSimG9T5XOrIPHfQJwIXBvRFwAvMmgt/V1UOO70lj4Z4F/HTyvHupM4+BLKDamvw9MAhaPZ02DRcReiuGmnwCPAM8C7wzqU7X7MtvQl/RBisD/bkT8MDUfkjQtzZ9GsXddFyLiDWAbxVvRZkkDX6yrh1NZfAL4rKT9FGdOvZhiXLre6hzY8yMiDlOMQc+jvh73A8CBiNiepjdSbATqqcZSlwI/jYhDabre6vxT4OWI+EVE/C/wQ4rna109NyNiXUTMjYhPUXzG8N+M0X2ZZehLErAO2BsRXyuZtQnoTJc7Kcb6x42kMyQ1p8sTKT532EsR/lembuNeZ0TcFBEzImIWxVv9xyJiKXVWp6RJkj4ycJliLHoXdfS4R8RrwKuSzk5NC4E91FGNg3ye3w7tQP3V+XNggaQPp9f9wP1Zb8/Nj6X/fwD8GfA9xuq+HM8PWcbxg5NPUrxVep7irdSzFONoH6X4MHIf8O/A1HGu84+BZ1Kdu4C/T+1/BDwJ9FC8rT51vO/Tkprbgc31WGeq57n0txv4u9Reb4/7HODp9Lj/GzCl3mpMdU4CXgcml7TVY51fAV5Ir6FvA6fW4XPzPyk2Rs8BC8fyvvRpGMzMMpLl8I6ZWa4c+mZmGXHom5llxKFvZpYRh76ZWUYc+mZmGXHom5ll5P8B0zpbKcr8gKEAAAAASUVORK5CYII=\n",
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "income_df['age'].hist(bins=10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(L2-Q2)=\n",
    "### Q2: 出現頻度\n",
    "機械学習モデルを構築する前に，`income_df`データに含まれる性別，年収の分布を知りたい．\n",
    "性別（男，女），年収（50K以上，50K未満）について，属性値に対応する人数を求めよ．\n",
    "\n",
    "※ ヒント: 要素の出現頻度を求めるには`pandas.series.value_counts`メソッドを用いるとよい（[参考](https://note.nkmk.me/python-pandas-value-counts/)）"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       " Male      21790\n",
       " Female    10771\n",
       "Name: sex, dtype: int64"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "income_df['sex'].value_counts()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       " <=50K    24720\n",
       " >50K      7841\n",
       "Name: income, dtype: int64"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "income_df['income'].value_counts()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(L2-Q3)=\n",
    "### Q3: データの集約\n",
    "``income_df``データを集約し，学歴ごとに年間収入クラスの内訳（割合）を調べよ．\n",
    "\n",
    "※ ヒント: pandasの[crosstab](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)関数を使う（タイタニックの例でも使ったので，確認してみよう）"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>income</th>\n",
       "      <th>&lt;=50K</th>\n",
       "      <th>&gt;50K</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>education</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>10th</th>\n",
       "      <td>0.933548</td>\n",
       "      <td>0.066452</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11th</th>\n",
       "      <td>0.948936</td>\n",
       "      <td>0.051064</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12th</th>\n",
       "      <td>0.923788</td>\n",
       "      <td>0.076212</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1st-4th</th>\n",
       "      <td>0.964286</td>\n",
       "      <td>0.035714</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5th-6th</th>\n",
       "      <td>0.951952</td>\n",
       "      <td>0.048048</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7th-8th</th>\n",
       "      <td>0.938080</td>\n",
       "      <td>0.061920</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9th</th>\n",
       "      <td>0.947471</td>\n",
       "      <td>0.052529</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Assoc-acdm</th>\n",
       "      <td>0.751640</td>\n",
       "      <td>0.248360</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Assoc-voc</th>\n",
       "      <td>0.738784</td>\n",
       "      <td>0.261216</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Bachelors</th>\n",
       "      <td>0.585247</td>\n",
       "      <td>0.414753</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Doctorate</th>\n",
       "      <td>0.259080</td>\n",
       "      <td>0.740920</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>HS-grad</th>\n",
       "      <td>0.840491</td>\n",
       "      <td>0.159509</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Masters</th>\n",
       "      <td>0.443413</td>\n",
       "      <td>0.556587</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Preschool</th>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Prof-school</th>\n",
       "      <td>0.265625</td>\n",
       "      <td>0.734375</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Some-college</th>\n",
       "      <td>0.809765</td>\n",
       "      <td>0.190235</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "income            <=50K      >50K\n",
       "education                        \n",
       " 10th          0.933548  0.066452\n",
       " 11th          0.948936  0.051064\n",
       " 12th          0.923788  0.076212\n",
       " 1st-4th       0.964286  0.035714\n",
       " 5th-6th       0.951952  0.048048\n",
       " 7th-8th       0.938080  0.061920\n",
       " 9th           0.947471  0.052529\n",
       " Assoc-acdm    0.751640  0.248360\n",
       " Assoc-voc     0.738784  0.261216\n",
       " Bachelors     0.585247  0.414753\n",
       " Doctorate     0.259080  0.740920\n",
       " HS-grad       0.840491  0.159509\n",
       " Masters       0.443413  0.556587\n",
       " Preschool     1.000000  0.000000\n",
       " Prof-school   0.265625  0.734375\n",
       " Some-college  0.809765  0.190235"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.crosstab(income_df['education'], income_df['income'], normalize='index')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(L2-Q4)=\n",
    "### Q4: 学習のためのデータ分割\n",
    "`income_df`データに決定木アルゴリズムを適用するために，データを7:3に分割し，7割のデータを学習用データ（`income_train_df`），3割のデータを評価用データ（`income_test_df`）としなさい．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "# データを学習用（70%）と評価用（30%）に分割する\n",
    "income_train_df, income_test_df = train_test_split(\n",
    "                                income_df,\n",
    "                                test_size=0.3,\n",
    "                                random_state=1,\n",
    "                                stratify=income_df.income)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(L2-Q5)=\n",
    "### Q5: 決定木の構築\n",
    "\n",
    "以下は，「年齢」「雇用形態」「学歴」「婚姻の有無」「職業」「家族内における役割」「人種」「性別」「週あたりの労働時間」「出身国」の属性に着目して，`income_df`データから年収カテゴリを予測する決定木を構築するコードである．\n",
    "`# ---------- ` の間を埋めてコードを完成させなさい．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "DecisionTreeClassifier(criterion='entropy', max_depth=5)"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 注目する属性\n",
    "target_features = ['age', 'workclass', 'education', 'marital-status', 'occupation', \n",
    "                   'relationship', 'race', 'sex', 'hours-per-week', 'native-country']\n",
    "\n",
    "# 数値に変換したいカテゴリ変数\n",
    "encoded_features = ['education', 'workclass', 'marital-status', 'relationship', 'occupation', 'native-country', 'race', 'sex']\n",
    "\n",
    "# カテゴリ変数を数値情報に変換する\n",
    "encoder = category_encoders.OneHotEncoder(cols=encoded_features, use_cat_names=True)\n",
    "encoder.fit(income_train_df[target_features])\n",
    "\n",
    "# ---------------------\n",
    "# ここから必要なコードを埋める\n",
    "\n",
    "# 予測に用いる年収情報以外のすべての指標をX_trainに\n",
    "X_train = income_train_df[target_features]\n",
    "\n",
    "# カテゴリ変数を数値情報に変換\n",
    "X_train = encoder.transform(X_train)\n",
    "\n",
    "# y_trainは年収クラスをあらわす指標\n",
    "y_train = income_train_df.income\n",
    "\n",
    "# 学習器の定義（決定木を使う）\n",
    "model = DecisionTreeClassifier(criterion='entropy',\n",
    "                               max_depth=5)\n",
    "\n",
    "# ここまで必要なコードを埋める\n",
    "# ---------------------\n",
    "\n",
    "# 学習用データを使って学習\n",
    "model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(L2-Q6)=\n",
    "### Q6: 決定木における各属性の寄与度\n",
    "構築した決定木モデル（`model`）を用いて，年収（`income`）の分類における各属性（列）の寄与度を表示しなさい．\n",
    "なお，寄与度がゼロのものは表示しなくてよい．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "age\t0.0894604682456178\n",
      "workclass_ State-gov\t0.000640985686209342\n",
      "education_ Bachelors\t0.06141563902135156\n",
      "education_ Some-college\t0.006168600381132655\n",
      "education_ Prof-school\t0.003625407861733974\n",
      "education_ HS-grad\t0.00881490359411402\n",
      "education_ Masters\t0.010774717032624306\n",
      "marital-status_ Married-civ-spouse\t0.5943231227829802\n",
      "occupation_ Prof-specialty\t0.07941724495727506\n",
      "occupation_ Exec-managerial\t0.0643690097067649\n",
      "occupation_ Protective-serv\t0.0011395499411790816\n",
      "sex_ Male\t0.0020402074457221034\n",
      "sex_ Female\t0.0020803940555122083\n",
      "hours-per-week\t0.07499207892598281\n",
      "native-country_ Portugal\t0.0007376703617999955\n"
     ]
    }
   ],
   "source": [
    "for feature, importance in zip(X_train.columns, model.feature_importances_):\n",
    "    if importance > 0:\n",
    "        print(\"{}\\t{}\".format(feature, importance))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "user_expressions": []
   },
   "source": [
    "(L2-Q7)=\n",
    "### Q7: 決定木の再構築\n",
    "Q6の結果をもとに年収分類に寄与する特徴量を（最大5つ）特定し，その特徴量のみを用いて再度決定木モデルを構築しなさい．\n",
    "その際，あまり木が深くならないよう調整し，できる限りシンプルなモデルになるようにすること．"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "DecisionTreeClassifier(criterion='entropy', max_depth=3)"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "target_features = ['age', 'education', 'marital-status', 'occupation', 'hours-per-week']\n",
    "encoded_features = ['education', 'marital-status', 'occupation']\n",
    "\n",
    "encoder = category_encoders.OneHotEncoder(cols=encoded_features, use_cat_names=True)\n",
    "encoder.fit(income_train_df[target_features])\n",
    "\n",
    "X_train = income_train_df[target_features]\n",
    "X_train = encoder.transform(X_train)\n",
    "y_train = income_train_df.income\n",
    "\n",
    "# 学習\n",
    "model = DecisionTreeClassifier(criterion='entropy', max_depth=3)\n",
    "model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/svg+xml": [
       "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"no\"?>\n",
       "<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n",
       " \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n",
       "<!-- Generated by graphviz version 9.0.0 (20230911.1827)\n",
       " -->\n",
       "<!-- Title: Tree Pages: 1 -->\n",
       "<svg width=\"1310pt\" height=\"433pt\"\n",
       " viewBox=\"0.00 0.00 1309.50 433.00\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\n",
       "<g id=\"graph0\" class=\"graph\" transform=\"scale(1 1) rotate(0) translate(4 429)\">\n",
       "<title>Tree</title>\n",
       "<polygon fill=\"white\" stroke=\"none\" points=\"-4,4 -4,-429 1305.5,-429 1305.5,4 -4,4\"/>\n",
       "<!-- 0 -->\n",
       "<g id=\"node1\" class=\"node\">\n",
       "<title>0</title>\n",
       "<path fill=\"#eda978\" stroke=\"black\" d=\"M754.88,-425C754.88,-425 511.62,-425 511.62,-425 505.62,-425 499.62,-419 499.62,-413 499.62,-413 499.62,-354 499.62,-354 499.62,-348 505.62,-342 511.62,-342 511.62,-342 754.88,-342 754.88,-342 760.88,-342 766.88,-348 766.88,-354 766.88,-354 766.88,-413 766.88,-413 766.88,-419 760.88,-425 754.88,-425\"/>\n",
       "<text text-anchor=\"middle\" x=\"633.25\" y=\"-407.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">marital&#45;status_ Married&#45;civ&#45;spouse &lt;= 0.5</text>\n",
       "<text text-anchor=\"middle\" x=\"633.25\" y=\"-392.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.796</text>\n",
       "<text text-anchor=\"middle\" x=\"633.25\" y=\"-377.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 100.0%</text>\n",
       "<text text-anchor=\"middle\" x=\"633.25\" y=\"-362.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.759, 0.241]</text>\n",
       "<text text-anchor=\"middle\" x=\"633.25\" y=\"-347.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 1 -->\n",
       "<g id=\"node2\" class=\"node\">\n",
       "<title>1</title>\n",
       "<path fill=\"#e78a47\" stroke=\"black\" d=\"M536.25,-306C536.25,-306 400.25,-306 400.25,-306 394.25,-306 388.25,-300 388.25,-294 388.25,-294 388.25,-235 388.25,-235 388.25,-229 394.25,-223 400.25,-223 400.25,-223 536.25,-223 536.25,-223 542.25,-223 548.25,-229 548.25,-235 548.25,-235 548.25,-294 548.25,-294 548.25,-300 542.25,-306 536.25,-306\"/>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-288.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">hours&#45;per&#45;week &lt;= 42.5</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-273.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.353</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-258.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 54.2%</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-243.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.933, 0.067]</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-228.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;1 -->\n",
       "<g id=\"edge1\" class=\"edge\">\n",
       "<title>0&#45;&gt;1</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M575.54,-341.58C562.48,-332.32 548.5,-322.41 535.1,-312.9\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"537.34,-310.2 527.16,-307.27 533.29,-315.91 537.34,-310.2\"/>\n",
       "<text text-anchor=\"middle\" x=\"530.12\" y=\"-325.24\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">True</text>\n",
       "</g>\n",
       "<!-- 8 -->\n",
       "<g id=\"node9\" class=\"node\">\n",
       "<title>8</title>\n",
       "<path fill=\"#fae7d9\" stroke=\"black\" d=\"M857.5,-306C857.5,-306 693,-306 693,-306 687,-306 681,-300 681,-294 681,-294 681,-235 681,-235 681,-229 687,-223 693,-223 693,-223 857.5,-223 857.5,-223 863.5,-223 869.5,-229 869.5,-235 869.5,-235 869.5,-294 869.5,-294 869.5,-300 863.5,-306 857.5,-306\"/>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-288.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">education_ Bachelors &lt;= 0.5</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-273.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.992</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-258.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 45.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-243.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.553, 0.447]</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-228.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 0&#45;&gt;8 -->\n",
       "<g id=\"edge8\" class=\"edge\">\n",
       "<title>0&#45;&gt;8</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M682.91,-341.58C694,-332.44 705.86,-322.67 717.25,-313.29\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"719.19,-316.22 724.69,-307.16 714.74,-310.82 719.19,-316.22\"/>\n",
       "<text text-anchor=\"middle\" x=\"723.45\" y=\"-325.28\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">False</text>\n",
       "</g>\n",
       "<!-- 2 -->\n",
       "<g id=\"node3\" class=\"node\">\n",
       "<title>2</title>\n",
       "<path fill=\"#e68641\" stroke=\"black\" d=\"M299.5,-187C299.5,-187 177,-187 177,-187 171,-187 165,-181 165,-175 165,-175 165,-116 165,-116 165,-110 171,-104 177,-104 177,-104 299.5,-104 299.5,-104 305.5,-104 311.5,-110 311.5,-116 311.5,-116 311.5,-175 311.5,-175 311.5,-181 305.5,-187 299.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">age &lt;= 28.5</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.229</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 42.7%</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.963, 0.037]</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 1&#45;&gt;2 -->\n",
       "<g id=\"edge2\" class=\"edge\">\n",
       "<title>1&#45;&gt;2</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M387.81,-222.58C366.45,-211.71 343.33,-199.96 321.81,-189.01\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"323.57,-185.97 313.07,-184.56 320.4,-192.21 323.57,-185.97\"/>\n",
       "</g>\n",
       "<!-- 5 -->\n",
       "<g id=\"node6\" class=\"node\">\n",
       "<title>5</title>\n",
       "<path fill=\"#eb9c63\" stroke=\"black\" d=\"M529.5,-187C529.5,-187 407,-187 407,-187 401,-187 395,-181 395,-175 395,-175 395,-116 395,-116 395,-110 401,-104 407,-104 407,-104 529.5,-104 529.5,-104 535.5,-104 541.5,-110 541.5,-116 541.5,-116 541.5,-175 541.5,-175 541.5,-181 535.5,-187 529.5,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">age &lt;= 27.5</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.671</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 11.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.824, 0.176]</text>\n",
       "<text text-anchor=\"middle\" x=\"468.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 1&#45;&gt;5 -->\n",
       "<g id=\"edge5\" class=\"edge\">\n",
       "<title>1&#45;&gt;5</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M468.25,-222.58C468.25,-214.79 468.25,-206.53 468.25,-198.45\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"471.75,-198.71 468.25,-188.71 464.75,-198.71 471.75,-198.71\"/>\n",
       "</g>\n",
       "<!-- 3 -->\n",
       "<g id=\"node4\" class=\"node\">\n",
       "<title>3</title>\n",
       "<path fill=\"#e5823a\" stroke=\"black\" d=\"M134.5,-68C134.5,-68 12,-68 12,-68 6,-68 0,-62 0,-56 0,-56 0,-12 0,-12 0,-6 6,0 12,0 12,0 134.5,0 134.5,0 140.5,0 146.5,-6 146.5,-12 146.5,-12 146.5,-56 146.5,-56 146.5,-62 140.5,-68 134.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.062</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 19.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.993, 0.007]</text>\n",
       "<text text-anchor=\"middle\" x=\"73.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;3 -->\n",
       "<g id=\"edge3\" class=\"edge\">\n",
       "<title>2&#45;&gt;3</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M176.81,-103.73C162.45,-94.2 147.19,-84.07 132.91,-74.59\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"135.22,-71.92 124.95,-69.31 131.35,-77.76 135.22,-71.92\"/>\n",
       "</g>\n",
       "<!-- 4 -->\n",
       "<g id=\"node5\" class=\"node\">\n",
       "<title>4</title>\n",
       "<path fill=\"#e78946\" stroke=\"black\" d=\"M299.5,-68C299.5,-68 177,-68 177,-68 171,-68 165,-62 165,-56 165,-56 165,-12 165,-12 165,-6 171,0 177,0 177,0 299.5,0 299.5,0 305.5,0 311.5,-6 311.5,-12 311.5,-12 311.5,-56 311.5,-56 311.5,-62 305.5,-68 299.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.336</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 23.2%</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.938, 0.062]</text>\n",
       "<text text-anchor=\"middle\" x=\"238.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 2&#45;&gt;4 -->\n",
       "<g id=\"edge4\" class=\"edge\">\n",
       "<title>2&#45;&gt;4</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M238.25,-103.73C238.25,-95.88 238.25,-87.63 238.25,-79.67\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"241.75,-79.81 238.25,-69.81 234.75,-79.81 241.75,-79.81\"/>\n",
       "</g>\n",
       "<!-- 6 -->\n",
       "<g id=\"node7\" class=\"node\">\n",
       "<title>6</title>\n",
       "<path fill=\"#e68540\" stroke=\"black\" d=\"M464.5,-68C464.5,-68 342,-68 342,-68 336,-68 330,-62 330,-56 330,-56 330,-12 330,-12 330,-6 336,0 342,0 342,0 464.5,0 464.5,0 470.5,0 476.5,-6 476.5,-12 476.5,-12 476.5,-56 476.5,-56 476.5,-62 470.5,-68 464.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"403.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.209</text>\n",
       "<text text-anchor=\"middle\" x=\"403.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 2.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"403.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.967, 0.033]</text>\n",
       "<text text-anchor=\"middle\" x=\"403.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;6 -->\n",
       "<g id=\"edge6\" class=\"edge\">\n",
       "<title>5&#45;&gt;6</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M444.05,-103.73C439.07,-95.34 433.81,-86.47 428.78,-78.01\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"431.9,-76.41 423.79,-69.6 425.88,-79.99 431.9,-76.41\"/>\n",
       "</g>\n",
       "<!-- 7 -->\n",
       "<g id=\"node8\" class=\"node\">\n",
       "<title>7</title>\n",
       "<path fill=\"#eca572\" stroke=\"black\" d=\"M629.5,-68C629.5,-68 507,-68 507,-68 501,-68 495,-62 495,-56 495,-56 495,-12 495,-12 495,-6 501,0 507,0 507,0 629.5,0 629.5,0 635.5,0 641.5,-6 641.5,-12 641.5,-12 641.5,-56 641.5,-56 641.5,-62 635.5,-68 629.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"568.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.764</text>\n",
       "<text text-anchor=\"middle\" x=\"568.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 8.7%</text>\n",
       "<text text-anchor=\"middle\" x=\"568.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.778, 0.222]</text>\n",
       "<text text-anchor=\"middle\" x=\"568.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 5&#45;&gt;7 -->\n",
       "<g id=\"edge7\" class=\"edge\">\n",
       "<title>5&#45;&gt;7</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M505.49,-103.73C513.57,-94.88 522.12,-85.51 530.23,-76.63\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"532.66,-79.16 536.82,-69.42 527.49,-74.44 532.66,-79.16\"/>\n",
       "</g>\n",
       "<!-- 9 -->\n",
       "<g id=\"node10\" class=\"node\">\n",
       "<title>9</title>\n",
       "<path fill=\"#f6d3bb\" stroke=\"black\" d=\"M871.75,-187C871.75,-187 678.75,-187 678.75,-187 672.75,-187 666.75,-181 666.75,-175 666.75,-175 666.75,-116 666.75,-116 666.75,-110 672.75,-104 678.75,-104 678.75,-104 871.75,-104 871.75,-104 877.75,-104 883.75,-110 883.75,-116 883.75,-116 883.75,-175 883.75,-175 883.75,-181 877.75,-187 871.75,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">occupation_ Prof&#45;specialty &lt;= 0.5</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.968</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 37.4%</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.604, 0.396]</text>\n",
       "<text text-anchor=\"middle\" x=\"775.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;9 -->\n",
       "<g id=\"edge9\" class=\"edge\">\n",
       "<title>8&#45;&gt;9</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M775.25,-222.58C775.25,-214.79 775.25,-206.53 775.25,-198.45\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"778.75,-198.71 775.25,-188.71 771.75,-198.71 778.75,-198.71\"/>\n",
       "</g>\n",
       "<!-- 12 -->\n",
       "<g id=\"node13\" class=\"node\">\n",
       "<title>12</title>\n",
       "<path fill=\"#99cdf2\" stroke=\"black\" d=\"M1169.88,-187C1169.88,-187 956.62,-187 956.62,-187 950.62,-187 944.62,-181 944.62,-175 944.62,-175 944.62,-116 944.62,-116 944.62,-110 950.62,-104 956.62,-104 956.62,-104 1169.88,-104 1169.88,-104 1175.88,-104 1181.88,-110 1181.88,-116 1181.88,-116 1181.88,-175 1181.88,-175 1181.88,-181 1175.88,-187 1169.88,-187\"/>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-169.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">occupation_ Exec&#45;managerial &lt;= 0.5</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-154.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.912</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-139.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 8.5%</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-124.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.327, 0.673]</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-109.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &gt;50K</text>\n",
       "</g>\n",
       "<!-- 8&#45;&gt;12 -->\n",
       "<g id=\"edge12\" class=\"edge\">\n",
       "<title>8&#45;&gt;12</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M869.95,-225.03C896.26,-214.34 925.07,-202.63 952.23,-191.6\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"953.2,-194.99 961.15,-187.98 950.56,-188.5 953.2,-194.99\"/>\n",
       "</g>\n",
       "<!-- 10 -->\n",
       "<g id=\"node11\" class=\"node\">\n",
       "<title>10</title>\n",
       "<path fill=\"#f3c6a5\" stroke=\"black\" d=\"M794.5,-68C794.5,-68 672,-68 672,-68 666,-68 660,-62 660,-56 660,-56 660,-12 660,-12 660,-6 666,0 672,0 672,0 794.5,0 794.5,0 800.5,0 806.5,-6 806.5,-12 806.5,-12 806.5,-56 806.5,-56 806.5,-62 800.5,-68 794.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"733.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.937</text>\n",
       "<text text-anchor=\"middle\" x=\"733.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 33.1%</text>\n",
       "<text text-anchor=\"middle\" x=\"733.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.647, 0.353]</text>\n",
       "<text text-anchor=\"middle\" x=\"733.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &lt;=50K</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;10 -->\n",
       "<g id=\"edge10\" class=\"edge\">\n",
       "<title>9&#45;&gt;10</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M759.61,-103.73C756.5,-95.61 753.22,-87.05 750.06,-78.84\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"753.41,-77.8 746.56,-69.71 746.88,-80.3 753.41,-77.8\"/>\n",
       "</g>\n",
       "<!-- 11 -->\n",
       "<g id=\"node12\" class=\"node\">\n",
       "<title>11</title>\n",
       "<path fill=\"#84c2ef\" stroke=\"black\" d=\"M959.5,-68C959.5,-68 837,-68 837,-68 831,-68 825,-62 825,-56 825,-56 825,-12 825,-12 825,-6 831,0 837,0 837,0 959.5,0 959.5,0 965.5,0 971.5,-6 971.5,-12 971.5,-12 971.5,-56 971.5,-56 971.5,-62 965.5,-68 959.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"898.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.847</text>\n",
       "<text text-anchor=\"middle\" x=\"898.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 4.3%</text>\n",
       "<text text-anchor=\"middle\" x=\"898.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.274, 0.726]</text>\n",
       "<text text-anchor=\"middle\" x=\"898.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &gt;50K</text>\n",
       "</g>\n",
       "<!-- 9&#45;&gt;11 -->\n",
       "<g id=\"edge11\" class=\"edge\">\n",
       "<title>9&#45;&gt;11</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M821.05,-103.73C831.3,-94.61 842.16,-84.93 852.41,-75.81\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"854.57,-78.57 859.71,-69.31 849.92,-73.34 854.57,-78.57\"/>\n",
       "</g>\n",
       "<!-- 13 -->\n",
       "<g id=\"node14\" class=\"node\">\n",
       "<title>13</title>\n",
       "<path fill=\"#b1d8f5\" stroke=\"black\" d=\"M1124.5,-68C1124.5,-68 1002,-68 1002,-68 996,-68 990,-62 990,-56 990,-56 990,-12 990,-12 990,-6 996,0 1002,0 1002,0 1124.5,0 1124.5,0 1130.5,0 1136.5,-6 1136.5,-12 1136.5,-12 1136.5,-56 1136.5,-56 1136.5,-62 1130.5,-68 1124.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.956</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 5.8%</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.377, 0.623]</text>\n",
       "<text text-anchor=\"middle\" x=\"1063.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &gt;50K</text>\n",
       "</g>\n",
       "<!-- 12&#45;&gt;13 -->\n",
       "<g id=\"edge13\" class=\"edge\">\n",
       "<title>12&#45;&gt;13</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M1063.25,-103.73C1063.25,-95.88 1063.25,-87.63 1063.25,-79.67\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"1066.75,-79.81 1063.25,-69.81 1059.75,-79.81 1066.75,-79.81\"/>\n",
       "</g>\n",
       "<!-- 14 -->\n",
       "<g id=\"node15\" class=\"node\">\n",
       "<title>14</title>\n",
       "<path fill=\"#6fb8ec\" stroke=\"black\" d=\"M1289.5,-68C1289.5,-68 1167,-68 1167,-68 1161,-68 1155,-62 1155,-56 1155,-56 1155,-12 1155,-12 1155,-6 1161,0 1167,0 1167,0 1289.5,0 1289.5,0 1295.5,0 1301.5,-6 1301.5,-12 1301.5,-12 1301.5,-56 1301.5,-56 1301.5,-62 1295.5,-68 1289.5,-68\"/>\n",
       "<text text-anchor=\"middle\" x=\"1228.25\" y=\"-50.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">entropy = 0.751</text>\n",
       "<text text-anchor=\"middle\" x=\"1228.25\" y=\"-35.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">samples = 2.6%</text>\n",
       "<text text-anchor=\"middle\" x=\"1228.25\" y=\"-20.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">value = [0.215, 0.785]</text>\n",
       "<text text-anchor=\"middle\" x=\"1228.25\" y=\"-5.7\" font-family=\"Helvetica,sans-Serif\" font-size=\"14.00\">class = &gt;50K</text>\n",
       "</g>\n",
       "<!-- 12&#45;&gt;14 -->\n",
       "<g id=\"edge14\" class=\"edge\">\n",
       "<title>12&#45;&gt;14</title>\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M1124.69,-103.73C1139.05,-94.2 1154.31,-84.07 1168.59,-74.59\"/>\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"1170.15,-77.76 1176.55,-69.31 1166.28,-71.92 1170.15,-77.76\"/>\n",
       "</g>\n",
       "</g>\n",
       "</svg>\n"
      ],
      "text/plain": [
       "<graphviz.sources.Source at 0x3500e71c0>"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Source(export_graphviz(\n",
    "    model, out_file=None,\n",
    "    feature_names=X_train.columns,\n",
    "    class_names=['<=50K', '>50K'],\n",
    "    proportion=True,\n",
    "    filled=True, rounded=True # 見た目の調整\n",
    "))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}