17.Pythonでデータ分析を始めよう！初心者向けガイド-データ分割入門編-

2025年1月6日

どうもニコイチです。前回はモデル作成の概要をお伝えしました。今回から実際にモデル作成に写っていきます。まずは、データを分割していきます。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('bank_data.csv')

# 特徴量の準備（数値型のみを使用）
X = df[['age', 'balance', 'duration']]
y = df['y']

# データ分割
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.25,    # テストデータの比率
    random_state=42,   # 再現性のための固定値
    stratify=y        # 目的変数の比率を維持
)

# モデル学習
model = LogisticRegression()
model.fit(X_train, y_train)

# 予測
train_pred = model.predict(X_train)
test_pred = model.predict(X_test)

# 結果の可視化
plt.figure(figsize=(12, 4))

# 学習データとテストデータのサイズ比較
plt.subplot(1, 2, 1)
sizes = [len(X_train), len(X_test)]
labels = ['学習データ\n({:,}件)'.format(len(X_train)), 
          'テストデータ\n({:,}件)'.format(len(X_test))]
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.title('データ分割の比率')

# 精度比較
plt.subplot(1, 2, 2)
accuracies = [
    accuracy_score(y_train, train_pred) * 100,
    accuracy_score(y_test, test_pred) * 100
]
plt.bar(['学習データ', 'テストデータ'], accuracies)
plt.ylim(0, 100)
plt.title('予測精度の比較')
plt.ylabel('精度 (%)')

for i, v in enumerate(accuracies):
    plt.text(i, v + 1, f'{v:.1f}%', ha='center')

plt.tight_layout()
plt.show()

# 結果の詳細表示
print(f"データ総数: {len(df):,}件")
print(f"学習データ: {len(X_train):,}件")
print(f"テストデータ: {len(X_test):,}件")
print(f"\n学習データの精度: {accuracies[0]:.1f}%")
print(f"テストデータの精度: {accuracies[1]:.1f}%")