前回の記事で、特徴量とはなにかに触れました。今回は、実際にPythonを使ってデータを解析する際に、describe
関数を用いて特徴量を確認します。量的なデータはそのまま利用できますが、質的なデータは一般的なdescribe
の記述だけでは全てを確認できません。
そこで、賊裁用の引数として、describe(include=[“O”])の使い方を解説します。
注意: ここのO(オー)は数字の0(ゼロ)ではありません。
目次
データの概要と解析
下記は、読み込んだCSVデータをdescribe
関数で解析した結果です。
Pyhonコード
import pandas as pd
# ファイルの読み込み
file_path = '/mnt/data/定期貯金契約に関するデモデータ - シート1.csv'
data = pd.read_csv(file_path)
# データの概要を確認
data_summary = data.describe(include="all")
object_summary = data.describe(include=["O"]) # 質的データに特化
data_summary, object_summary
全体的なデータの概要
| Column | Count | Unique | Top Value | Frequency | Mean | Std | Min | 25% | 50% | 75% | Max | |——–|——-|——–|———–|———–|——|—–|—–|—–|—–|—–| | id | 999 | – | – | – | 500 | 288 | 1 | 250 | 500 | 750 | 999 | | age | 999 | – | – | – | 54.3 | 21 | 18 | 36 | 55 | 73 | 90 | | balance| 999 | – | – | – | 4421 | 3185| -980| 1776| 4284| 7132| 9978| | job | 999 | 10 | services | 116 | – | – | – | – | – | – | – |
質的データの詳細情報
Column | Count | Unique | Top Value | Frequency |
---|---|---|---|---|
job | 999 | 10 | services | 116 |
marital | 999 | 3 | single | 366 |
default | 999 | 2 | no | 952 |
housing | 999 | 2 | no | 958 |
loan | 999 | 2 | no | 947 |
contact | 999 | 3 | unknown | 348 |
month | 999 | 12 | nov | 100 |
poutcome | 999 | 4 | success | 262 |
解説
describe(include="all")
は、数字型データと質的データを一緒に概要を出力します。- 質的データのみを解析したい場合は、
describe(include=["O"])
を使用します。
ヒント
- 引数の
"O"
は大文字のオーで、0ゼロとは異なります。このミスに注意して使用しましょう。
コメント