5.Pyhonでデータ分析-describe関数入門-

PR表記

※アフィリエイト広告を利用しています

前回の記事で、特徴量とはなにかに触れました。今回は、実際にPythonを使ってデータを解析する際に、describe関数を用いて特徴量を確認します。量的なデータはそのまま利用できますが、質的なデータは一般的なdescribeの記述だけでは全てを確認できません。

そこで、賊裁用の引数として、describe(include=[“O”])の使い方を解説します。

注意: ここのO(オー)は数字の0(ゼロ)ではありません。

目次

データの概要と解析

下記は、読み込んだCSVデータをdescribe関数で解析した結果です。

Pyhonコード

import pandas as pd

# ファイルの読み込み
file_path = '/mnt/data/定期貯金契約に関するデモデータ - シート1.csv'
data = pd.read_csv(file_path)

# データの概要を確認
data_summary = data.describe(include="all")
object_summary = data.describe(include=["O"])  # 質的データに特化

data_summary, object_summary

全体的なデータの概要

| Column | Count | Unique | Top Value | Frequency | Mean | Std | Min | 25% | 50% | 75% | Max | |——–|——-|——–|———–|———–|——|—–|—–|—–|—–|—–| | id | 999 | – | – | – | 500 | 288 | 1 | 250 | 500 | 750 | 999 | | age | 999 | – | – | – | 54.3 | 21 | 18 | 36 | 55 | 73 | 90 | | balance| 999 | – | – | – | 4421 | 3185| -980| 1776| 4284| 7132| 9978| | job | 999 | 10 | services | 116 | – | – | – | – | – | – | – |

質的データの詳細情報

ColumnCountUniqueTop ValueFrequency
job99910services116
marital9993single366
default9992no952
housing9992no958
loan9992no947
contact9993unknown348
month99912nov100
poutcome9994success262

解説

  • describe(include="all")は、数字型データと質的データを一緒に概要を出力します。
  • 質的データのみを解析したい場合は、describe(include=["O"])を使用します。

ヒント

  • 引数の"O"は大文字のオーで、0ゼロとは異なります。このミスに注意して使用しましょう。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次