2.Pythonでデータ分析を始めよう!初心者向けガイド-データ確認方法入門編-

PR表記

※アフィリエイト広告を利用しています

どうもニコイチです。前回は、データを読み込む方法について学びました。でも、データを読み込んだだけでは不十分です。まるで届いた荷物の中身を確認せずに使い始めるようなものです。今回は、読み込んだデータが正しいか、どんな内容なのかを確認する方法を、初心者の方でも分かりやすいように解説します。是非一緒に手を動かして行ってみてください。

目次

データの基本情報を知る方法

前回最後でも少し触りましたが、今回はきちんとデータについて確認していきます。

1. shape関数でデータの大きさを確認

df.shape

shape関数は、データの「行数」と「列数」を教えてくれます。

初心者向けヒント

  • shapeは「形」という意味で、表の大きさを表します 例えば、(100, 5)と表示された場合:
    • 100は行数(データの数)
    • 5は列数(項目の数)
  • これは「100人分のデータがあり、各人について5つの情報がある」という意味です

よくあるつまづきポイント

  • shape関数の結果は「タプル」という形式で返ってきます
  • df.shape[0]で行数だけ、df.shape[1]で列数だけを取得できます

2. head関数とtail関数でデータの中身を覗く

先程のshape関数にて何行で何列のデータか確認することができました。しかし、そのデータ確認方法では中身はわかりません。そこで、先頭と最後のデータを確認します。
# 先頭の5行を表示
df.head()

# 末尾の5行を表示
df.tail()

# 任意の行数を指定して表示(例:10行)
df.head(10)

初心者向けヒント

  • headは「頭」、tailは「尻尾」という意味です
  • 例えるなら、本の「立ち読み」のようなもので、全部見なくても内容の雰囲気がわかります
  • デフォルトでは5行表示されますが、括弧の中に数字を入れることで表示行数を変更できます

3. info関数でデータの詳細情報を確認

df.info()

info関数は、データフレームの「健康診断書」のようなものです。以下の情報が分かります:

  • 総行数 カラム(列)の名前
  • データ型
  • 欠損値の有無
  • メモリ使用量

表示例としては以下のようになります。

RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   名前           150 non-null    object 
 1   年齢           150 non-null    int64  
 2   身長           148 non-null    float64
 3   体重           147 non-null    float64

この例の読み方:

  • 全部で150行のデータがある
  • 4つの列(名前、年齢、身長、体重)がある
  • 身長は2人分、体重は3人分のデータが欠けている(欠損値がある)

データ型について理解しよう

数値データと文字列データの違い

データには大きく分けて2種類あります

  1. 数値データ(Numeric Data)
    • int64:整数(1, 2, 3…)
    • float64:小数点がある数値(1.5, 2.3…)
    👉 例え
    • int64は、人数や年齢のように「かける0.5」がない数字
    • float64は、身長や体重のように「170.5cm」といった小数点がある数字
  2. 文字列データ(object)
    • 文字や記号を含むデータ
    • 例:名前、住所、カテゴリー
    👉 例え
    • Excelで数式が使えないセルのようなもの
    • 計算はできませんが、「グループ分け」や「検索」には使えます

🚫 よくあるつまずきポイント

  1. 数字でも文字列として保存されているケース
# 間違った例(文字列の数字)
"1234"  # これは計算できません

# 正しい例(数値)
1234    # これは計算できます

2.データ型の変換が必要な場合

# 文字列の数字を数値に変換
df['列名'] = pd.to_numeric(df['列名'])

データ確認の実践的な手順

STEP
shape

まずshapeでデータサイズを確認

STEP
head

head()で先頭部分を確認し、カラム名や値が期待通りか確認

STEP
info

info()で各列のデータ型と欠損値を確認

STEP
tail

必要に応じてtail()で末尾も確認

まとめ

  • データ分析で最も重要なのは、まず自分のデータをよく知ることです
  • shape、head/tail、info関数は、データを理解するための基本的なツールです
  • データ型を正しく理解することで、後の分析がスムーズになります

📌 実践のコツ

新しいデータを読み込んだら、必ずこれらの確認を習慣にしましょう。それによって、データの問題点を早期に発見でき、分析の質が向上します。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次