4.Pythonではじめるデータ分析:宿泊価格予測入門-データの確認-

PR表記

※アフィリエイト広告を利用しています

こんにちは、ニコイチです!前回はPythonのライブラリについて基礎的な説明をしました。今回は、読み込んだデータが正しいかを確認する方法について、具体的に解説していきます。

全編はこちらから

目次

なぜデータ量の確認が重要なの?

スーパーでお買い物をするとき、レジで商品の個数を確認しますよね。同じように、データ分析でも「ちゃんと全部のデータが読み込めているか」を確認することが大切です。

例えば:

  • 1000件あるはずのデータが950件しかない
  • 10個あるはずの項目(列)が8個しかない
    → このような状態で分析を進めると、結果が間違ってしまいます!

データ量を確認する方法

1. shape属性を使う方法

shapeは、データフレームの「形」を教えてくれる便利な機能です。

import pandas as pd

# データの読み込み
data = pd.read_csv("宿泊価格について_demo.csv")

# データの形を確認
print(data.shape)

出力例:(100, 5)

  • 1つ目の数字(100):データの行数
  • 2つ目の数字(5):データの列数

2. 行数だけ、列数だけを確認したい場合

家族の人数を数えるように、データの行数や列数だけを個別に確認することもできます。

# 行数だけを確認
print(f"データの行数: {data.shape[0]}件")

# 列数だけを確認
print(f"項目の数: {data.shape[1]}個")

データ確認のコツと注意点

確認のタイミング

以下の時に必ずデータ量を確認しましょう:

  1. データを読み込んだ直後
  2. データの加工をした後
  3. データを保存する前

よくあるトラブルと対処法

  1. 予想より行数が少ない場合
  • CSVファイルが途中で切れていないか確認
  • 読み込み時のエンコーディングは正しいか確認
   # エンコーディングを指定して読み込む
   data = pd.read_csv("宿泊価格について_demo.csv", encoding='utf-8')
  1. 予想より列数が少ない場合
  • カンマの区切りが正しいか確認
  • 列名に余分な空白が入っていないか確認
   # 列名を確認
   print(data.columns.tolist())

データ量確認の実践例

実際の「宿泊価格について_demo.csv」を使って確認してみましょう:

import pandas as pd

# データ読み込み
hotel_data = pd.read_csv("宿泊価格について_demo.csv")

# 基本的なデータ量確認
print(f"全データ数: {hotel_data.shape[0]}件")
print(f"項目数: {hotel_data.shape[1]}個")

# より詳細な情報確認
print("\nデータの詳細情報:")
print(hotel_data.info())

まとめ

重要ポイント

  1. データ量の確認は分析の質を左右する重要なステップ
  2. shapeを使えば簡単にデータ量を確認できる
  3. 行数・列数は個別に確認することも可能
  4. データの加工前後で必ず確認する習慣をつける

次回予告

次回は「データの中身を詳しく確認する方法」について解説します。データの型や欠損値の確認方法を学んでいきましょう!

練習問題

  1. 自分の持っているCSVファイルでshapeを使ってみよう
  2. データの行数だけを取り出して、予想と合っているか確認してみよう

不明点があれば、コメント欄でお気軽に質問してください!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次