こんにちは、ニコイチです!前回はPythonのライブラリについて基礎的な説明をしました。今回は、読み込んだデータが正しいかを確認する方法について、具体的に解説していきます。
全編はこちらから
いきかちガジェットゲームLab:ガ…


0.Pythonではじめるデータ分析:宿泊価格予測入門-全編- | いきかちガジェットゲームLab:ガジェット・ゲー…
宿泊予約サービスにおける物件の適正価格を予測するデータ分析の基礎を学びます。本ガイドでは、データ分析の基本的な流れから、予測モデルの作成まで、実践的なステップを…
目次
なぜデータ量の確認が重要なの?
スーパーでお買い物をするとき、レジで商品の個数を確認しますよね。同じように、データ分析でも「ちゃんと全部のデータが読み込めているか」を確認することが大切です。
例えば:
- 1000件あるはずのデータが950件しかない
- 10個あるはずの項目(列)が8個しかない
→ このような状態で分析を進めると、結果が間違ってしまいます!
データ量を確認する方法
1. shape属性を使う方法
shape
は、データフレームの「形」を教えてくれる便利な機能です。
import pandas as pd
# データの読み込み
data = pd.read_csv("宿泊価格について_demo.csv")
# データの形を確認
print(data.shape)
出力例:(100, 5)
- 1つ目の数字(100):データの行数
- 2つ目の数字(5):データの列数
2. 行数だけ、列数だけを確認したい場合
家族の人数を数えるように、データの行数や列数だけを個別に確認することもできます。
# 行数だけを確認
print(f"データの行数: {data.shape[0]}件")
# 列数だけを確認
print(f"項目の数: {data.shape[1]}個")
データ確認のコツと注意点
確認のタイミング
以下の時に必ずデータ量を確認しましょう:
- データを読み込んだ直後
- データの加工をした後
- データを保存する前
よくあるトラブルと対処法
- 予想より行数が少ない場合
- CSVファイルが途中で切れていないか確認
- 読み込み時のエンコーディングは正しいか確認
# エンコーディングを指定して読み込む
data = pd.read_csv("宿泊価格について_demo.csv", encoding='utf-8')
- 予想より列数が少ない場合
- カンマの区切りが正しいか確認
- 列名に余分な空白が入っていないか確認
# 列名を確認
print(data.columns.tolist())
データ量確認の実践例
実際の「宿泊価格について_demo.csv」を使って確認してみましょう:
import pandas as pd
# データ読み込み
hotel_data = pd.read_csv("宿泊価格について_demo.csv")
# 基本的なデータ量確認
print(f"全データ数: {hotel_data.shape[0]}件")
print(f"項目数: {hotel_data.shape[1]}個")
# より詳細な情報確認
print("\nデータの詳細情報:")
print(hotel_data.info())
まとめ
重要ポイント
- データ量の確認は分析の質を左右する重要なステップ
shape
を使えば簡単にデータ量を確認できる- 行数・列数は個別に確認することも可能
- データの加工前後で必ず確認する習慣をつける
次回予告
次回は「データの中身を詳しく確認する方法」について解説します。データの型や欠損値の確認方法を学んでいきましょう!
練習問題
- 自分の持っているCSVファイルで
shape
を使ってみよう - データの行数だけを取り出して、予想と合っているか確認してみよう
不明点があれば、コメント欄でお気軽に質問してください!
コメント