どうもニコイチです。前回は、データを読み込む方法について学びました。でも、データを読み込んだだけでは不十分です。まるで届いた荷物の中身を確認せずに使い始めるようなものです。今回は、読み込んだデータが正しいか、どんな内容なのかを確認する方法を、初心者の方でも分かりやすいように解説します。是非一緒に手を動かして行ってみてください。
1.Pythonでデータ分析を始めよう!初心者向けガイド-データの読み込み編-
どうも、にこいちです。みなさんデータ分析の世界へようこそ!Pythonを使ったデータ分析は、ビジネスや研究など様々な分野で活用されています。私も業務の中で、データ分析…
目次
データの基本情報を知る方法
前回最後でも少し触りましたが、今回はきちんとデータについて確認していきます。
1. shape関数でデータの大きさを確認
df.shape
shape関数は、データの「行数」と「列数」を教えてくれます。
初心者向けヒント
- shapeは「形」という意味で、表の大きさを表します 例えば、
(100, 5)
と表示された場合:- 100は行数(データの数)
- 5は列数(項目の数)
- これは「100人分のデータがあり、各人について5つの情報がある」という意味です
よくあるつまづきポイント
- shape関数の結果は「タプル」という形式で返ってきます
df.shape[0]
で行数だけ、df.shape[1]
で列数だけを取得できます
2. head関数とtail関数でデータの中身を覗く
先程のshape関数にて何行で何列のデータか確認することができました。しかし、そのデータ確認方法では中身はわかりません。そこで、先頭と最後のデータを確認します。
# 先頭の5行を表示
df.head()
# 末尾の5行を表示
df.tail()
# 任意の行数を指定して表示(例:10行)
df.head(10)
初心者向けヒント
- headは「頭」、tailは「尻尾」という意味です
- 例えるなら、本の「立ち読み」のようなもので、全部見なくても内容の雰囲気がわかります
- デフォルトでは5行表示されますが、括弧の中に数字を入れることで表示行数を変更できます
3. info関数でデータの詳細情報を確認
df.info()
info関数は、データフレームの「健康診断書」のようなものです。以下の情報が分かります:
- 総行数 カラム(列)の名前
- データ型
- 欠損値の有無
- メモリ使用量
表示例としては以下のようになります。
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 名前 150 non-null object
1 年齢 150 non-null int64
2 身長 148 non-null float64
3 体重 147 non-null float64
この例の読み方:
- 全部で150行のデータがある
- 4つの列(名前、年齢、身長、体重)がある
- 身長は2人分、体重は3人分のデータが欠けている(欠損値がある)
データ型について理解しよう
数値データと文字列データの違い
データには大きく分けて2種類あります
- 数値データ(Numeric Data)
- int64:整数(1, 2, 3…)
- float64:小数点がある数値(1.5, 2.3…)
- int64は、人数や年齢のように「かける0.5」がない数字
- float64は、身長や体重のように「170.5cm」といった小数点がある数字
- 文字列データ(object)
- 文字や記号を含むデータ
- 例:名前、住所、カテゴリー
- Excelで数式が使えないセルのようなもの
- 計算はできませんが、「グループ分け」や「検索」には使えます
🚫 よくあるつまずきポイント:
- 数字でも文字列として保存されているケース
# 間違った例(文字列の数字)
"1234" # これは計算できません
# 正しい例(数値)
1234 # これは計算できます
2.データ型の変換が必要な場合
# 文字列の数字を数値に変換
df['列名'] = pd.to_numeric(df['列名'])
データ確認の実践的な手順
STEP
shape
まずshapeでデータサイズを確認
STEP
head
head()で先頭部分を確認し、カラム名や値が期待通りか確認
STEP
info
info()で各列のデータ型と欠損値を確認
STEP
tail
必要に応じてtail()で末尾も確認
まとめ
- データ分析で最も重要なのは、まず自分のデータをよく知ることです
- shape、head/tail、info関数は、データを理解するための基本的なツールです
- データ型を正しく理解することで、後の分析がスムーズになります
📌 実践のコツ
新しいデータを読み込んだら、必ずこれらの確認を習慣にしましょう。それによって、データの問題点を早期に発見でき、分析の質が向上します。
コメント