【データ分析する前に絶対マスター】pythonでデータを分析する前に絶対に行うべき「shape」と「info」の違いについて

PR表記

※アフィリエイト広告を利用しています

PythonのPandasライブラリには、データの概要を確認するのに役立つ便利な機能がたくさんあります。その中でも特によく使われるのが、shape属性とinfo()メソッドです。これらはどちらもデータフレームに関する重要な情報を提供しますが、提供する情報の種類や使い方には違いがあります。ここでは、これらの違いを中学生にもわかりやすく説明し、どのような場面でそれぞれを使い分けるべきかを紹介します。また最後に理解できたか問題がありますでの是非チャレンジしてみてください。

目次

DataFrameのshape属性

shape属性は、データフレームの形状、つまり行と列の数をタプルとして返します。この属性を使用すると、データフレームにどれだけのデータが含まれているか(行数)、どれだけの特徴があるか(列数)を瞬時に確認できます。

使い方の例:

import pandas as pd

# データフレームを作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# shapeを使用して形状を確認
print(df.shape)

このコードの実行結果は(3, 2)となり、3行2列のデータフレームであることを示します。

DataFrameのinfo()メソッド

一方、info()メソッドはデータフレームに関するより詳細な情報を提供します。これには、データフレームが持つ各列のデータ型、非欠損値の数、メモリ使用量などが含まれます。このメソッドは、データの前処理やクリーニングを行う前に、データの構造を深く理解するのに役立ちます。

使い方の例:

# info()を使用して詳細情報を確認
df.info()

このメソッドを実行すると、コンソールに各列の名前、非欠損値の数、データ型などが表示されます。

使い分けのポイント

  • データのサイズを確認する場合:データフレームの大まかなサイズ、つまり行と列の数が知りたいだけなら、shape属性が最適です。簡潔に情報を得られます。
  • データの構造を理解する場合:データフレームの各列がどのようなデータ型を持っているか、どれくらいの非欠損値があるかなど、より詳細な情報が必要な場合はinfo()メソッドを使います。データの前処理を行う前の段階で特に役立ちます。

これらの違いを理解しておくことで、データ分析や機械学習のプロジェクトを効率的に進めることができます。データについての基本情報を手早く把握したいときはshapeを、データの構造について深く理解したいときはinfo()を使い分けましょう。

問題

理解度をチェックするために、ぜひ以下の問題に答えてみてください。

あなたはデータ分析のプロジェクトに取り組んでいます。手元には、ある企業の従業員に関する情報が入ったPandasのデータフレームがあります。このデータフレームには、従業員の名前、年齢、部署、経験年数などの情報が含まれています。あなたのタスクは、このデータを前処理して、後の分析作業に適した形にすることです。

データフレームのサイズ(行数と列数)を確認したい場合、どの属性を使用しますか?

  1. info()
  2. shape
  3. describe()
答え(解説)

2.shape

shape属性はデータフレームの行数と列数をタプルとして返します。これにより、データフレームがどれだけのデータ(行)と特徴(列)を持っているかを簡単に確認できます。

各列のデータ型や非欠損値の数を確認するには、どのメソッドを使用しますか?

  1. info()
  2. shape
  3. describe()
答え(解説)

1.info()

info()メソッドは、データフレームに関する詳細情報を提供します。これには各列のデータ型、非欠損値の数、さらにはデータフレームが使用するメモリの量も含まれます。データの前処理を行う前に、データフレームの構造を深く理解するのに役立ちます。

メモリ使用量を確認するのに適しているのは、以下のうちどれですか?

  1. info()
  2. shape
  3. describe()
答え(解説)

1.info()

info()メソッドは、データフレームの使用するメモリ量も表示します。これは特に、大きなデータセットを扱う際に、リソース管理の観点から重要な情報になります。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次