どうもニコイチです。前回は、ダミー変数化という少し高度なデータ加工を学びました。今回は、いよいよ予測モデルの作成に挑戦します!データ分析の花形とも言えるこのステップ、一緒に楽しく学んでいきましょう。
全編はこちらから

予測モデルって何?
予測モデルとは、過去のデータから未来を予測する魔法の箱のようなものです。例えば、過去の宿泊データから、明日の宿泊料金を予測したり、過去の顧客データから、どの顧客が商品を購入するかを予測したりすることができます。
予測モデルを作ることで、私たちは未来を予測し、より良い意思決定を行うことができるようになります。
モデル作成における重要な考え方:汎化性能と過学習
予測モデルを作る上で、最も重要な考え方が汎化性能です。汎化性能とは、モデルが未知のデータに対しても、どれだけ正確に予測できるかを表す能力のことです。
例えば、テストで良い点を取るためには、過去問を完璧に解けるだけでは不十分で、初めて見る問題にも対応できる力が必要です。予測モデルも同じで、学習に使ったデータだけでなく、未知のデータに対しても高い精度で予測できる必要があります。
しかし、予測モデルは学習に使うデータに特化しすぎてしまうことがあります。これを過学習といいます。過学習を起こしたモデルは、学習に使ったデータに対しては非常に高い精度を出すものの、未知のデータに対しては全く役に立たないという残念な結果になってしまいます。
過学習の例
想像してみてください。あなたは猫の画像を学習して、猫かどうかを判別するモデルを作りました。学習に使った猫の画像は、すべて特定の種類の猫(例えば、シャム猫)でした。
もし、過学習が起きてしまうと、あなたのモデルはシャム猫の画像には完璧に対応できるものの、他の種類の猫(例えば、ペルシャ猫)の画像は猫だと認識できない可能性があります。
汎化性能を確保するために:データの分割
過学習を防ぎ、汎化性能を確保するために、私たちはデータを学習データと評価データに分割します。
- 学習データ: モデルを学習させるために使用するデータです。
- 評価データ: 学習したモデルの性能を評価するために使用するデータです。学習には使わない、未知のデータとして扱います。
このようにデータを分割することで、モデルが未知のデータに対してもどれだけ正確に予測できるかを確認することができます。
モデルを作るための準備:目的変数と説明変数
モデルを作るには、目的変数と説明変数という2種類のデータが必要です。
- 目的変数: 予測したい対象となる変数です。今回の場合は、「宿泊料金」が目的変数となります。
- 説明変数: 目的変数を予測するためのヒントとなる変数です。今回の場合は、「部屋のタイプ」「宿泊人数」「ベッドのタイプ」「バスルームの数」「清掃料金」などが説明変数となります。
機械学習では、目的変数を教師データと呼び、教師データを使って学習を行うことを教師あり学習と呼びます。
予測問題の種類:回帰問題と分類問題
予測問題には、大きく分けて回帰問題と分類問題の2種類があります。
- 回帰問題: 目的変数が数値の場合(例:宿泊料金、株価、気温など)
- 分類問題: 目的変数がカテゴリーの場合(例:猫か犬か、顧客が購入するかしないか、病気かどうかなど)
今回の「宿泊料金」予測は、目的変数が数値なので、回帰問題となります。
モデリングの一般的な手順
予測モデルを作る一般的な手順は以下の通りです。
- データの準備: データを学習データと評価データに分割し、それぞれから説明変数と目的変数を取り出す。
- モデルの準備: どの手法のモデルを使うか決める。(今回は重回帰モデルを使います)
- モデルの学習: 学習データの説明変数と目的変数を使ってモデルを学習させる。
- モデルを使った予測: 評価データの説明変数を使って、学習したモデルで予測値を出す。
- モデルの評価: モデルの予測結果と実際の値を比較して、モデルの精度を評価する。
モデルの評価:定量評価の重要性
作ったモデルがどれくらい信頼できるかを知ることは、非常に重要です。モデルの性能を数値で評価することで、モデルの改善や、実用化の判断をすることができます。
例えば、以前使っていたモデルの精度が70%だったのに対し、新しいモデルの精度が80%だと分かれば、新しいモデルを使った方が良いと判断できます。
回帰問題の評価指標
回帰問題では、主に**MAE(平均絶対誤差)とRMSE(二乗平均平方根誤差)**という2つの評価指標が使われます。
- MAE: 予測値と実際の値の差の絶対値の平均です。値域は0〜∞で、値が小さいほど良いと評価できます。解釈がしやすく、予測値が実際の値から平均してどれくらいずれているかを知ることができます。
- RMSE: 予測値と実際の値の差の二乗平均の平方根です。値域は0〜∞で、値が小さいほど良いと評価できます。MAEに比べて、大きな誤差にペナルティを与えるため、より精度を重視したい場合に有効です。
分類問題の評価指標
分類問題では、主にAccuracy(正解率)、AUC(Area Under the Curve)、**LogLoss(対数損失)**といった評価指標が使われます。今回のテーマとは少しずれるので、ここでは簡単な説明にとどめておきます。
- Accuracy: 予測が正しかった割合です。
- AUC: 2値分類問題でよく使われる指標で、モデルがどれだけ正しく分類できたかを表します。
- LogLoss: 多値分類問題にも対応しており、値が小さいほど良いと評価できます。
モデルの種類
予測モデルには、様々な種類があります。それぞれ得意な問題や、モデルの解釈のしやすさなどが異なります。
- 線形回帰: 予測結果を説明しやすいが、複雑な関係を捉えるのが苦手
- 重回帰、Ridge,Lasso,ElasticNet,ロジスティック回帰など
- ツリー系: 複雑な関係を捉えるのが得意だが、モデルを説明しづらい
- 決定木、ランダムフォレスト、勾配ブースティング決定木など
- ニューラルネットワーク: 高精度な予測が可能だが、モデルを説明するのが難しい
- MLP、RNN,CNNなど
- 時系列モデル: 時間経過に伴うデータの変動を予測するのに適しているが、長期予測には不向き
- その他: 確率モデルのNaiVeBayes、分類に強いSVM
万能なアルゴリズムは存在しないため、解きたい問題に合わせて適切なモデルを選択する必要があります。
今後の流れ
今回は、予測モデルを作成する上で重要な考え方や、評価指標について説明しました。次回は、これらの知識を基に、実際に重回帰モデルを作成し、モデルの精度を評価します。
- 学習データと評価データの分割を実践
- 今回の問題に合った評価関数を選択
- 重回帰モデルを使ったモデリング
- 作成したモデルの評価と解釈
まとめ
今回は予測モデル作成の第一歩として、以下の内容を学びました。
- 予測モデルとは、過去のデータから未来を予測する魔法の箱。
- モデル作成において汎化性能と過学習の理解が重要。
- 汎化性能を担保するために、データを学習データと評価データに分割。
- モデルを作るには、目的変数と説明変数が必要。
- 予測問題には、回帰問題と分類問題がある。
- モデルの評価は、定量的に行うことが重要。
- モデルには様々な種類があり、解きたい問題によって使い分ける。
次回は学習・評価データの分割について説明していきます。
コメント