【G検定対策】多クラス分類とは？基本から手法、評価指標まで徹底解説！

2025年6月19日

こんにちは！G検定の合格を目指して学習中の皆さん、そして機械学習の世界に足を踏み入れた皆さん。今回は、機械学習、特に教師あり学習の中でも非常に重要な「多クラス分類」について、基本から応用まで徹底的に解説していきます。

「多クラス分類って、二値分類と何が違うの？」「どんな手法があるの？」「モデルの良し悪しってどう判断するの？」

そんな疑問を抱えている方も多いのではないでしょうか。多クラス分類は、画像認識（例：写真の動物が「猫」「犬」「鳥」のどれか当てる）、ニュース記事のカテゴリ分類（例：「スポーツ」「経済」「芸能」に分ける）、迷惑メールフィルタ（例：「重要」「プロモーション」「迷惑メール」に分ける）など、私たちの身の回りの多くの技術に応用されている、まさに現実世界の問題解決に不可欠な手法です。

G検定のシラバスにおいても、「機械学習の具体的手法」の一部として重要な位置を占めており、その概念、主要な手法、そして評価指標の理解は合格への鍵となります。

この記事を読めば、以下の点が理解できるようになります。

多クラス分類の基本的な考え方と二値分類との違い
G検定で抑えておくべき主要な多クラス分類の手法
多クラス分類モデルの性能を正しく評価するための指標
実際の応用例と、学習データにおける注意点

それでは、一緒に多クラス分類の世界を探求していきましょう！

多クラス分類の基本：3つ以上の選択肢から正解を選ぶ

まず、「多クラス分類」とは何か、その基本をしっかり押さえましょう。

多クラス分類 (Multi-class Classification) とは、与えられたデータが属するクラス（カテゴリ）を、3つ以上の候補の中から1つだけ予測・分類する 教師あり学習の手法です。

簡単に言えば、「これはAですか？Bですか？Cですか？それともDですか？」といった、複数の選択肢の中から正解を一つ選ぶ「n択問題」 をコンピュータに解かせるイメージです。

二値分類との決定的な違い

ここで、よく比較される「二値分類」との違いを明確にしておきましょう。

特徴	二値分類 (Binary Classification)	多クラス分類 (Multi-class Classification)
分類するクラス数	2つ	3つ以上
例題	スパムメールか否か？ (Yes/No)	画像の数字が0〜9のどれか？ (10択)
	試験に合格か不合格か？	顧客を「優良」「普通」「要注意」に分類するか？ (3択)
出力のイメージ	1つの確率値 (例: スパムである確率) または 0 or 1	各クラスに属する確率 (例: 猫である確率, 犬である確率…)

このように、分類したい選択肢の数が2つか、3つ以上かで区別されます。G検定では、この違いをまず理解しておくことが重要です。

多クラス分類を実現する主要な機械学習手法

多クラス分類を実現するためのアルゴリズムは様々です。ここでは、G検定で特に抑えておきたい代表的な手法を、どのように多クラス問題に対応させるかという観点で見ていきましょう。

ロジスティック回帰の拡張：OvRとソフトマックス回帰

ロジスティック回帰は元々二値分類の手法ですが、工夫次第で多クラス分類にも応用できます。主に2つのアプローチがあります。

One-vs-Rest (OvR) / One-vs-All (OvA):
- 考え方：クラスの数だけ二値分類器を用意します。例えば「猫」「犬」「鳥」の3クラス分類なら、「猫 vs. (犬 or 鳥)」「犬 vs. (猫 or 鳥)」「鳥 vs. (猫 or 犬)」という3つの二値分類器を作ります。入力データに対して全ての分類器を動かし、最も「自分（のクラス）だ！」と強く主張した（＝確率やスコアが最も高かった）分類器のクラスを予測結果とします。
ソフトマックス回帰 (Softmax Regression) / 多項ロジスティック回帰:
- 考え方：こちらは、一つのモデルで直接、全てのクラスに属する確率を同時に計算します。出力層でソフトマックス関数というものを使うのが特徴で、これにより全クラスの確率の合計が1になるように調整されます。例えば、「猫である確率: 0.7, 犬である確率: 0.2, 鳥である確率: 0.1」といった形で出力され、最も確率の高い「猫」が予測結果となります。

G検定ポイント: ソフトマックス関数はニューラルネットワークの出力層でもよく使われるため、名前と役割（確率の合計を1にする）を覚えておきましょう。

ランダムフォレスト：決定木のアンサンブル

ランダムフォレストは、複数の決定木を組み合わせて予測精度を高めるアンサンブル学習の手法です。個々の決定木は、データをいくつかの条件分岐で分類していきますが、多クラス分類にも自然に対応できます。

考え方：たくさんの決定木（森の木々）それぞれが、入力データに対して「これは猫だ！」「いや、犬だ！」といったように予測を出します。最終的には、森全体での「多数決」を取り、最も多くの木が予測したクラスを最終結果とします。
G検定ポイント: ランダムフォレストがアンサンブル学習の一種であり、決定木を複数使うことで性能向上を図る点、そして回帰・分類（二値・多クラス）両方に使える汎用性の高さを理解しておきましょう。

ブースティング：弱点を補い合う学習器たち

AdaBoostや勾配ブースティング（Gradient Boosting, XGBoost, LightGBMなど）もアンサンブル学習の手法ですが、ランダムフォレストとは異なり、弱い学習器（通常は決定木）を順番に学習させ、前の学習器が間違えた部分を次の学習器が重点的に学習することで、段階的に精度を高めていきます。これらの手法も、多くの場合、多クラス分類にそのまま適用、あるいは拡張して利用可能です。

G検定ポイント: ブースティング系の手法は、高い精度が出やすいことで知られています。それぞれのアルゴリズムの詳細な数式までは不要ですが、逐次的に学習を進めるという基本的なアイデアは理解しておくと良いでしょう。

サポートベクターマシン (SVM) の拡張：OvOとOvR

SVMも元々は二値分類のためのアルゴリズムですが、以下の方法で多クラス分類に応用されます。

One-vs-One (OvO):
- 考え方：全てのクラスのペア（組み合わせ）に対して、二値分類器を作成します。例えば「猫」「犬」「鳥」なら、「猫 vs. 犬」「猫 vs. 鳥」「犬 vs. 鳥」の3つの二値分類器を作ります。入力データに対して全ての分類器で「どちらのクラスにより近いか」を判断させ、最も多くの分類器で「勝利」したクラスを最終的な予測結果とします（総当たり戦の勝者を選ぶイメージ）。

特徴: クラス数が増えると、作成する分類器の数 (N×(N−1)/2) が急増します。

One-vs-Rest (OvR):
- 考え方：これはロジスティック回帰で説明したOvRと同じアプローチです。「猫 vs. その他」「犬 vs. その他」「鳥 vs. その他」のように、クラス数分の二値分類器を作り、最もスコアの高かったクラスを選びます。
- 特徴: OvOに比べて作成する分類器の数はクラス数と同じ (N) ですが、各分類器の学習データが不均衡になりやすい場合があります。

G検定ポイント: SVMを多クラスに応用する際にOvOとOvRという代表的な戦略があること、そしてそれぞれの基本的な考え方の違い（総当たり戦か、自分vsその他か）を区別できるようにしておきましょう。

ニューラルネットワーク：ソフトマックス関数で確率を出力

ディープラーニングでお馴染みのニューラルネットワーク（多層パーセプトロンなど）は、多クラス分類に非常に強力な手法です。

考え方：ネットワークの最終層（出力層）のノード数を、分類したいクラスの数に合わせます。そして、活性化関数としてソフトマックス関数を用いることで、各出力ノードから「そのクラスに属する確率」が出力されます。合計が1になる確率として結果が得られるため、最も確率の高いノードに対応するクラスを予測結果とします。
G検定ポイント: ニューラルネットワークで多クラス分類を行う際の「出力層のノード数＝クラス数」「活性化関数＝ソフトマックス関数」という組み合わせは頻出です。

モデルの性能を正しく測る！多クラス分類の評価指標

さて、様々な手法で多クラス分類モデルを構築したら、その性能を客観的に評価する必要があります。特にG検定では、これらの評価指標の意味を正しく理解しているかが問われます。

「どのくらい正確に分類できたか？」を知るための代表的な指標を見ていきましょう。

混同行列：どこで間違えたか一目でわかる

混同行列 (Confusion Matrix) は、モデルの予測結果と実際のクラスを比較し、どのクラスがどのクラスと間違えられやすいかなどを視覚的にまとめた表です。多クラス分類の場合、クラス数 × クラス数 の正方行列になります。

見方:
- 行：実際のクラス (True Class)
- 列：モデルが予測したクラス (Predicted Class)
- 対角成分 (左上から右下)：正しく分類されたサンプルの数 (True Positive的な要素)
- 非対角成分：誤って分類されたサンプルの数 (False Positive / False Negative的な要素)

| 予測: 猫 | 予測: 犬 | 予測: 鳥 |

——|———-|———-|———-|

実際: 猫 | 50 | 5 | 2 | <- 本当は猫なのに犬と予測されたのが5件

実際: 犬 | 3 | 60 | 7 |

実際: 鳥 | 1 | 4 | 45 |

この表を見ることで、「猫は比較的よく当てられているが、犬と鳥の誤分類が少しあるな」「鳥は犬と間違えられやすいのかな？」といった分析ができます。

G検定ポイント: 混同行列の行と列が何を表しているか、対角成分と非対角成分がそれぞれ何を示しているかを理解することが重要です。

正解率 (Accuracy)：最も直感的、でも注意が必要

正解率は、全てのデータのうち、モデルが正しく分類できたデータの割合を示す、最もシンプルで直感的な指標です。

計算式: Accuracy=全てのデータ数正しく分類されたデータ数 (混同行列の対角成分の合計 ÷ 全体の合計)
注意点: データセットのクラス間にデータ数の偏り（不均衡） がある場合、正解率だけを見てモデルを評価するのは危険です。例えば、99%がクラスAで、1%がクラスBのデータセットがあった場合、全てのデータをクラスAと予測するモデルでも正解率は99%になってしまいますが、クラスBを全く見つけられていない「ダメなモデル」である可能性があります。
G検定ポイント: 正解率の計算方法と、クラス不均衡データにおける注意点をセットで覚えておきましょう。

再現率 (Recall) とマクロ平均再現率：見逃しを防ぐ

再現率 (Recall / Sensitivity / 真陽性率) は、実際のクラスごとに見て、そのクラスに属するデータのうち、どれだけモデルが正しく「そのクラスだ！」と予測できたかの割合を示します。見逃しをどれだけ防げているかの指標です。

計算式（クラスXについて）: RecallX=実際にクラスXであるデータの総数 (TP + FN)クラスXと正しく予測された数 (TP)
マクロ平均再現率 (Macro Average Recall): 各クラスの再現率を計算し、それらの単純平均を取ったものです。クラスごとのデータ数の大小に関わらず、各クラスの性能を平等に評価します。クラス不均衡なデータセットにおいて、少数派クラスの見逃し具合も評価できる重要な指標です。
G検定ポイント: 再現率が「見逃し」に関する指標であること、そしてマクロ平均がクラス間のデータ数の偏りの影響を受けにくい評価方法であることを理解しましょう。

適合率 (Precision) とマクロ平均適合率：誤判定を減らす

適合率 (Precision / 精度) は、モデルが予測したクラスごとに見て、そのクラスだと予測したデータのうち、実際にそのクラスであったデータの割合を示します。予測の「質」や「確からしさ」を表す指標と言えます。

計算式（クラスXについて）: PrecisionX=モデルがクラスXと予測したデータの総数 (TP + FP)クラスXと正しく予測された数 (TP)
マクロ平均適合率 (Macro Average Precision): 各クラスの適合率を計算し、それらの単純平均を取ったものです。再現率と同様に、クラス間のデータ数の偏りの影響を受けにくく、各クラスの予測の質を平等に評価します。
G検定ポイント: 適合率が「誤判定（偽陽性）」に関する指標であること、そしてマクロ平均の意義を理解しましょう。

F値とマクロ平均F値：再現率と適合率のバランス

F値 (F-score / F-measure) は、再現率と適合率の調和平均を取った値で、両者のバランスを考慮した指標です。どちらか一方だけが高くても、F値は高くなりません。

計算式（クラスXについて、β=1のF1スコアの場合）: F1X=2×PrecisionX+RecallXPrecisionX×RecallX
マクロ平均F値 (Macro Average F-score): 多クラス分類におけるマクロ平均F値には主に2つの計算方法がありますが、G検定対策としては、より一般的に使われる「各クラスのF値を計算し、その単純平均を取る方法」 をまず理解しておきましょう。（注：分析ツールや文脈によっては、マクロ平均再現率とマクロ平均適合率の調和平均で計算される場合もあります。どちらの定義かは確認が必要です。）
- 計算式（各クラスF値の単純平均）: Macro F1=N1∑i=1NF1i （Nはクラス数）
G検定ポイント: F値が再現率と適合率のトレードオフを考慮した指標であること、そしてマクロ平均F値がクラス不均衡データに有効な総合評価指標の一つであることを押さえましょう。

どの評価指標を重視するかは、解決したい問題の性質によって異なります。例えば、病気の診断であれば「見逃し（偽陰性）」を減らすために再現率が重要ですし、迷惑メールフィルタであれば「重要なメールを迷惑メールと誤判定（偽陽性）」しないように適合率が重要になるかもしれません。

多クラス分類の応用例と実践的な課題

多クラス分類は、理論だけでなく、実社会の様々な場面で活躍しています。

実世界での活躍例

画像認識: 手書き文字認識 (0-9)、信号機の状態認識 (赤・黄・青)、写真に写っている動物の種類判別など。
自然言語処理: 文書のトピック分類 (政治・経済・スポーツ…)、感情分析 (ポジティブ・ネガティブ・ニュートラル)、スパムメール分類 (受信トレイ・迷惑メール・プロモーション…) など。
医療診断: 患者の症状や検査データから考えられる複数の疾患候補を提示するなど。
その他: 顧客セグメンテーション、異常検知（正常・異常A・異常B…）など。

G検定でも問われる？実践上の注意点

実際に多クラス分類モデルを構築・運用する際には、いくつかの課題に直面することがあります。G検定でも、これらの課題と対策の知識が問われる可能性があります。

クラス不均衡問題 (Class Imbalance):
- 問題: 各クラスに属するデータ数が極端に偏っている状態。例えば、猫の画像10000枚に対して、犬の画像100枚、鳥の画像50枚しかない、など。この状態だと、多数派クラスばかりを予測するモデルになりがちです。
- 対策:
  - リサンプリング: 少数派クラスのデータを増やすオーバーサンプリング（例: SMOTE）や、多数派クラスのデータを減らすアンダーサンプリング（例: NearMiss）。
  - クラス重み付け: 学習時に、少数派クラスの誤分類に対するペナルティを重くする。
  - 適切な評価指標の選択: 正解率だけでなく、マクロ平均再現率、マクロ平均F値、混同行列などを注意深く見る。
特徴量エンジニアリングと次元削減:
- 問題: モデルの性能は、入力するデータ（特徴量）の質に大きく依存します。また、特徴量の数が多すぎると、計算コストが増大したり、過学習を引き起こしたりする「次元の呪い」が発生することがあります。
- 対策:
  - 特徴量エンジニアリング: ドメイン知識を活用して、予測に有効な新しい特徴量を作成したり、既存の特徴量を変換したりする。
  - 次元削減: 主成分分析 (PCA) や線形判別分析 (LDA) などの手法を用いて、重要な情報を保持しつつ特徴量の数を減らす。

これらの課題と対策を理解しておくことは、より実践的なモデル構築能力に繋がります。

まとめ：多クラス分類をマスターしてG検定合格へ！

今回は、G検定対策としても重要な「多クラス分類」について、その基本概念から主要な手法、評価指標、そして実践的な課題まで幅広く解説しました。

重要なポイントのおさらい:

多クラス分類は、3つ以上の選択肢から1つを選ぶ 教師あり学習。
ロジスティック回帰、SVMはOvR / OvO / ソフトマックス回帰といった拡張で対応。
ランダムフォレスト、ブースティング、ニューラルネットワークは自然に多クラス分類に対応可能（特にNNはソフトマックス関数が鍵）。
評価は混同行列で間違いの傾向を掴み、正解率だけでなく、クラス不均衡に強いマクロ平均再現率・適合率・F値などを活用する。
クラス不均衡などの実践的な課題への対策も重要。

多クラス分類は、現実世界の多様な問題を解決するための強力なツールです。G検定の学習を通じてその基礎を固めることは、将来AI・データサイエンス分野で活躍するための大きな一歩となります。大切なのは、問題の性質に合わせて適切な手法を選択し、目的に合った評価指標でモデルの性能を正しく評価することです。

この記事が、皆さんのG検定合格、そして機械学習の理解を深める一助となれば幸いです。

皆さんの学習分野や業務では、どんな多クラス分類問題が考えられますか？また、評価指標の解釈で迷った経験などあれば、ぜひコメントで教えてください！

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

【G検定対策】多クラス分類とは？基本から手法、評価指標まで徹底解説！

PR表記