NO IMAGE

モデルの評価指標とは?正解率・適合率・再現率を解説

AIモデルの評価指標に悩む初心者
「正解率が高ければ、いいモデルなの?」
「適合率と再現率って、何が違うの?」
「混同行列って言葉が、よく分からない…」

そんな疑問を持つ、AI を学び始めたあなたへ。

結論から言えば、
モデルの評価指標とは、AIの予測がどれくらい当たっているかを多面的に測るものさし
のことです。

この記事では、なぜ正解率だけでは足りないのか、混同行列適合率再現率・F値の意味と使い分けを、初心者向けにやさしく解説します。読み終えるころには、AIの「良し悪し」を語る言葉が、あなたの中で整理されているはずです。

 

1. なぜ正解率だけでは足りないのか

1. なぜ正解率だけでは足りないのか

あなたが AI の性能を聞くとき、まず思い浮かぶのは「正解率(Accuracy)」ではないでしょうか。全体のうち、どれだけ正しく当てられたかの割合です。

 

ところが、正解率だけを見ると、判断を誤ることがあります。とくに、データの数がかたよっている「不均衡データ」のときに起こりやすい落とし穴です。

 

イメージしやすいように、たとえを1つ置きます。

100人に1人だけがかかる、珍しい病気の検査を考えてみてください。「全員を健康と判定する」だけのいいかげんな AI でも、正解率は99%になります。でも、肝心の病気の人を1人も見つけられていません。これでは役に立ちませんよね。

 

このように、件数の少ない側を見逃しても正解率は高く出てしまいます。だからこそ、正解率以外のものさしも組み合わせて見ることが大切になります。

 

2. 混同行列で結果を整理する

2. 混同行列で結果を整理する

評価指標を理解するうえで、最初の土台になるのが混同行列(こんどうぎょうれつ)です。あなたが各指標を計算するときの、共通の出発点になります。

 

混同行列は、AI の予測と実際の答えを、4つのマスに整理した表です。「陽性・陰性」を当てる問題(例: 迷惑メールか、そうでないか)で、結果は次の4種類に分かれます。

  • TP(真陽性) — 陽性を、正しく陽性と当てた
  • FP(偽陽性) — 陰性なのに、陽性と誤って判定した
  • FN(偽陰性) — 陽性なのに、陰性と見逃した
  • TN(真陰性) — 陰性を、正しく陰性と当てた

 

頭の「T/F」は予測が当たったか(True/False)、後ろの「P/N」は予測が陽性か陰性か(Positive/Negative)を表します。TP と TN が正解、FP と FN が間違い、と覚えると整理しやすくなります。

 

この4つの数を組み合わせるだけで、これから紹介する正解率・適合率・再現率がまとめて計算できます。混同行列は、評価指標の材料置き場のような存在です。

 

ちなみに正解率は、この4つを使うと(TP + TN)÷ 全体、と書けます。つまり、当たった件数(TP と TN)を全件で割った割合です。同じ材料から、これから見る指標が次々と作られていきます。

 

3. 適合率・再現率・F値の意味

3. 適合率・再現率・F値の意味

ここからが本題です。あなたが押さえておきたい、3つの代表的な指標を見ていきましょう。

 

3-1. 適合率(Precision)

適合率は、AI が「陽性」と判定したもののうち、本当に陽性だった割合です。予測の正確さ(早とちりの少なさ)を表します。

 

計算は TP ÷(TP + FP)。陽性と言い切ったのに外していた(FP)が多いほど、適合率は下がります。たとえば「陽性」と判定した10件のうち、本当に陽性だったのが8件なら、適合率は8割です。

 

3-2. 再現率(Recall)

再現率は、本当に陽性だったもののうち、AI が正しく陽性と当てられた割合です。見逃しの少なさを表します。

 

計算は TP ÷(TP + FN)。見逃し(FN)が多いほど、再現率は下がります。さきほどの「全員を健康と判定する」病気の検査では、陽性の人を1人も拾えていないので、この再現率がゼロになります。正解率が99%でも再現率が低い、という食い違いが、まさに不均衡データの落とし穴です。

 

3-3. F値(F1スコア)

F値は、適合率と再現率のバランスを1つの数字にまとめた指標です。両者の調和平均として計算され、どちらか一方だけが高くても値は伸びません。両方がそろって高いときに、はじめて大きな値になります。

 

適合率と再現率のどちらを優先すべきか決めづらいとき、全体のバランスを1つの数字で見たい場面で重宝します。不均衡データの評価でも、正解率より実態を映しやすい指標としてよく使われます。

 

適合率 = 言い当てた中の正確さ/再現率 = 拾い上げた網羅さ/F値 = その2つのバランス。まずはこの3行を覚えておけば、最初は十分です。

 

4. 用途による使い分け

4. 用途による使い分け

あなたが実際に困るのは、「どの指標を重視すればいいの?」という場面でしょう。ここで大事になるのが、適合率と再現率はトレードオフの関係にあるという点です。

 

陽性と判定する基準をゆるめれば、見逃しは減って再現率は上がりますが、早とちり(FP)が増えて適合率は下がります。逆に基準を厳しくすると、適合率は上がりますが見逃しが増えます。片方を立てると、もう片方が下がりやすいのです。

 

そこで、目的に合わせてどちらを優先するかを決めます。

  • 見逃しを避けたいとき → 再現率を重視(病気の見落とし、不正検知 など)
  • 誤検知を避けたいとき → 適合率を重視(迷惑メール判定で、大事なメールを誤って弾きたくない など)
  • バランスを見たいとき → F値を重視

 

「どちらの間違いがより困るか」で選ぶと、迷いにくくなります。見逃し(FN)が怖いなら再現率、誤検知(FP)が怖いなら適合率。場面によって最適な指標は変わります。

 

評価指標の考え方は統計の土台と深くつながっています。あわせて 統計の基礎とは を読むと、数値の見方がより立体的になります。

 

まとめ: 今日からできる、最初の一歩

まとめ: 今日からできる、最初の一歩

最後に、この記事のポイントを3つだけ振り返ります。

  1. 正解率だけでは、不均衡データで判断を誤ることがある
  2. 混同行列(TP・FP・FN・TN)が、各指標の出発点
  3. 適合率・再現率はトレードオフ。目的でどちらを重視するか決める

 

この概念は、G検定の「機械学習の概要」で出題される中核テーマでもあります。評価指標を押さえておくと、AI の性能を語るときの足場が固まります。

 

今日からできる、最初の一歩はとてもシンプルです。

1. 「適合率=早とちりの少なさ/再現率=見逃しの少なさ」と1行メモする(2分)
2. 身近な判定(迷惑メール・病気検査)で、どちらの間違いが困るか考える(3分)
3. 練習問題で、混同行列の TP・FP を実際に当てはめてみる(5分)

 

たった10分で、あなたの評価指標への距離感が変わります。

完璧に計算できなくて大丈夫、まずは「正解率だけを信じない」と覚えておけば、最初は十分です。あなたのペースで、ゆっくり広げていきましょう。

 

次のステップ