モデルの評価指標とは？正解率・適合率・再現率を解説

「正解率が高ければ良いモデル?」
「適合率と再現率って何が違う?」
「F値はなぜ必要なの?」

モデルの評価指標とは、学習したAIの性能を数値で測るためのものさしです。ここで大事なのは、ものさしが1本ではないこと。正解率だけを見て「良いモデルだ」と喜ぶと、痛い目に遭う場面があります。まず、その罠から見ていきます。

この記事では、正解率90%が実は使い物にならない具体例を数字で追い、判定の土台になる混同行列を図で開きます。次に適合率・再現率・F値を計算で押さえ、G検定での問われ方まで示します。G検定の機械学習対策に効きます。

1 1. 正解率90%が「使えない」ことがある
2 2. 判定の土台、混同行列を開く
3 3. 適合率と再現率を計算で押さえる
4 4. どの指標を重く見るかは、用途で決まる
5 5. G検定での問われ方
- 5.1 次のステップ

1. 正解率90%が「使えない」ことがある

1000人に1人がかかる、まれな病気を検知するAIを考えます。このAIが「全員、健康です」と答え続けるだけの手抜きモデルだったとしても、正解率はどうなるでしょうか。

1000人のうち999人は本当に健康なので、正解率は99.9%。数字だけ見れば優秀に見えます。でも、このAIは肝心の患者を1人も見つけられません。医療の現場では、まったく役に立たない。ここに、正解率という単一のものさしの落とし穴があります。

たとえるなら、健康診断です。体重という1つの数値だけで健康を判断する人はいません。血圧・血糖・肝機能と、複数の値を組み合わせて初めて全体像が見える。モデルの評価も同じで、正解率という1つの数値だけでは、性能の良し悪しを見誤ります。

この問題は、データに偏りがあるとき（不均衡データ）に強く出ます。だからこそ、正解率以外のものさしが必要になります。そのものさしを読み解く土台が、次に見る混同行列です。

2. 判定の土台、混同行列を開く

評価指標は、どれも混同行列という4つのマスから計算されます。モデルの「予測」と、実際の「正解」を突き合わせ、当たり外れを4通りに分けた表です。図で見てください。

4つのマスの読み方はこうです。TPは該当を正しく当てた数、TNは非該当を正しく当てた数。この2つが的中です。厄介なのが外れの2つで、FPは該当でないのに「該当」と誤った空振り、FNは該当なのに「非該当」と見逃した取りこぼしです。あなたが評価で気にかけるべきは、この2種類の間違いのどちらが痛いか、です。

先ほどの手抜きAIは、全員を「陰性」と予測するのでFN（見逃し）だらけ。混同行列で見れば、患者を1人も拾えていないのが一目で分かります。正解率が隠す弱点を、行列は暴く。だから評価は、正解率の前にまず混同行列を開くのが順序です。

3. 適合率と再現率を計算で押さえる

混同行列から、2つの重要なものさしが出ます。適合率と再現率です。見る角度が違うので、計算式とセットで押さえてください。

適合率＝TP÷(TP+FP) … 「陽性と予測したうち、本当に陽性だった割合」。空振りの少なさ
再現率＝TP÷(TP+FN) … 「本当の陽性のうち、拾えた割合」。見逃しの少なさ

具体例で計算します。実際の患者が10人いて、AIが8人を正しく拾い（TP＝8）、2人を見逃し（FN＝2）、さらに健康な人4人を誤って患者と判定した（FP＝4）とします。すると再現率は8÷(8+2)＝0.80、患者の8割を拾えたことになります。いっぽう適合率は8÷(8+4)＝0.67、患者と判定したうち3分の2しか当たっていません。同じモデルでも2つの数字は割れる——ここに「取りこぼしは少ないが空振りがやや多い」という素顔が出ます。もし見逃しが5人に増えれば（TP＝5・FN＝5）、再現率は5÷10＝0.50まで落ちます。

2つは、しばしば綱引きになります。見逃しを恐れて何でも「陽性」と判定すれば再現率は上がりますが、空振りが増えて適合率は下がる。両方をまとめて1つの数字にしたのがF値で、適合率と再現率のバランスを見る指標です。あなたが「どっちも大事」と言いたいときの物差しになります。

4. どの指標を重く見るかは、用途で決まる

ここが評価のいちばん面白いところです。「どの間違いが痛いか」で、重視する指標が変わります。あなたが評価するモデルの使い道を思い浮かべてください。

病気やがんの検知なら、見逃し（FN）が命に関わるので再現率を重く見ます。多少の空振りは、精密検査で拾い直せばよい。逆に、迷惑メールの判定で大事なメールを誤って弾く（FP）と困るなら、適合率を重視します。用途ごとに「許せる間違い」と「許せない間違い」が違うから、ものさしの選び方も変わる。この判断こそ、評価指標を学ぶ本当の目的です。過学習で汎化が崩れていないかも、評価とセットで確かめます。詳しくは過学習とはで押さえられます。

5. G検定での問われ方

G検定では、混同行列を示して適合率や再現率を計算させる形が定番です。式を覚えているだけでなく、TP・FP・FNのどれを分母・分子に置くかを、あなたは迷わず書けるようにしておきましょう。

頻出の引っかけは、「正解率が高い＝良いモデル」という早合点です。不均衡データでは正解率が当てにならない、という本記事の入り口がそのまま問われます。分類だけでなく、数値を予測する回帰では別のものさし（誤差の大きさ）を使う点も押さえておくと死角が消えます。回帰と分類の違いは回帰と分類とはで確認できます。用途に応じて、正しいものさしを選ぶ——この一点に立ち返れば、評価の設問はほどけます。

次のステップ

評価指標がG検定でどう問われるかを含めた全体像は、G検定の試験範囲と勉強法ガイドで俯瞰できます。機械学習分野の位置づけを先に掴むと、学習の優先順位が立てやすくなります。

知識が身についたか確かめたいなら、G検定機械学習の問題集で、混同行列から指標を計算する設問に手を動かしておくのが近道です。