
「正則化やドロップアウトって、よく聞くけど何のこと?」
「未学習との違いもあいまいなまま…」
そんな疑問を持つ、AI を学び始めたあなたへ。
結論から言えば、
過学習とは、訓練データに合わせすぎて、未知のデータで精度が落ちてしまう状態
のことです。
この記事では、過学習の意味・汎化という考え方・起こる原因・正則化などの対策・未学習との違いを、初心者向けにやさしく解説します。読み終えるころには、機械学習でいちばん注意したいポイントが、あなたの中で整理されているはずです。
1. 過学習とは

過学習(オーバーフィッティング)とは、学習に使ったデータには強いのに、新しいデータにはうまく対応できなくなる状態のことです。
機械学習では、たくさんのデータからルールを学ばせます。ところが、学習データに合わせこみすぎると、本来覚えてほしい「大きな傾向」ではなく、そのデータだけの「細かいクセ」まで覚えてしまうことがあります。データに含まれる、たまたまのノイズまで真に受けてしまう、というイメージです。
イメージしやすいように、たとえを1つ置きます。
あなたが本当に欲しいのは、見たことのある問題ではなく、初めて見る問題にも答えられる力のはずです。
2. 汎化 — 機械学習が目指すゴール

過学習を理解するには、その反対側にある汎化(はんか)という言葉が役立ちます。あなたに、ぜひセットで覚えてほしい考え方です。
汎化とは、学習に使っていない新しいデータに対しても、うまく予測できる力のことです。機械学習が本当に目指しているゴールは、この汎化の力を高めることにあります。
だからこそ、モデルの良し悪しは、学習データでの成績ではなく、未知のデータでの成績で見ます。ここを取り違えると、過学習に気づけません。
過学習 = 学習データに強く、未知のデータに弱い/汎化 = 未知のデータにも強い。目指すのは、いつも汎化のほうです。
3. なぜ過学習が起こるのか

では、どんなときに過学習は起こるのでしょうか。あなたが対策を考えるうえで、原因を知っておくと見通しが立ちます。
主な原因は、大きく2つあります。
- モデルが複雑すぎる — 表現できる幅が大きすぎて、細かいクセまで拾ってしまう
- 学習データが少なすぎる — 限られた例だけで判断するため、偏りをそのまま覚えてしまう
少ないデータに対して複雑なモデルを使うと、この2つが重なって、過学習がいっそう起こりやすくなります。つまり、モデルの複雑さとデータ量のバランスが崩れたときに、問題が表面化するのです。次の章では、このバランスを整えるための対策を見ていきましょう。
4. 過学習を防ぐ方法

過学習には、よく知られた対策がいくつもあります。あなたが試験で問われやすいのも、まさにここです。代表的なものを順に見ていきましょう。
4-1. データを増やす
もっとも素直な方法が、学習データを増やすことです。例が増えれば、特定のクセに引っぱられにくくなり、大きな傾向をつかみやすくなります。
4-2. 正則化(L1・L2)
正則化は、モデルが複雑になりすぎるのを抑えるしくみです。学習のときに「あまり極端なルールにしないでね」というブレーキをかけるイメージで、L1 正則化・L2 正則化という代表的な方法があります。
ざっくり言うと、L1 はあまり効いていない要素をきっぱり切り捨てる方向に、L2 は全体をなだらかに小さく抑える方向に働きます。どちらも、モデルが学習データに合わせこみすぎるのを防ぐという目的は同じです。
4-3. ドロップアウト
ドロップアウトは、学習のたびに一部のニューロンをわざと休ませる方法です。特定の部分に頼りすぎるのを防ぎ、バランスよく学べるようになります。ディープラーニングでよく使われます。
4-4. 早期終了・交差検証
早期終了(アーリーストッピング)は、学習を進めすぎる前に、ちょうど良いところで止める方法です。学習しすぎると、かえって未知のデータに弱くなるため、その手前で切り上げます。
また、交差検証は、データを分けて何度も検証し、過学習していないかを確かめる手法です。対策そのものというより、過学習を見つけるための健康診断のような役割を果たします。
5. 未学習との違い

過学習とセットで押さえたいのが、その反対の状態である未学習(アンダーフィッティング)です。あなたが両者を取り違えないよう、ここで整理しておきましょう。
未学習とは、学習が足りず、訓練データに対してもうまく予測できない状態を指します。モデルが単純すぎたり、学習が不十分だったりすると起こります。過学習が「学びすぎ」なら、未学習は「学び足りない」状態だと考えると分かりやすいでしょう。
- 未学習 — 学習データにも、未知のデータにも弱い(学びが足りない)
- 過学習 — 学習データには強いが、未知のデータに弱い(学びすぎ・合わせすぎ)
機械学習では、この未学習と過学習の、ちょうど真ん中を狙います。学びが足りなくても、学びすぎてもいけない、というバランス感覚が大切になります。料理の火加減のように、ちょうど良いところを探していくイメージです。
まとめ: 今日からできる、最初の一歩

最後に、この記事のポイントを3つだけ振り返ります。
- 過学習 = 訓練データに合わせすぎて、未知のデータで精度が落ちる状態
- 目指すのは汎化。原因はモデルが複雑すぎる・データが少なすぎること
- 対策はデータ増加・正則化・ドロップアウト・早期終了・交差検証
この概念は、G検定の「機械学習の概要」で出題される中核テーマでもあります。試験対策としても、ここを押さえておくと得点につながります。
今日からできる、最初の一歩はとてもシンプルです。
2. 「過去問の丸暗記」のたとえを、別の身近な例に置きかえてみる(2分)
3. 正則化・ドロップアウトのうち、気になった方を関連記事で調べる(3分)
たった7分で、あなたの過学習への理解がぐっと深まります。
完璧に覚えようとせず、「合わせすぎると未知に弱くなる」とだけ押さえておけば、最初は十分です。あなたのペースで、ゆっくり広げていきましょう。
次のステップ
- 全体像の整理: 機械学習とは
- 土台の仕組み: ディープラーニングとは
- もう1つの学び方: 強化学習とは
- 演習で確認: G検定 機械学習 練習問題