強化学習とは？報酬で賢くなるAIの仕組みをやさしく解説

「強化学習って、教師ありと何が違うの?」
「報酬って、どういうこと?」
「囲碁AIで聞くけど、仕組みが謎…」

自転車やゲームで、少しずつ上達していく——あの感覚に近い学び方があります。

強化学習とは、報酬を手がかりに、試行錯誤で行動を学ぶAIの方法です。転んだり失敗したりしながら、うまくいく手を自分でつかんでいく。その学び方を、コンピュータで再現したものと考えてください。

この記事では、教師あり・教師なしとの違い、エージェントと環境のループ、状態・行動・報酬、探索と活用のトレードオフ、AlphaGoや深層強化学習まで順に見ていきます。G検定「機械学習の概要」対策に効きます。

1 1. 強化学習とは「転びながら覚える」第3の学び方
2 2. 教師あり・教師なしと、何が違うのか
3 3. エージェントと環境のループ — 状態・行動・報酬
4 4. 探索か活用かというジレンマ
5 5. AlphaGoと深層強化学習、そして試験の狙われ方
- 5.1 次のステップ

1. 強化学習とは「転びながら覚える」第3の学び方

機械学習の学び方は大きく3つあり、強化学習はその1つです。教師あり学習・教師なし学習と並ぶ第3の学び方だと考えてください。ほかの2つが「データを見て学ぶ」のに対し、強化学習は自分で動いて、返る結果から学ぶ点が違います。

あなたが自転車に乗れるようになった過程を思い出してください。転んでは立ち上がり、バランスの感覚を少しずつ体で覚えていく。正解の乗り方を丸ごと教わったのではなく、試して、結果を受け取り、直す——このくり返しで身につきました。強化学習は、まさにこれです。

たとえるなら、ダーツの練習です。的の中心からどれだけ外れたか——その外れ具合が報酬の合図になります。大きく外れたら投げ方を大きく直し、少し外れたら少しだけ直す。フォームを教わらなくても、結果を手がかりに一投ごとに微調整すれば腕は上がります。強化学習は、この調整をコンピュータが猛烈な回数くり返すものです。

2. 教師あり・教師なしと、何が違うのか

あなたがいちばん混乱しやすいのが、ほかの2つとの線引きです。3つの学び方は、「何を手がかりに学ぶか」が根本から異なります。1枚の表で対比しました。

学び方	手がかり	例
教師あり学習	正解ラベル	写真に「猫」の札を付けて覚える
教師なし学習	データの構造	似た顧客を自動でグループに分ける
強化学習	報酬（点数）	ゲームで得点を頼りに上達する

強化学習の要点は、「正解の行動」を直接は教えてもらえないことです。何が良かったのかは、後から返る報酬で間接的に分かるだけ。だからこそ試行錯誤が欠かせません。教師あり学習が「答えを見ながら解く」なら、強化学習は答えのない場所で点数だけを頼りに動く学び方です。

3つの違いを一言で。教師あり=答え付きで学ぶ / 教師なし=答えなしで構造を見つける / 強化学習=報酬を手がかりに行動を学ぶ。手がかりが「ラベル」か「構造」か「点数」か——ここで見分ければ取り違えません。

3つの学び方の全体像を先に整理したいときは、機械学習とはをあわせて読むと、強化学習の位置づけがはっきりします。

3. エージェントと環境のループ — 状態・行動・報酬

強化学習の仕組みは、エージェントと環境のループで理解できます。主役がエージェント（学習する主体）、その外側の世界が環境です。両者は状態・行動・報酬の3語でやり取りをくり返します。まず、その循環を図で押さえてください。

押さえてほしい3つの言葉を、図の流れに沿って整理します。

状態 — 今エージェントが置かれている状況（盤面の様子、ロボットの位置など）
行動 — その状態でエージェントが選ぶ手（駒を動かす、足を前に出すなど）
報酬 — 行動の結果として環境から返る点数（勝てばプラス、転べばマイナス）

エージェントは「状態を見て、行動を選び、報酬と次の状態を受け取る」をくり返します。受け取る報酬の合計が大きくなる行動を少しずつ身につけます。矢印が回るほど行動は洗練されます。

目先の1回の報酬ではなく、最後までの報酬の合計を大きくする——これが強化学習のねらいです。今は損でも、後で大きく得をする手を選べるように学びます。将棋で駒を捨てて勝ちにいくような、先を見た判断だと考えると腑に落ちます。

4. 探索か活用かというジレンマ

強化学習には避けて通れない悩み、探索と活用のトレードオフがあります。行きつけの店に通い続けるか、入ったことのない店を試すか——その迷いと同じ選択を、エージェントも毎回しています。

活用 — 今いちばん良いと分かっている行動を選ぶ（分かっている範囲で報酬を稼ぐ）
探索 — まだ試していない行動をあえて選ぶ（もっと良い手が隠れているかも）

活用ばかりだと、もっと良い手を見つけ損ねます。探索ばかりだと、なかなか報酬がたまりません。この2つのバランスをどう取るかが、強化学習の難しさであり面白さです。単純な暗記型のAIとは違う味わいどころです。

「探索と活用のトレードオフ」は、G検定でも狙われる用語です。探索＝新しい手を試す / 活用＝分かっている良い手で稼ぐ。この対で覚えれば設問で迷いません。どちらかに偏ると学習が進まない点まで押さえれば万全です。

5. AlphaGoと深層強化学習、そして試験の狙われ方

強化学習が有名になったのが、囲碁AIのAlphaGo（アルファ碁）です。プロ棋士を破り世界的に注目されました。囲碁は選択肢が多くコンピュータには難関でしたが、強化学習が突破しました。ほかにも、ゲーム攻略、ロボットの歩行制御、物流や広告配信の最適化など、「何度も試せて、結果が点数で返る」場面で活躍しています。

近年の進歩を支えるのが深層強化学習です。強化学習にディープラーニングを組み合わせた手法で、その代表がDQN（ディープ・Q・ネットワーク）です。状態をニューラルネットワークで扱えるようにし、画面の映像のような複雑な情報からでも上手な行動を学べます。土台の技術はディープラーニングとはで解説しています。

G検定「機械学習の概要」では、狙われる観点が決まっています。あなたは先に押さえておきましょう。

3学習法の判別 → 手がかりが「ラベル/構造/報酬」のどれかで教師あり・教師なし・強化学習を見分ける
状態・行動・報酬 → 強化学習の3要素として問われる定番
探索と活用のトレードオフ → 用語そのものと、偏ると学習が進まない性質
代表例 → AlphaGo、深層強化学習（DQN）は名前で答えられるように

用語の丸暗記より、「エージェントが、状態を見て行動し、報酬で学ぶ」という1本の筋を持つほうが応用が利きます。3学習法の判別・3要素・探索と活用は、どれもこの筋の上に乗ります。この循環を頭に描ければ、周辺の用語は一気に整理できます。

一言まとめ。強化学習とは、報酬で行動を学ぶこと——最初はこの1点だけ覚えておけば十分です。あとは状態・行動・報酬から少しずつ広げていきましょう。

次のステップ

強化学習がG検定のどの領域でどう問われるかを含めた試験の全体像は、G検定の試験範囲と勉強法をまとめたガイドで俯瞰できます。「機械学習の概要」の位置づけを先に掴むと、学習手法どうしの違いが整理しやすくなります。

知識を得点に変えたいなら、G検定機械学習の練習問題で、3学習法や状態・行動・報酬の設問に手を動かして慣れておくのが近道です。