活性化関数とは？AIに非線形を与える役割をやさしく解説

「活性化関数って、無くても層さえ重ねれば動くのでは?」
「ReLU とシグモイド、どこで使い分けるの?」
「G検定でどう問われるのか、つかめない」

活性化関数でつまずく人の多くは、「無くても層を深くすれば学習できるはず」と考えます。ここが最初の分かれ道です。

活性化関数とは、ニューラルネットワークに非線形性を持ち込み、複雑な関係を学べるようにする部品です。この部品を外すと、層をいくつ重ねても計算は1本の直線に戻ります。

つまり活性化関数は「あってもいい」ではなく「無いと深い学習が成り立たない」部品です。以下では、なぜ非線形が要るのかを最初に押さえ、代表的な関数を出力範囲で並べ、ReLU が中間層の定番になった理由をたどります。最後に、中間層と出力層で何を選ぶかの分岐まで示します。G検定のディープラーニング基礎にそのまま効きます。

1 1. 外すと層が「1枚」に戻る — 非線形が要る理由
2 2. 代表的な関数を「出力の範囲」で並べる
3 3. ReLU が中間層の定番になった理由
4 4. どこで何を選ぶか — 使い分けの分岐
5 5. G検定での問われ方と、つまずきやすい点
- 5.1 次のステップ

1. 外すと層が「1枚」に戻る — 非線形が要る理由

各ニューロンは、受け取った入力に重みを掛けて足し合わせます。この足し算だけの計算は線形、つまりまっすぐな関係です。ここで活性化関数を通さず、あなたがそのまま次へ渡すと、何が起きるでしょうか。

答えは「深さが消える」です。線形の計算をいくつ重ねても、まとめれば1本の直線に戻ってしまうからです。活性化関数が無ければ、10層積んでも表現力は1層と変わりません。あなたがせっかく層を深くしても、複雑な判断ができないままになります。

たとえるなら、まっすぐな定規だけで絵を描く作業です。直線をどれだけ継ぎ足しても、なめらかな円は描けません。折れ曲がり（非線形）を許して初めて、入り組んだ形が描けます。活性化関数は、ネットワークに「曲がる自由」を与える道具だと考えてください。

具体例が、2つの入力が異なるときだけ1を返すXORです。この問題は1本の直線では区切れません。活性化関数で非線形を加えると、こうした「まっすぐでは分けられない」課題も解けるようになります。層や重みの土台はニューラルネットワークとはで押さえておくと、この部品の効き方が腑に落ちます。

2. 代表的な関数を「出力の範囲」で並べる

活性化関数は種類が多く、名前だけ眺めると混乱します。整理のコツは、「出力がどの範囲に収まるか」で並べることです。範囲を知ると、どの場面で使うかが自然に見えてきます。

名前	出力の範囲	主な使い所
ステップ関数	0 か 1（とびとび）	初期のパーセプトロン。今はほぼ教材用
シグモイド	0〜1（なめらか）	出力層で「2択の確率」を出す
tanh	-1〜1（0が中心）	中間層。シグモイドより学習が進みやすい
ReLU	0以上（負は0）	中間層の定番
ソフトマックス	合計1の確率	出力層で「3つ以上の分類」を出す

この表で押さえたいのが、シグモイドとソフトマックスの役割の違いです。シグモイドは「はい/いいえ」の1つの確率を返すのに対し、ソフトマックスは「犬60%・猫30%・鳥10%」のように、複数の候補を合計1の確率に配る関数です。あなたが分類の出力層でどちらを置くかは、選択肢が2つか3つ以上かで決まります。

名前を丸暗記するより、「出力の範囲」→「向く場面」の順で覚えると忘れにくくなります。0〜1のシグモイドは2択の確率、合計1のソフトマックスは多クラス分類、と範囲から用途が引ける状態を作っておきましょう。

3. ReLU が中間層の定番になった理由

今のディープラーニングで、中間層といえばReLU（レルー）です。仕組みは「負の入力なら0、正ならそのまま出す」という素朴なもの。この単純さが、深いネットワークで大きな武器になります。理由は、深層学習の難所である勾配消失問題にあります。

ネットワークは、出力の誤差を入力側へさかのぼって伝えながら学習します。このとき使うのが各関数の「傾き」です。ところがシグモイドは、入力が大きい・小さい領域で曲線がほぼ平ら、つまり傾きがほぼ0になります。図で見てください。

傾きがほぼ0だと、さかのぼるほど学習の信号が薄れ、奥の層まで届きません。これが勾配消失です。ReLU は正の範囲で傾きが一定なので信号が薄れにくく、深い層でも学習が進みます。計算も軽く速い。この2点が、深さを扱うディープラーニングと噛み合いました。勾配がどう伝わるかは勾配降下法・誤差逆伝播法とはで確認できます。

ReLU にも弱点はあります。入力が負に偏ると出力が0で止まり、そのニューロンが学習しなくなる現象です。これを補う Leaky ReLU などの改良版が使われます。G検定では「ReLU の利点＝勾配消失を避けやすい」と「弱点＝負の領域で止まる」をセットで問われます。

4. どこで何を選ぶか — 使い分けの分岐

ここまでを、実際の選び方に落とし込みます。活性化関数は「使う場所」で選び方が切り替わるのが要点です。次の分岐をたどれば、迷いません。

中間層は「特徴を取り出す計算の場」なので、学習の進めやすさを優先して ReLU を置きます。出力層は「答えの形」を決める場所なので、欲しい出力に合わせます。2択なら0〜1のシグモイド、3つ以上の分類なら合計1のソフトマックス。数値そのものを当てる回帰問題では、範囲を絞らずそのまま出す形も選べます。

迷ったら「中間層は学習効率で選ぶ、出力層は答えの形で選ぶ」の2軸に戻ってください。この分け方さえ持っていれば、関数名が増えても置き場所を取り違えません。あなたの中に1枚の分岐図が残れば十分です。

5. G検定での問われ方と、つまずきやすい点

G検定のディープラーニング基礎では、活性化関数は勾配消失や誤差逆伝播とセットで問われます。あなたが用語を単体で覚えるより、「なぜその関数か」の理由まで持っておくと、選択肢の言い換えに強くなります。狙われやすい3点を先に押さえましょう。

「活性化関数が無いと何が起きるか」→ 多層でも表現力が1層に戻る（非線形の欠如）
「中間層で ReLU が好まれる理由」→ 勾配消失を避けやすく、計算が軽い
「出力層の選択」→ 2値分類はシグモイド、多クラス分類はソフトマックス

とくに取り違えやすいのが、出力層でのシグモイドとソフトマックスです。「3クラス以上の分類なのにシグモイド」という選択肢は誤り、と判断できるようにしておくと得点が安定します。あなたが範囲と用途をひもづけていれば、こうした引っかけはほどけます。改良版まで含めた活性化関数の役割はディープラーニングとはで全体像に接続できます。

出力層で使い分ける物差しは1本です。答えが「2択の確率」ならシグモイド、「3つ以上への振り分け」ならソフトマックス。中間層は ReLU を既定に置き、学習が進まないときに改良版を試す——この順番を持っておけば、実装でも試験でも判断が速くなります。

次のステップ

活性化関数が G検定のどこでどう出るかは、G検定の試験範囲と勉強法ガイドで全体像を見ておくと、学習の順番に迷いません。

手を動かして確かめたいなら、G検定ディープラーニング基礎の問題集で、活性化関数と勾配消失まわりの設問に当たっておくのが近道です。