CNNとは？画像認識に強いAIの仕組みをやさしく解説

「CNNって、何の略?」
「なぜ画像認識に強いの?」
「普通のニューラルネットと、何が違う?」

なぜ画像だけ、特別なネットワークが要るのでしょう。文章や数値はそのまま扱えるのに、画像には専用の仕組みが用意されています。CNNとは、画像から特徴を自動でつかむのが得意な、畳み込みニューラルネットワークです。その答えの鍵が「畳み込み」という計算にあります。

この記事は、畳み込みが1マスの数字を出すまでを具体例でたどり、3つの層の役割を表で整理し、普通のニューラルネットとの差、そして試験での問われ方まで進みます。G検定のディープラーニング基礎に効きます。

1 1. まず、CNNの立ち位置をつかむ
2 2. 畳み込みが1マスの数字を出すまで
3 3. 3つの層で役割を分ける
4 4. 普通のニューラルネットとの決定的な差
5 5. 試験で狙われる角度と、判断の物差し
- 5.1 次のステップ

1. まず、CNNの立ち位置をつかむ

CNNは Convolutional Neural Network の略で、日本語では畳み込みニューラルネットワークと呼びます。ニューラルネットワークは、数値を層から層へ受け渡して答えを出す仕組み。あなたが押さえるべきは、CNNがその一種で、「縦横に並んだデータ」の扱いに特化した形だという点です。土台の考え方はニューラルネットワークとはでまとめています。

画像認識・物体検出・顔認証・医療画像の診断支援——「目の役割」をするAIの多くが、このCNNを基礎にしています。スマホの写真アプリが被写体を見分けたり、自動運転車が歩行者を検知したりする裏でも、あなたが思う以上にCNNが働いています。なぜ画像に強いのか。その正体を、次のセクションで数字にして開きます。

2. 畳み込みが1マスの数字を出すまで

CNNの心臓部が畳み込み層です。ここではフィルタという小さな窓を画像の上でずらしながら、その場所の特徴を数字1つに凝縮します。言葉より計算を見たほうが速いので、3×3のミニ画像に「縦の線を探すフィルタ」をあてた例を出します。

やっていることは掛けて足すだけです。フィルタの各マスと画像の各マスを掛け合わせ、全部足す。中央に縦線があるこの場所では大きな値（27）が出て、「ここに縦線あり」と検出されます。同じフィルタで縦線の無い場所を計算すると、プラスとマイナスが打ち消し合って小さな値になる。フィルタを画像全体で滑らせると、「どこに縦線があったか」の地図ができあがります。これが特徴マップです。

たとえるなら、透明なスタンプ型を画像の上で少しずつずらしていく作業です。型が「縦線」の形なら、縦線のある場所でだけカチッと当たって強く光る。型を変えれば横線や曲がり角も探せる。CNNは、この型を何種類も使って画像をなぞっています。

畳み込み層を何段も重ねると、とらえる特徴が階段状に育ちます。最初の層は「線」や「角」、次の層は「目」や「車輪」、さらに深い層は「顔」や「車」。単純な部品から複雑な形へ組み上がっていくのが、深く重ねる意味です。

3. 3つの層で役割を分ける

畳み込みを理解できたら、あとは2つ足すだけです。CNNは畳み込み層・プーリング層・全結合層の3種で成り立ちます。役割を表で押さえましょう。

層	役割	ひとことで
畳み込み層	フィルタで特徴を拾い、特徴マップを作る	特徴を見つける
プーリング層	特徴マップを縮め、位置ズレに強くする	要点に絞る
全結合層	集めた特徴をつなぎ、分類の答えを出す	判定する

プーリング層は、ある範囲でいちばん強い値だけを残す、といった方法で特徴マップを縮小します。細かい位置のズレに影響されにくくなり、データも軽くなる。あなたが写真を縮小サムネイルにしても「何が写っているか」は分かる、あの感覚です。最後の全結合層が、それまで集めた特徴を束ねて「これは犬」といった結論を出します。

流れを一息で言えば、畳み込みで拾い、プーリングで絞り、全結合で判定する。この3段がCNNの基本形です。試験でも、各層が「拾う・絞る・判定する」のどれを担うかで問われます。役割を動詞1語で握っておくと、取り違えません。

4. 普通のニューラルネットとの決定的な差

あなたの疑問、「普通のニューラルネットと何が違うのか」に答えます。通常の全結合型ネットワークは、画像を扱うときピクセルを一列に並べて入力します。ここで問題が2つ起きます。縦横の位置関係が崩れること、そして入力数が膨大になって計算が重くなることです。

CNNは、フィルタで局所の特徴を読み、同じフィルタを画像全体で使い回します。だから位置関係を保ったまま、少ない計算で特徴をつかめる。これが画像に強い正体です。同じ猫でも、画面の右上にいても左下にいても、同じフィルタが反応してくれます。層を深く重ねて特徴をとらえる発想そのものはディープラーニングとはでまとめており、CNNはその代表的な応用です。

現場の感覚を1つ添えると、CNNが強いのは「近くのピクセルは意味的に関係が深い」という画像の性質に、仕組みがぴったり合っているからです。あなたが画像をバラして一列にした瞬間、この「近さ」の情報が消える。CNNはそれを壊さない設計になっている——ここが効いています。

同じ画像でも、通常NNは「1024個の数字の羅列」として受け取り、CNNは「縦横に並んだ絵」として受け取ります。入力を平らにするか、形のまま扱うか——この最初の一歩の違いが、精度と計算量の差になって最後まで効いてきます。

5. 試験で狙われる角度と、判断の物差し

G検定では、CNNは各層の役割と「画像に強い理由」がセットで問われます。あなたが持つべき物差しは、たった1本です。「その仕組みは、画像の位置関係を保っているか」——これで多くの選択肢が切れます。

「畳み込み・プーリング・全結合のどれが分類を担うか」なら全結合層。「位置ズレに強くする層は」ならプーリング層。「なぜ通常NNより画像に向くか」なら、局所の特徴抽出とフィルタの使い回しで位置関係を保つから。問いの言葉が変わっても、拾う・絞る・判定するの3役と、位置関係を保つ物差しの2つがあれば、答えの側に立てます。CNNは画像系の頻出語（畳み込み・特徴マップ・プーリング）の親にあたるので、ここを固めると周辺の設問がまとめて整理されます。

次のステップ

CNNがG検定のどこに位置するかを地図で見たいなら、G検定の試験範囲と勉強法ガイドでディープラーニング基礎の並びを先に確認しておくと、学ぶ順番が定まります。

理解を得点に変える近道は、実際に解いてみることです。G検定ディープラーニング基礎の問題集で、各層の役割の問われ方を、手を動かして確かめておきましょう。