Attentionとは？Transformerの中核機構を初心者向けにやさしく解説

「Attentionって結局なに?」
「TransformerやLLMとどうつながる?」
「数式が出てくると、もう読みたくない…」

数式が主役だと身構えているなら、力を抜いてください。Attentionの正体は、もっと素朴な「見比べ」です。

Attentionとは、文中のどの単語が、他のどの単語と関係しているかをスコア化する仕組みです。関係の強いところに高い点数を付け、大事な相手に注意を向ける。これが生成AIの土台になっています。

この記事では、Attentionの基本を押さえ、Transformer・LLMとのつながりを整理し、クエリ・キー・バリューの3つの役割を図書館の司書にたとえて図でたどります。数式には踏み込みません。読み終えたあなたは、生成AIの中身に一歩近づけます。生成AIパスポート領域1の対策に効きます。

1 1. Attentionは「関係の強さ」を点数にする
2 2. Transformer・LLMとのつながり
3 3. クエリ・キー・バリューを司書で見る
4 4. なぜ生成AIの土台になったのか
5 5. 一言でいうと
- 5.1 次のステップ

1. Attentionは「関係の強さ」を点数にする

あなたが最初に押さえたいのは、Attentionが単語同士の関係の強さを数値で見える化する仕組みだという点です。Attentionは英語で「注意」。文中でどの単語に注意を向けるべきかを、AIが自動で判断するはたらきだから、そう呼ばれます。

たとえば「彼は犬を見て、それを可愛がった」を読むとき、あなたは自然に「それ」が「犬」を指すと分かりますよね。Attentionは文中の単語ペアに点数を付け、関係が強い組み合わせに高いスコアを返します。この点数付けがあるから、AIは長い文章でも、いま注目すべき単語のつながりを見失わずに済みます。

Attentionの芯は、関係の強さを数値にすることです。数式は内部の計算方法にすぎず、主役ではありません。あなたが「関係を点数化している」とだけ掴めれば、この先はぐっと軽くなります。

2. Transformer・LLMとのつながり

AttentionがTransformerの中核でLLMに重ねられる関係のイメージ

TransformerやLLMを耳にしたことがあるなら、Attentionの居場所はすぐ見えます。Transformerは文中の単語同士の関係を並列で読み取る仕組みで、その中核に置かれているのがAttentionです。とくに、同じ文の中で単語がお互いを見つめ合う形をSelf-Attentionと呼びます。

そしてLLM（大規模言語モデル）は、このSelf-Attentionを何層にも重ねた応用です。1層ごとに関係スコアを更新するので、長い文脈や複雑な意味のつながりを扱えます。関係を1行で言えば、Attentionは仕組みの名前、Transformerはそれを中核に置いた構造、LLMは多層に重ねた応用。この三段構えを、あなたは順に思い出せるようにしておきましょう。全体像は Transformerとは、多層に重ねる流れは LLMとはでまとめています。

名前が似ていて混ざりやすいので、あなたは階層で覚えると迷いません。いちばん小さな部品がAttention、それを組み込んだ機械がTransformer、機械をずらりと並べた工場がLLM。粒度が違うだけで、対立する概念ではありません。「どれがどれの中にあるか」を意識すると、3語の関係が一本の線でつながります。

3. クエリ・キー・バリューを司書で見る

Attentionの中身を掘ると、最初に出会うのがクエリ・キー・バリューという3つの役割です。日本語なら「質問・索引・中身」にあたります。動きを図で追ってください。

置き換えると、図書館の司書です。あなたが「猫の歴史を知りたい」と質問（クエリ）すると、司書はカードの索引（キー）から該当しそうな本を見つけ、棚から中身（バリュー）を取り出してくれます。質問と索引を照らし、関係の強い中身を渡す——Attentionの3役は、この司書の動きとほぼ同じです。

4. なぜ生成AIの土台になったのか

「Attentionはなぜそこまで大事にされるのか」——あなたのその疑問は自然です。理由は3つに絞れます。1つ目は並列で処理できること。単語ペアをまとめて点数付けできるので、左から右へ1語ずつ読む昔の仕組みより、ずっと速く長文を扱えます。

2つ目は長い文脈を保ちやすいこと。離れた単語同士の関係を直接スコア化するので、段落をまたいだ参照も見失いにくい。昔の仕組みは前から順にバケツリレーで情報を渡したため、遠い単語ほど情報が薄れました。Attentionは離れた相手とも直接つながるので、この弱点を抑えられます。3つ目は言語以外への広がりです。画像・音声・動画でも、要素同士の関係を同じ発想で点数化するモデルが次々に生まれています。検索エンジンが質問に対して索引と見比べ、関連度の高いページを返すのと、Attentionが文中から関係を引き当てる動きは、実はよく似ています。あなたが検索窓に言葉を打つときの感覚を思い出すと、Attentionの動きも身近に感じられます。

3つの強みは、並列処理で速い・長い文脈を保てる・言語以外にも広がる。この広がりを追いたいなら基盤モデルとはで、言語以外への応用がどこまで進んでいるかを押さえられます。

5. 一言でいうと

ここまでを、あなたが持ち帰れる形にします。Attentionは、たった3語で言えます。「質問・索引・中身」。この3つの役割で、文中の関係を点数化する仕組みです。

Attentionは、生成AIパスポート領域1「生成AIの技術」の中核テーマです。Transformer・LLMと並ぶ重要概念で、この3語をあなたが押さえておけば、領域1の周辺問題が一気に整理されます。試験では「Transformerの中核となる仕組みはどれか」「Self-Attentionとは何か」といった形で、用語のつながりが問われます。名前だけを暗記していると選択肢に惑わされますが、司書の動き（質問・索引・中身）を思い出せば、意味から答えを選べます。数式を覚える必要はありません。「関係を点数化して、大事な相手を多めに見る」——この一文にあなたが立ち返れば、細かい用語を忘れても意味から組み立て直せます。仕組みの名前に身構えず、動きのイメージから入るのが理解の近道です。

次のステップ

Attentionが生成AIパスポートのどこで問われるかは、生成AIパスポートの試験範囲と勉強法ガイドで領域ごとの重みをつかめます。

理解を試すなら、LLM・基盤技術の問題集で、Attention まわりの出題に触れて手ごたえを確かめてみてください。