プロンプトインジェクションとは？生成AIの脆弱性をやさしく解説

「AIに”命令を無視して”と入れると従うって本当?」
「読み込ませた資料に、罠が仕込めるの?」
「どう設計すれば、この攻撃を防げる?」

本来は丁寧に応対するはずのAIチャットが、紛れ込んだ一文をきっかけに、開発者の意図しない振る舞いを始める。これがプロンプトインジェクションの怖さです。

プロンプトインジェクションとは、AIへの入力に不正な指示を紛れ込ませ、本来の制約を破らせる攻撃です。AIが「与えられた文章＝従うべき指示」と素直に受け取る性質を突きます。肝になるのは、命令とデータの区別がAIには付きにくいという弱点にあります。

この記事では、まず攻撃の2つの型を図で分け、どんな被害が起きうるかを押さえます。さらに防御の判断軸を整理し、生成AIパスポート・G検定での問われ方まで示します。なお、悪用につながる具体的な手口は扱わず、仕組みと守り方に絞ります。

1 1. プロンプトインジェクションとは何か
2 2. 2つの型で理解する
3 3. どんな被害が起きうるか
4 4. 対策の判断軸
5 5. 試験での問われ方と、付き合い方
- 5.1 次のステップ

1. プロンプトインジェクションとは何か

この攻撃の根っこには、AIの素直さがあります。AIは、渡された文章を「処理すべきデータ」なのか「従うべき命令」なのか、明確には区別できません。この曖昧さに、悪意ある指示を滑り込ませるのが手口です。

たとえるなら、舞台の台本に、第三者がこっそり書き足したセリフです。役者は台本を信じて読み上げるので、本来の筋書きにない一言まで、そのまま口にしてしまう。役者（AI）に悪気はなく、渡された台本を忠実に演じただけ。「書いてあることを疑わずに実行する」という真面目さが、そのまま隙になります。

ここが、人をだます攻撃との共通点でもあります。相手の思い込みや素直さにつけ込む発想は、ソーシャルエンジニアリングとはに通じます。プロンプトインジェクションは、その標的をAIに置き換えた攻撃と捉えると、本質がつかめます。AI本体の仕組みは LLM（大規模言語モデル）とはで押さえられます。

2. 2つの型で理解する

プロンプトインジェクションは、指示の入り口の違いで2つの型に分けて理解できます。図で対比します。

直接型は、攻撃者がAIの入力欄に、じかに不正な指示を打ち込みます。間接型は、AIが読み込むWebページや文書など、外部のデータの中にあらかじめ指示を仕込んでおく手口です。間接型が厄介なのは、正規の利用者が、罠を仕込まれた資料を何気なくAIに読ませただけで発動する点にあります。利用者に悪気がなくても被害が起きます。

2つの型で、あなたが特に警戒すべきは間接型です。直接型は入力欄という分かりやすい入り口ですが、間接型はAIが外部の情報を読み込むあらゆる場面が入り口になります。要約させたWebページ、読み込ませた添付ファイル——そこに罠が潜みうる、という前提を持つこと。AIに外部データを扱わせるほど、この入り口は増えていきます。

3. どんな被害が起きうるか

プロンプトインジェクションが成立すると、AIが本来守るべき一線を越えてしまいます。起きうる被害を、あなたのために整理します。

機密の漏洩: 見せてはいけない内部情報や、他の利用者のデータを引き出される
意図しない動作: 外部への送信や操作など、許可していない振る舞いをさせられる
誤情報の出力: 偽の案内を正規の回答のように表示させられる

被害が大きくなるかどうかは、AIにどれだけの権限を持たせているかで決まります。ただ文章を返すだけのAIなら、被害は限定的です。しかし、メール送信やデータベース操作といった強い権限をAIに与えていると、乗っ取られたときの実害が跳ね上がります。あなたが「このAIに、そこまでの力を持たせる必要があるか」を問うことが、被害を小さくする第一歩です。

4. 対策の判断軸

完全に防ぎきる特効薬はありません。だからこそ、複数の守りを重ねるのが基本方針です。設計で持つべき判断軸を示します。

判断軸	考え方
入力を信頼しない	外部データやユーザー入力を、そのまま命令として扱わない前提で設計する
権限を最小化する	AIに与える操作権限を、必要最小限に絞る
出力を検証する	AIの出力を鵜呑みにせず、危険な操作の前に確認を挟む
人を介在させる	重要な操作は、最終判断を人が行う設計にする

この4つを貫く発想は、セキュリティの王道と同じです。「破られる前提で、被害を小さくする」。1つの防御が突破されても、権限の最小化や人の確認が残っていれば、致命傷を避けられます。あなたが設計に関わるなら、AIを「万能の頼れる存在」ではなく「だまされうる真面目な担当者」として扱うのが、堅い守りの出発点です。

5. 試験での問われ方と、付き合い方

生成AIパスポートやG検定では、プロンプトインジェクションは生成AIのセキュリティリスクとして問われます。出題の的は2点です。

1つは、「入力に不正な指示を紛れ込ませ、本来の制約を破らせる攻撃」という定義。もう1つは、外部データ経由で仕込む間接型が存在すること、そして対策が「入力を信頼しない・権限を絞る・人が確認する」という多層防御になる点です。「AIが自分の意思で暴走する」といった擬人的な選択肢は誤りで、あくまで入力を突かれた結果だと押さえておけば、引っかけに強くなります。安全なAIの使い方はプロンプトエンジニアリングとはともつながります。

現場で持ち帰るべき姿勢は、「AIの入力は、外から来る信頼できないもの」という一線です。ふつうのシステム開発でも、外部からの入力は疑ってかかるのが鉄則。AIも同じで、渡す文章を無条件に信じさせない設計が守りの土台になります。便利さに引かれて権限を広げすぎないこと——ここが、事故を防ぐ分かれ目です。

次のステップ

生成AIのリスクを体系立てて押さえたいなら、生成AIパスポートの試験範囲と勉強法ガイドを入口に、プロンプトインジェクションが他の論点とどうつながるかをたどれます。

理解を答案の力に変えるなら、生成AIパスポートリスク・倫理の問題集で、セキュリティ領域の設問にあたって、対策の勘どころを確かめてください。