Foundation Modelとは？LLMとの違いを解説

「Foundation Modelって何?」
「LLMと同じ意味なの?」
「試験でどこを押さえれば?」

「LLMと同じもの?」——ここが最初の分かれ道です。

Foundation Modelとは、大量データで土台を学び、様々なタスクに使える汎用AIモデルのことです。日本語では「基盤モデル」。答えを先に言うと、LLMとは同じではなく、この基盤モデルがLLMを含む関係にあります。LLMは、土台を言語に特化させた一種です。

この記事では、基盤モデルが何の「土台」なのかを押さえ、LLMとの包含関係を図で示し、2段階でどう作られるかをたどります。最後に種類を整理し、生成AIパスポートの領域1で問われる角度まで届けます。

1 1. Foundation Modelは「あとから枝分かれする土台」
2 2. LLMとの関係は「包む・包まれる」
3 3. 2段階で作られる — 土台づくりと特化
4 4. 扱うデータで4種類に分かれる
5 5. 生成AIパスポートで問われる角度
- 5.1 次のステップ

1. Foundation Modelは「あとから枝分かれする土台」

基盤モデルの芯は、1つの大きな土台を先に作り、後から用途へ枝分かれさせる発想にあります。従来のAIは「翻訳専用」「画像分類専用」と、タスクごとに別々のモデルを作っていました。基盤モデルは、その順番をひっくり返します。

まず大量・多様なデータで汎用的な土台を1つ学び、そこから翻訳・要約・画像生成・音声認識といった個別タスクへ応用する。土台づくりに大きく投資し、あとは使い回す。あなたがタスクごとにゼロから作り直さずに済むので、開発の効率が大きく変わります。この「先に土台、あとで特化」が、基盤モデルの核となる発想です。

たとえるなら、1本の木です。太い幹（土台）を育てておけば、そこから翻訳・要約・画像生成といった枝（用途）を何本も伸ばせます。枝ごとに別の木を植え直す必要はありません。基盤モデルは、この「幹を1本しっかり育てる」ことに力を注ぐ考え方です。

2. LLMとの関係は「包む・包まれる」

つまずきやすいLLMとの関係を、はっきりさせます。結論は、LLMは Foundation Model の一種。Foundation Modelが上位の大きな箱で、その中の「言語特化版」がLLMです。図にすると一目です。

関係を式で書くと「Foundation Model ⊃ LLM」。LLMはどれもFoundation Modelに含まれますが、Foundation ModelのほうはLLMだけに限りません。大量データで事前学習された汎用の土台であれば、画像生成や音声認識のモデルもFoundation Modelに入ります。あなたが「LLMは言語という一枝、基盤モデルは幹全体」と捉えると、上位・下位の関係が崩れません。LLMそのものをもう一歩詳しく知りたいなら、LLMとはで押さえられます。

試験で狙われるのが、この上位・下位の取り違えです。「LLMはFoundation Modelの一種か、それとも別物か」を問う設問では、⊃の向きを逆にすると誤答に引っかかります。あなたは「大きい箱がFoundation Model、その中の言語コーナーがLLM」と、包む側と包まれる側をはっきりさせておけば安全です。

3. 2段階で作られる — 土台づくりと特化

基盤モデルの作り方は、「事前学習」と「ファインチューニング」の2段階で見ると、一度で押さえられます。順に、時間の流れでたどります。

STEP 1：事前学習（土台づくり）。インターネット上のテキスト、論文、書籍、画像など、膨大で多様なデータをモデルに読み込ませます。言葉の使い方や画像の特徴といった「土台」を身につける工程で、巨大な計算資源と、数週間から数か月の時間がかかります。ここまでで作られたものが、基盤モデルの素体です。

STEP 2：ファインチューニング（個別タスクへ）。土台のできたモデルに、用途に応じた追加調整をかけます。個別タスク用のデータで追加学習し、中身を専門化する。あなたが同じ基盤モデルを土台に、カスタマーサポート向け・法律文書向け・医療向けといった専門モデルへ枝分かれさせられる点が、最大の強みです。追加学習の中身はファインチューニングとはで立体的に理解できます。

2段階を1本の線でつなぐと、「広く学んで土台を作り、狭く鍛えて用途に合わせる」となります。学生時代に幅広く学び、就職後に職業訓練で専門を身につける流れに近い。土台の汎用性と、特化の専門性を、順番に積み上げるのが基盤モデルの育て方です。

4. 扱うデータで4種類に分かれる

基盤モデルの全体像は、扱うデータの種類で分けると掴めます。代表的な4つの軸を、1枚で並べます。

軸	主な用途	代表例
テキスト系	会話・文章生成・要約	GPT系（OpenAIなど）
画像系	画像生成・画像認識	Stable Diffusion系
音声系	音声認識・音声合成	音声特化モデル各種
マルチモーダル系	言語＋画像＋音声を一緒に扱う	マルチモーダル対応モデル各種

テキスト系の代表が、ChatGPTでおなじみのGPT系。画像系ではStable Diffusion系が、テキストから画像を生成する用途で広く使われています。音声・マルチモーダル系は、固有名詞を覚えるより「言語以外も扱える広がり」を押さえておけば、試験で迷いません。あなたが「基盤モデル＝言語だけ」という思い込みを外せると、種類の設問に強くなります。言語と画像を同時に扱う種類は LLM の発展形として語られる場面も増えています。

4種類を貫く軸は、「扱うデータが何か」の一点です。テキストか、画像か、音声か、それらを混ぜたマルチモーダルか。あなたがこの「入力の種類」で分けておけば、代表例の名前をうろ覚えでも、どの軸のモデルかを言い当てられます。細かい製品名より、まず4つの入り口を押さえるのが得策です。

5. 生成AIパスポートで問われる角度

領域1では、基盤モデルは頻出語の親として問われます。あなたが押さえる角度は3つです。

LLMとの関係：LLMは基盤モデルの一種（Foundation Model ⊃ LLM）
作られ方：事前学習で土台 → ファインチューニングで個別タスクへ
種類：テキスト・画像・音声・マルチモーダルの4軸

まとめれば、基盤モデルの正体はこうです。「先に汎用の土台、あとで用途へ特化する、上位の枠」。この芯を持てば、LLM・ファインチューニング・マルチモーダルといった周辺の頻出語が、基盤モデルという1本の幹からきれいに枝分かれして見えてきます。

次のステップ

基盤モデルが領域1のどこに出るかは、生成AIパスポートの試験範囲と勉強法ガイドで全体を俯瞰してから当たると、周辺概念とのつながりが見えます。

関係や作られ方が定着したかは、LLM・基盤技術の問題集で設問に当たり、記憶の輪郭を確かめてみてください。