
「レイクハウスという新しい言葉も出てきて混乱する…」
「DP-900ではどう問われるのか知りたい」
そんな疑問を抱える、データの基礎を学び始めたあなたへ。
結論から言えば、
データウェアハウスは整えた構造化データの分析庫、データレイクは生データの大量保管庫、レイクハウスは両者を統合した形
と整理されるのが一般的です。
「データウェアハウス・データレイク・レイクハウス」とは、分析向けにデータをためる3つの代表的な仕組みの呼び名で、扱うデータの形と整え方が異なるとされています。ためる前の段階でデータをどう加工するかは、バッチ処理とストリーム処理とはで扱う処理方式の話です。
この記事では、3つの違いと使い分け、そしてDP-900(Azure Data Fundamentals)での問われ方を、初心者のあなた向けにやさしくまとめました。
1. データウェアハウス(DWH)とは

あなたがまず押さえたいのは「分析しやすい形に整えてためる場所」という基本です。
データウェアハウス(DWH)とは、複数のシステムから集めたデータを、表(テーブル)のような決まった構造に整理してためる仕組みとされています。Microsoftの資料でも、星型・雪型スキーマや、整えた企業データ、レポート向けのモデルといった用途が想定されると説明されています。
特徴は、ためる前に形を決めるスキーマオンライトという考え方です。入れる段階で構造を整えるため、後からの集計やOLAP(分析向けの処理)が速くなりやすいと言われています。日々の取引処理ではなく、分析・BI(経営の意思決定支援)に向く点が押さえどころです。
2. データレイク(データの湖)とは

次に押さえたいのが、データレイクの「生のまま、大量にためる」という発想です。
データレイクとは、データを元の生の形式のまま、大量にためておく保管庫とされています。Microsoftの説明では、表のような構造化データだけでなく、JSONやログのような半構造化データ、画像・音声・動画のような非構造化データも、そのまま保存できると整理されています。
こちらは読み出すときに形を解釈するスキーマオンリードという考え方です。とりあえずためておき、必要になったときに整える。この柔軟さから、大量データの分析や機械学習の土台に向くと言われています。
Azureでレイクの保存層を担う代表例の一つが、Azure Blob Storageです。生データの受け皿としてどう使われるかをつかむと、レイクの輪郭がはっきりします。
3. レイクハウス(両者を統合した形)とは

3つ目のレイクハウスは、その名のとおりレイクとDWHの良いところを一つにした形とされています。
レイクハウスとは、データレイクの上に、DWHのような構造化した問い合わせの仕組みを重ねた考え方です。生データの柔軟な保管と、整えたデータへの速い分析を、同じ土台でまかなおうという発想と言われています。このレイクハウスをSparkで支える基盤の代表がAzure Databricksとはです。
MicrosoftのMicrosoft Fabricでは、テナントごとに「OneLake」という単一の論理データレイクが用意され、その上のレイクハウスが「データレイクの上でデータベースのように振る舞うファイル・フォルダー・テーブルの集まり」と説明されています。レイクハウスを学ぶなら、Fabricの記事と合わせて読むと位置づけがつかめます。
4. 使い分けとDP-900での問われ方

あなたが迷ったときの目安は、「データの形」と「やりたいこと」で選ぶことです。
| 観点 | データウェアハウス | データレイク |
|---|---|---|
| ためる形 | 整えた構造化データ | 生データ(構造化〜非構造化) |
| 整える時点 | ためる前(スキーマオンライト) | 読むとき(スキーマオンリード) |
| 得意な用途 | レポート・BI・分析 | 大量データ・機械学習・探索 |
整えたデータでレポートを作るならDWH、形が定まらない大量データをまずためたいならレイク、両方を一つの基盤でと考えるならレイクハウス、という整理が分かりやすいとされています。Microsoftの資料でも、構造化データの分析にはDWH、多様で大量な非構造化データにはレイクが向くと示されています。
5. まとめ: 今日からできる、最初の一歩

ここまで読んだあなたは、3つの違いの輪郭をつかめたはずです。要点を3つに整理します。
- データウェアハウス = 整えた構造化データの分析庫(BI向き)
- データレイク = 生データを大量にためる保管庫(機械学習・探索向き)
- レイクハウス = 両者を統合した形(FabricのOneLakeが代表例)
今日からできる、最初の一歩はとてもシンプルです。
- 用語整理: 「スキーマオンライト」と「スキーマオンリード」を1行メモにまとめる(3分)
- 関連記事: OLTPとOLAPの違いを読み、分析向け処理の前提を押さえる(5分)
- 力試し: 3つの用途を「DWH・レイク・レイクハウス」に振り分けてみる(2分)
たった10分で、3つの違いは輪郭のある知識に変わります。完璧に覚えてから動くより、まず関連記事を1本読んでみる。それが、あなたにとっていちばん速い学び方です。
次のステップ

このデータウェアハウス・データレイク・レイクハウスの違いは、DP-900の出題範囲の一部です。試験範囲と進め方は DP-900とは(試験範囲・勉強の進め方) で俯瞰できます。
分野ごとに進めるなら、DP-900 学習ロードマップ で全体像と次の問題集を確認できます。