NO IMAGE

データウェアハウス・データレイク・レイクハウスの違いとは

データの保存先の違いに悩むビジネスパーソン
「データウェアハウスとデータレイクって、何が違うの?」
「レイクハウスという新しい言葉も出てきて混乱する…」
「DP-900ではどう問われるのか知りたい」

そんな疑問を抱える、データの基礎を学び始めたあなたへ。

結論から言えば、
データウェアハウスは整えた構造化データの分析庫、データレイクは生データの大量保管庫、レイクハウスは両者を統合した形
と整理されるのが一般的です。

 

「データウェアハウス・データレイク・レイクハウス」とは、分析向けにデータをためる3つの代表的な仕組みの呼び名で、扱うデータの形と整え方が異なるとされています。ためる前の段階でデータをどう加工するかは、バッチ処理とストリーム処理とはで扱う処理方式の話です。

 

この記事では、3つの違いと使い分け、そしてDP-900(Azure Data Fundamentals)での問われ方を、初心者のあなた向けにやさしくまとめました。

 

1. データウェアハウス(DWH)とは

整理された棚に構造化データを並べるイメージ

あなたがまず押さえたいのは分析しやすい形に整えてためる場所という基本です。

 

データウェアハウス(DWH)とは、複数のシステムから集めたデータを、表(テーブル)のような決まった構造に整理してためる仕組みとされています。Microsoftの資料でも、星型・雪型スキーマや、整えた企業データ、レポート向けのモデルといった用途が想定されると説明されています。

 

特徴は、ためる前に形を決めるスキーマオンライトという考え方です。入れる段階で構造を整えるため、後からの集計やOLAP(分析向けの処理)が速くなりやすいと言われています。日々の取引処理ではなく、分析・BI(経営の意思決定支援)に向く点が押さえどころです。

 

ここでイメージしてほしいのが、整理された図書館です。本を分類して棚に並べてから貸し出すように、DWHもデータを整えてから蓄えるため、目当ての情報を探しやすいと言われています。

 

DWHの要点は、構造化データを分析向けに整理してためる点にあるとされています。BIツールでのレポートやダッシュボードと相性がよい、と整理すると分かりやすいです。

 

2. データレイク(データの湖)とは

あらゆる形式の生データを大量に流し込むイメージ

次に押さえたいのが、データレイクの「生のまま、大量にためる」という発想です。

 

データレイクとは、データを元の生の形式のまま、大量にためておく保管庫とされています。Microsoftの説明では、表のような構造化データだけでなく、JSONやログのような半構造化データ、画像・音声・動画のような非構造化データも、そのまま保存できると整理されています。

 

こちらは読み出すときに形を解釈するスキーマオンリードという考え方です。とりあえずためておき、必要になったときに整える。この柔軟さから、大量データの分析や機械学習の土台に向くと言われています。

 

注意点として、整えずにためる自由さの裏返しで、管理を怠ると目的の情報を取り出しにくい状態になりやすいとされています。何がどこにあるか分かるよう、整理の仕組みを併せて考えるのが基本です。

 

Azureでレイクの保存層を担う代表例の一つが、Azure Blob Storageです。生データの受け皿としてどう使われるかをつかむと、レイクの輪郭がはっきりします。

 

3. レイクハウス(両者を統合した形)とは

湖と倉庫が一体化した統合イメージ

3つ目のレイクハウスは、その名のとおりレイクとDWHの良いところを一つにした形とされています。

 

レイクハウスとは、データレイクの上に、DWHのような構造化した問い合わせの仕組みを重ねた考え方です。生データの柔軟な保管と、整えたデータへの速い分析を、同じ土台でまかなおうという発想と言われています。このレイクハウスをSparkで支える基盤の代表がAzure Databricksとはです。

 

MicrosoftのMicrosoft Fabricでは、テナントごとに「OneLake」という単一の論理データレイクが用意され、その上のレイクハウスが「データレイクの上でデータベースのように振る舞うファイル・フォルダー・テーブルの集まり」と説明されています。レイクハウスを学ぶなら、Fabricの記事と合わせて読むと位置づけがつかめます。

 

ここでイメージしてほしいのが、湖のほとりに建てた倉庫です。湖に生データをため、必要な分は隣の倉庫で整えて使う。ためる自由さと使う速さを両取りする発想がレイクハウスに近いとされています。

 

4. 使い分けとDP-900での問われ方

3つの仕組みを比べて使い分けるイメージ

あなたが迷ったときの目安は、「データの形」と「やりたいこと」で選ぶことです。

 

観点 データウェアハウス データレイク
ためる形 整えた構造化データ 生データ(構造化〜非構造化)
整える時点 ためる前(スキーマオンライト) 読むとき(スキーマオンリード)
得意な用途 レポート・BI・分析 大量データ・機械学習・探索

 

整えたデータでレポートを作るならDWH、形が定まらない大量データをまずためたいならレイク、両方を一つの基盤でと考えるならレイクハウス、という整理が分かりやすいとされています。Microsoftの資料でも、構造化データの分析にはDWH、多様で大量な非構造化データにはレイクが向くと示されています。

 

DP-900では、これらは「分析ワークロード」の領域で問われやすいテーマとされています。「構造化データを整えてためるのはどれか」「生データを大量にためるのはどれか」といった、用途と仕組みを結びつける問いを想定して覚えると役立ちます。

 

5. まとめ: 今日からできる、最初の一歩

3つの違いを整理し終えたイメージ

ここまで読んだあなたは、3つの違いの輪郭をつかめたはずです。要点を3つに整理します。

 

  1. データウェアハウス = 整えた構造化データの分析庫(BI向き)
  2. データレイク = 生データを大量にためる保管庫(機械学習・探索向き)
  3. レイクハウス = 両者を統合した形(FabricのOneLakeが代表例)

 

今日からできる、最初の一歩はとてもシンプルです。

 

  1. 用語整理: 「スキーマオンライト」と「スキーマオンリード」を1行メモにまとめる(3分)
  2. 関連記事: OLTPとOLAPの違いを読み、分析向け処理の前提を押さえる(5分)
  3. 力試し: 3つの用途を「DWH・レイク・レイクハウス」に振り分けてみる(2分)

 

たった10分で、3つの違いは輪郭のある知識に変わります。完璧に覚えてから動くより、まず関連記事を1本読んでみる。それが、あなたにとっていちばん速い学び方です。

次のステップ

次のステップ

このデータウェアハウス・データレイク・レイクハウスの違いは、DP-900の出題範囲の一部です。試験範囲と進め方は DP-900とは(試験範囲・勉強の進め方) で俯瞰できます。

 

分野ごとに進めるなら、DP-900 学習ロードマップ で全体像と次の問題集を確認できます。