
「半構造化データって、よく聞くけどイメージが湧かない…」
「DP-900でどう問われるのか知りたい」
そんな疑問を抱える、データの基礎を学び始めたあなたへ。
結論から言えば、
データは「決まった形にそろっているか」で、構造化・半構造化・非構造化の3つに分けて整理できます
と説明されるのが一般的です。
違いは「形のそろい方」で決まります。形が固定されたものが構造化、ある程度の形はあるが項目に揺れがあるものが半構造化、決まった形を持たないものが非構造化です。
この記事では、3種類のデータの違いと具体例、それぞれが向くAzureの保存先、DP-900での問われ方を、初心者のあなた向けにまとめました。
1. 構造化・半構造化・非構造化データとは

あなたがまず押さえたいのは、データを「形がどれだけそろっているか」で3つに分ける基本の考え方です。
データとは、数値や観測結果といった「事実の集まり」です。多くは顧客や商品、注文といった対象(エンティティ)を表し、それぞれが名前や住所などの属性を持ちます。保存・検索の仕組みの基礎は、データベースとはであわせて押さえると話が入りやすくなります。
Microsoftの学習ドキュメントでは、このデータを構造化(structured)・半構造化(semi-structured)・非構造化(unstructured)の3つに分類できると説明されています。そろっているほど扱いやすく、そろっていないほど柔軟という関係です。
2. 構造化データ(表形式・RDB)

あなたが最初に覚えたいのが、いちばん身近な構造化データです。
構造化データとは、固定されたスキーマ(形の決まり)に従い、どのデータも同じ項目を持つデータです。多くは表形式(テーブル)で、行が1件ずつのデータ、列が項目を表します。顧客テーブルなら「氏名・住所・電話番号」の列がそろう形です。
公式ドキュメントでは、構造化データは複数の表がキー値で互いを参照するリレーショナルモデルのデータベースに保存されることが多い、と説明されています。Azureでこの受け皿の代表になるのが、Azure SQL Databaseとはで解説しているフルマネージドのリレーショナルデータベースです。
3. 半構造化データ(JSON・XMLなど)

次に押さえたいのが、構造化と非構造化の中間にあたる半構造化データです。
半構造化データとは、ある程度の構造は持つものの、1件ごとに項目の揺れを許すデータです。公式の例では、ほとんどの顧客はメールアドレスを1つ持つが、複数持つ人も持たない人もいる、といった項目数がそろわない状況が挙げられています。
その代表的な形式がJSON(JavaScript Object Notation)です。XMLなど他の表し方もありますが、Microsoftの学習ドキュメントではJSONを半構造化データの一例として紹介しています。表のように列を固定せず、必要な項目だけを書ける柔軟さが特徴です。
こうした柔軟なデータをクラウドで扱う受け皿としては、Azure Cosmos DBとはで解説している非リレーショナル(NoSQL)のデータベースが向くと言われています。
4. 非構造化データ(画像・動画・文書など)

3つめが、決まった形を持たない非構造化データです。
非構造化データとは、特定の構造を持たないデータです。公式の例では、文書・画像・音声・動画・バイナリファイルが挙げられています。日々生み出される情報の多くが、この非構造化に含まれます。
こうしたファイルは、行と列の表には収まりません。そのため、ファイルをそのまま大量に置けるストレージが受け皿になります。Azureでは、Azure Blob Storageとはで解説しているオブジェクトストレージが、画像や動画などの非構造化データを安く大量に保存する用途に向くとされています。
5. DP-900での問われ方と、今日からの一歩

ここまで読んだあなたは、3種類のデータの輪郭を押さえられたはずです。DP-900では、この分類は「コアデータの概念」を扱う領域の入口として問われやすいテーマとされています。
よくある問われ方は、「JSONはどれに当たるか」「画像はどれに当たるか」といった形式と分類の対応や、「この種類のデータにはどの保存先が向くか」という組み合わせです。3分類と代表例、向く保存先をセットで覚えておくと対応しやすくなります。
| 種類 | 形・代表例 | 向く保存先(Azure) |
|---|---|---|
| 構造化 | 表形式・RDB(固定スキーマ) | Azure SQL Database など |
| 半構造化 | JSON・XML など | Azure Cosmos DB など |
| 非構造化 | 画像・動画・文書 など | Azure Blob Storage など |
あなたが今日からできる、最初の一歩はとてもシンプルです。
- 用語整理: 「構造化=表」「半構造化=JSON」「非構造化=画像・文書」を1行メモにまとめる(3分)
- 関連記事: データベースの基礎を1本読み返し、保存先の土台を固める(5分)
- 確認: 身近なデータ(顧客名簿・写真・設定ファイル)がどれに当たるか分類してみる(2分)
たった10分で、データの種類はぼんやりした言葉から、はっきり区別できる概念に変わります。完璧に覚えてから動くより、まず手元のデータで分けてみる。それが、あなたにとって速い学び方です。
次のステップ

データの保存・検索という土台から整理し直したいなら、データベースとはへ戻るのがおすすめです。3分類がどの仕組みに収まるかが見えると、データサービス全体の地図がつながります。
構造化データの受け皿を具体的に知りたいときは、Azure SQL Databaseとはへ進むと、リレーショナルデータベースとの結び付きがはっきりします。
このデータの3分類(構造化・半構造化・非構造化)は、DP-900の出題範囲の一部です。試験範囲と進め方は DP-900とは(試験範囲・勉強の進め方) で俯瞰できます。
分野ごとに進めるなら、DP-900 学習ロードマップ で全体像と次の問題集を確認できます。