構造化・半構造化・非構造化データとは?違いを解説

構造化・半構造化・非構造化データとは?違いを解説

データの種類の違いに迷う社会人
「構造化データと非構造化データって、何が違うの?」
「半構造化データって、よく聞くけどイメージが湧かない…」
「DP-900でどう問われるのか知りたい」

そんな疑問を抱える、データの基礎を学び始めたあなたへ。

結論から言えば、
データは「決まった形にそろっているか」で、構造化・半構造化・非構造化の3つに分けて整理できます
と説明されるのが一般的です。

 

違いは「形のそろい方」で決まります。形が固定されたものが構造化、ある程度の形はあるが項目に揺れがあるものが半構造化、決まった形を持たないものが非構造化です。

 

この記事では、3種類のデータの違いと具体例、それぞれが向くAzureの保存先、DP-900での問われ方を、初心者のあなた向けにまとめました。

 

1. 構造化・半構造化・非構造化データとは

3種類のデータの形を分けて整理するイメージ

あなたがまず押さえたいのは、データを形がどれだけそろっているかで3つに分ける基本の考え方です。

 

データとは、数値や観測結果といった「事実の集まり」です。多くは顧客や商品、注文といった対象(エンティティ)を表し、それぞれが名前や住所などの属性を持ちます。保存・検索の仕組みの基礎は、データベースとはであわせて押さえると話が入りやすくなります。

 

Microsoftの学習ドキュメントでは、このデータを構造化(structured)・半構造化(semi-structured)・非構造化(unstructured)の3つに分類できると説明されています。そろっているほど扱いやすく、そろっていないほど柔軟という関係です。

 

イメージは収納のたとえです。仕切りが決まった書類棚が構造化、仕切りはあるが中身に余裕がある棚が半構造化、何でも放り込める大きな収納箱が非構造化に近いと言われています。

 

2. 構造化データ(表形式・RDB)

行と列の表でそろえて管理する構造化データのイメージ

あなたが最初に覚えたいのが、いちばん身近な構造化データです。

 

構造化データとは、固定されたスキーマ(形の決まり)に従い、どのデータも同じ項目を持つデータです。多くは表形式(テーブル)で、行が1件ずつのデータ、列が項目を表します。顧客テーブルなら「氏名・住所・電話番号」の列がそろう形です。

 

公式ドキュメントでは、構造化データは複数の表がキー値で互いを参照するリレーショナルモデルのデータベースに保存されることが多い、と説明されています。Azureでこの受け皿の代表になるのが、Azure SQL Databaseとはで解説しているフルマネージドのリレーショナルデータベースです。

 

構造化データの要点は、「全件が同じ形にそろっているから、集計や検索がしやすい」点にあるとされています。Excelの表をイメージすると、行と列でそろった姿がつかみやすいです。

 

3. 半構造化データ(JSON・XMLなど)

JSONのように項目に揺れを許す半構造化データのイメージ

次に押さえたいのが、構造化と非構造化の中間にあたる半構造化データです。

 

半構造化データとは、ある程度の構造は持つものの、1件ごとに項目の揺れを許すデータです。公式の例では、ほとんどの顧客はメールアドレスを1つ持つが、複数持つ人も持たない人もいる、といった項目数がそろわない状況が挙げられています。

 

その代表的な形式がJSON(JavaScript Object Notation)です。XMLなど他の表し方もありますが、Microsoftの学習ドキュメントではJSONを半構造化データの一例として紹介しています。表のように列を固定せず、必要な項目だけを書ける柔軟さが特徴です。

 

注意したいのは、半構造化データは「形がまったく無い」わけではない点です。タグやキーで項目に名前が付いているので、構造化ほど厳密ではないものの、機械が読み取れる手がかりは残っている、と整理すると分かりやすいです。

 

こうした柔軟なデータをクラウドで扱う受け皿としては、Azure Cosmos DBとはで解説している非リレーショナル(NoSQL)のデータベースが向くと言われています。

 

4. 非構造化データ(画像・動画・文書など)

画像や文書など決まった形を持たない非構造化データのイメージ

3つめが、決まった形を持たない非構造化データです。

 

非構造化データとは、特定の構造を持たないデータです。公式の例では、文書・画像・音声・動画・バイナリファイルが挙げられています。日々生み出される情報の多くが、この非構造化に含まれます。

 

こうしたファイルは、行と列の表には収まりません。そのため、ファイルをそのまま大量に置けるストレージが受け皿になります。Azureでは、Azure Blob Storageとはで解説しているオブジェクトストレージが、画像や動画などの非構造化データを安く大量に保存する用途に向くとされています。

 

イメージは大きな倉庫です。中身の形を問わずラベルを付けてしまうように、写真でも動画でも文書でもそのまま置けるのが非構造化データの保存先に近いと言われています。

 

補足として、Microsoftの学習ドキュメントでは、AIアシスタントが自社の文書に答えるために使うベクトルデータ(埋め込み)も近年扱いが増えていると触れられています。まずは3分類を軸に押さえておけば十分です。

 

5. DP-900での問われ方と、今日からの一歩

3種類のデータと保存先の対応を整理するイメージ

ここまで読んだあなたは、3種類のデータの輪郭を押さえられたはずです。DP-900では、この分類は「コアデータの概念」を扱う領域の入口として問われやすいテーマとされています。

 

よくある問われ方は、「JSONはどれに当たるか」「画像はどれに当たるか」といった形式と分類の対応や、「この種類のデータにはどの保存先が向くか」という組み合わせです。3分類と代表例、向く保存先をセットで覚えておくと対応しやすくなります。

 

種類 形・代表例 向く保存先(Azure)
構造化 表形式・RDB(固定スキーマ) Azure SQL Database など
半構造化 JSON・XML など Azure Cosmos DB など
非構造化 画像・動画・文書 など Azure Blob Storage など

 

あなたが今日からできる、最初の一歩はとてもシンプルです。

 

  1. 用語整理: 「構造化=表」「半構造化=JSON」「非構造化=画像・文書」を1行メモにまとめる(3分)
  2. 関連記事: データベースの基礎を1本読み返し、保存先の土台を固める(5分)
  3. 確認: 身近なデータ(顧客名簿・写真・設定ファイル)がどれに当たるか分類してみる(2分)

 

たった10分で、データの種類はぼんやりした言葉から、はっきり区別できる概念に変わります。完璧に覚えてから動くより、まず手元のデータで分けてみる。それが、あなたにとって速い学び方です。

 

次のステップ

次のステップ

データの保存・検索という土台から整理し直したいなら、データベースとはへ戻るのがおすすめです。3分類がどの仕組みに収まるかが見えると、データサービス全体の地図がつながります。

構造化データの受け皿を具体的に知りたいときは、Azure SQL Databaseとはへ進むと、リレーショナルデータベースとの結び付きがはっきりします。

このデータの3分類(構造化・半構造化・非構造化)は、DP-900の出題範囲の一部です。試験範囲と進め方は DP-900とは(試験範囲・勉強の進め方) で俯瞰できます。

 

分野ごとに進めるなら、DP-900 学習ロードマップ で全体像と次の問題集を確認できます。