Microsoft Azure Data Fundamentals(DP-900)「データの主要概念」の練習問題10問です。出題範囲はこの試験のなかでも配点が大きい分野で、データを扱う仕事の土台になります。構造化/半構造化/非構造化データの違い、データに関わる職種(データベース管理者・データエンジニア・データアナリスト)、トランザクション処理(OLTP)と分析処理(OLAP)、ファイルとデータベースの使い分けなどの理解度を確認できます。解けなかった問題は、各問の解説末尾のリンクから対応する解説記事に進んでください。
Q1. リレーショナルデータベースのテーブルのように、どのデータも同じ項目(列)を持つ固定スキーマに従うデータの分類はどれですか?
回答
解説
正解は「B」です。
構造化データは、決まったスキーマ(項目の型)に従い、どのデータも同じフィールドを持つデータです。多くの場合は行と列からなる表(テーブル)の形で表され、リレーショナルデータベースに保存されます。
A の半構造化データは項目に多少のばらつきを許す形式、C の非構造化データは決まった構造を持たないデータ、D のベクターデータは AI が独自データを扱うときに使われる数値表現で、いずれも固定スキーマの分類ではありません。
Q2. 半構造化データの代表的な表現形式として、Microsoft の教材で例に挙げられているものはどれですか?
回答
解説
正解は「C」です。
半構造化データは、ある程度の構造を持ちながら、データ1件ごとに項目のばらつきを許す形式です。代表例が JSON で、たとえば顧客ごとにメールアドレスが複数あったり、なかったりしても柔軟に表現できます。
A の動画や B の写真は決まった構造を持たない非構造化データの例、D はどの行も同じ列を持つ構造化データの例で、いずれも半構造化データの代表例ではありません。
Q3. 文書・画像・音声・動画など、決まった構造を持たないデータの分類はどれですか?
回答
解説
正解は「A」です。
非構造化データは、文書・画像・音声・動画・バイナリファイルのように、特定の構造を持たないデータです。表の形にも、項目つきのドキュメントの形にも当てはまりにくいのが特徴です。
B の構造化データは固定スキーマを持つ表形式、C の半構造化データは多少のばらつきを許す項目つき形式、D のリレーショナルデータは構造化データを表で扱う考え方で、いずれも構造を持たないデータの分類ではありません。
Q4. データベースのバックアップ取得や障害時の復元、ユーザーへのアクセス権付与など、データベースの運用と安全を担う職種はどれですか?
回答
解説
正解は「D」です。
データベース管理者(DBA)は、データベースの設計・実装・保守・運用を担い、可用性や性能を保つ役割です。バックアップと復旧の計画、ユーザーへのアクセス権の付与や拒否といった、データのセキュリティ管理も担当します。
A のデータアナリストは分析と可視化、B のデータエンジニアはデータ連携やパイプラインの構築、C のデータサイエンティストはデータの探索やモデリングが中心で、いずれもデータベースの運用と安全を主に担う職種ではありません。
Q5. データの取り込みパイプラインの構築や、データのクレンジング・変換、システム間のデータ連携を主に担う職種はどれですか?
回答
解説
正解は「A」です。
データエンジニアは、組織全体のデータ統合の基盤とプロセスを管理する役割です。データの取り込みパイプライン、クレンジングや変換の処理、システム間のデータ移動などを設計・実装し、リレーショナル/非リレーショナルデータベースやファイルストアなど幅広い技術を扱います。
B のデータアナリストは分析と可視化、C の DBA はデータベースの運用と安全、D の業務利用者は集計済みのレポートを見る側で、いずれもデータ連携の基盤づくりを主に担う職種ではありません。
Q6. ビジネスの意思決定のために、データを探索して傾向や関係を見つけ、レポートや可視化(グラフ)を作る職種はどれですか?
回答
解説
正解は「C」です。
データアナリストは、データを探索して傾向や関係を見つけ、レポートや可視化を通じて組織が情報にもとづく意思決定をできるようにする役割です。生のデータを、業務の要件にもとづいた意味のある洞察に変えます。
A の DBA はデータベースの運用と安全、B のデータエンジニアはデータ連携の基盤づくりが中心です。D のネットワーク管理者はこの分野で挙げられる主要なデータ職種ではありません。
Q7. 銀行の入出金や小売の決済のように、件数が多く小さな取引を高速に記録する処理は、一般に何と呼ばれますか?
回答
解説
正解は「B」です。
OLTP(オンライントランザクション処理)は、銀行の送金や小売の決済のような取引(トランザクション)を記録する処理です。件数が多く、データには素早くアクセスできる必要があります。読み取りと書き込みの両方に最適化され、データの作成・取得・更新・削除(CRUD)を扱います。
A の OLAP は大量の履歴データを集計して分析する処理、C の ETL はデータを抽出・変換・読み込みする工程、D の可視化は分析結果を見せる工程で、いずれも小さな取引を高速に記録する処理ではありません。
Q8. OLTP システムが取引の整合性を保つために満たす「ACID 特性」のうち、「1つの取引は全部成功するか、全部失敗するか」を意味するものはどれですか?
回答
解説
正解は「D」です。
原子性(Atomicity)は、1つの取引を1つのまとまりとして扱い、全部成功するか全部失敗するかのどちらかにする特性です。たとえば、ある口座からの引き落としと別の口座への入金は、両方そろって完了する必要があります。片方しかできないなら、もう片方も取り消されます。
A の一貫性はデータを正しい状態から正しい状態へ移すこと、B の分離性は同時に走る取引が互いに干渉しないこと、C の永続性は確定した取引が消えずに残ることを指し、いずれも「全部か、ゼロか」を意味する特性ではありません。
Q9. 主に読み取り中心で、大量の履歴データを集計してレポートやダッシュボードに使う分析向けの処理は何と呼ばれますか?
回答
解説
正解は「A」です。
OLAP(オンライン分析処理)は、読み取り中心(または読み取りが大半)のシステムで、大量の履歴データや業務指標を集計して分析する処理です。あらかじめ集計したデータを使うことで、レポートや可視化、ダッシュボード向けの問い合わせを素早く返せます。
B の OLTP は小さな取引を記録する処理、C の CRUD はデータの作成・取得・更新・削除という操作の総称、D の正規化はリレーショナルデータの重複をなくす設計手法で、いずれも分析向けの処理そのものではありません。
Q10. データの保存先として、ファイルストアではなくリレーショナルデータベースを選ぶ理由として、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
リレーショナルデータベースは、構造化データをテーブルに保存し、主キーで各データを一意に識別して、ほかのテーブルから参照できます。これにより重複を取り除く正規化ができ、データは SQL で管理・問い合わせできます。キーでつながった構造化データを扱うときに向いています。
A の構造を持たないバイナリや、B の人が読める CSV テキストはファイルストアが向く例です。D は検索の必要がない単純な保管で、データベースを選ぶ理由にはなりません。
試験全体の流れを俯瞰したい時は、Azure Data Fundamentals(DP-900) 試験全体概要 に戻れます。
学習の全体像と次に進む分野は、Azure Data Fundamentals(DP-900) 学習ロードマップ で確認できます。