Microsoft Azure Data Fundamentals(DP-900)「分析ワークロード」の練習問題10問です。分析の流れ(取り込み→保存→処理→可視化)・バッチ処理とストリーム処理の違い・データウェアハウス/データレイク/レイクハウス・Microsoft Fabric や Azure Databricks といった大規模分析サービス・Power BI による可視化の理解度を確認できます。解けなかった問題は、各問の解説末尾のリンクから対応する解説記事に進んでください。
Q1. 大規模な分析ソリューションの一般的な処理の流れとして、もっとも適切な順序はどれですか?
回答
解説
正解は「B」です。
大規模分析は、まずさまざまなソースからデータを取り込み(ingest)、分析用のデータストアに保存し、変換や集計といった処理を経て、最後にレポートやダッシュボードで可視化する、という流れで進みます。原材料を仕入れて加工し、見やすい形で届けるイメージに近いです。
A・C・D はこの順序が入れ替わっており、取り込む前に可視化したり処理したりはできないため適切ではありません。
Q2. 「バッチ処理」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
バッチ処理は、新しく届いたデータをいったん集めて保存し、ひとまとまり(バッチ)として一括処理する方式です。決まった時間ごとや、一定量たまったときなどに実行されます。クレジットカードの利用明細を、1か月分まとめて請求するような考え方です。
A は届くたびに1件ずつ処理するストリーム処理の説明です。B と D は処理そのものをしない誤った説明で、バッチ処理とは異なります。
Q3. 「ストリーム処理」が向いている場面として、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
ストリーム処理は、データが発生するたびにその場で処理していく方式で、待ち時間(レイテンシー)は秒やミリ秒の単位になります。センサーの値や株価の変動など、絶え間なく生まれるデータへ素早く反応したい場面に向いています。
B と C は、ためてからまとめて処理するバッチ処理が向く場面です。D は処理をしない場面で、いずれもストリーム処理が活きる場面とは異なります。
Q4. バッチ処理とストリーム処理の違いの説明として、もっとも適切なものはどれですか?
回答
解説
正解は「D」です。
バッチ処理は大量のデータをまとめて効率よく処理でき、結果が出るまでの待ち時間は長めになりがちです。ストリーム処理は届いた個々のデータをすぐ処理するため、待ち時間が短いのが特長です。扱うデータ量や応答の速さに違いがあります。
A は両者の説明が逆、B は待ち時間が同じという誤り、C はまとめて扱う側と1件ずつ扱う側が逆になっており、いずれも適切ではありません。
Q5. 「データウェアハウス」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「B」です。
データウェアハウスは、分析しやすいように整えたスキーマでデータを保持するリレーショナルなデータストアです。数値を中心に置くファクト表と、集計の切り口になるディメンション表を組み合わせた構成(スタースキーマなど)が代表的で、SQLでの集計に向きます。
A は構造を決めずに置くデータレイクの説明、C は日常業務向けのトランザクション用データベース、D は可視化ツールの説明で、いずれもデータウェアハウスとは異なります。
Q6. 「データレイク」の特徴として、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
データレイクは、主に分散ファイルシステム上の大きなファイル置き場です。構造化・半構造化・非構造化のさまざまなデータをそのまま保存でき、保存時にはスキーマを強制せず、読み取るときにスキーマを当てる「スキーマオンリード」の考え方で分析します。Apache Spark などの処理エンジンと組み合わせて使われます。
B は保存前にスキーマを固めるデータウェアハウス寄りの考え方、C は保存できる形式を限定する誤り、D は保存しないという誤りで、いずれもデータレイクの特徴とは異なります。
Q7. データレイクとデータウェアハウスの長所を組み合わせた「レイクハウス」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
レイクハウスは、データレイクの柔軟さとデータウェアハウスのSQLでの扱いやすさを組み合わせた考え方です。生データはデータレイクにファイルとして置きつつ、SQL分析エンドポイントを通じてテーブルとして問い合わせできます。Microsoft Fabric や Azure Databricks では Delta Lake 形式によってこれが実現されます。
A は保存しない誤り、B は紙の台帳という無関係な説明、D は配置場所を限定する誤りで、いずれもレイクハウスの説明とは異なります。
Q8. Microsoft Fabric の位置づけの説明として、もっとも適切なものはどれですか?
回答
解説
正解は「D」です。
Microsoft Fabric は、データの取り込み・変換・分析・レポートまでをひとつにまとめた SaaS 型の統合分析プラットフォームです。データエンジニアリングやデータウェアハウス、Power BI などの機能を、共通のストレージ層である OneLake の上で連携させて使えます。
A・B・C はそれぞれ用途を狭くとらえた説明で、複数の分析機能を統合する Fabric の位置づけとは異なります。
Q9. Azure Databricks の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
Azure Databricks は、Apache Spark を基盤としたクラウドの分析プラットフォームです。大規模なデータエンジニアリング、データサイエンス、SQL分析に向いており、ネイティブな保存形式として Delta Lake を使います。コード中心の Spark ワークフローを使いたい場合などに選ばれます。
B・C・D はいずれも分析プラットフォームとは関係のない用途の説明で、Azure Databricks の説明とは異なります。
Q10. Microsoft Power BI の役割の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
Power BI は、さまざまなデータソースからデータを取り込み、分析用のデータモデルに整え、インタラクティブなレポートやダッシュボードを作って業務利用者へ共有できる可視化ツール群です。Power BI Desktop で作成し、Power BI サービスで公開・共有する流れが一般的で、Microsoft Fabric の中核ワークロードのひとつでもあります。
A はインフラを貸す IaaS、B は業務用データベース、D は保管用ストレージの説明で、いずれも可視化を担う Power BI の役割とは異なります。
試験全体の流れを俯瞰したい時は、Azure Data Fundamentals(DP-900) 試験全体概要 に戻れます。
学習の全体像と次に進む分野は、Azure Data Fundamentals(DP-900) 学習ロードマップ で確認できます。