G検定「教師あり学習・教師なし学習・強化学習・回帰と分類・過学習と汎化・訓練/検証/テストデータ・評価指標(正解率・適合率・再現率・F値)・次元削減・クラスタリング」の練習問題10問です。解けなかった問題は、各問の解説末尾のリンクから対応する解説記事に進んでください。
Q1. 「教師あり学習」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「B」です。
教師あり学習は、入力データとその正解(ラベル)がペアでそろったデータを使い、入力から正解を予測できるようにモデルを学習させる方法です。問題と答えがそろった問題集で練習するイメージに近く、画像の分類や売上の予測などに広く使われます。
A は教師なし学習、C は強化学習の説明です。D は学習を行わないため、機械学習である教師あり学習とは異なります。
Q2. 「教師なし学習」が得意とするタスクとして、もっとも適切なものはどれですか?
回答
解説
正解は「D」です。
教師なし学習は、正解ラベルのないデータから、データに潜む構造やまとまりを見つけ出す方法です。似た顧客を自動でグループ分けするクラスタリングはその代表例で、ラベルがなくてもデータの傾向だけでまとめられます。
A は正解ラベルを使う分類、C は数値を予測する回帰で、いずれも教師あり学習にあたります。B は強化学習の例で、教師なし学習とは異なります。
Q3. 「強化学習」の仕組みを説明したものとして、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
強化学習は、ある状況で行動を選び、その結果として得られる報酬を手がかりに、より多くの報酬が得られる行動を試行錯誤しながら学んでいく方法です。ゲームの攻略やロボットの制御などに使われます。ほめられた行動を繰り返し、しかられた行動を避けて上達していく学び方に似ています。
B は教師あり学習、C はクラスタリング(教師なし学習)、D は次元削減の説明で、いずれも強化学習とは異なります。
Q4. 教師あり学習における「回帰」と「分類」の違いとして、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
どちらも教師あり学習ですが、予測する対象が違います。回帰は売上や気温のような連続した数値を予測し、分類は「猫か犬か」「合格か不合格か」のように、あらかじめ決めたカテゴリのどれに当てはまるかを予測します。
A はどちらもラベル付きデータを使うため誤り、B は扱うデータの種類で区別する説明ではないため誤りです。D は分類も学習を行うため誤りです。
Q5. 「過学習(オーバーフィッティング)」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「B」です。
過学習(オーバーフィッティング)は、モデルが訓練データに当てはまりすぎて細かい特徴まで覚え込んでしまい、まだ見ていない未知のデータに対する予測がかえって悪くなる状態です。過去問の答えを丸暗記したせいで、少し違う本番の問題に対応できないのに似ています。未知のデータにもうまく対応できる力を汎化と呼びます。
A は訓練データにも当てはまらない未学習(アンダーフィッティング)に近い説明、C は計算量の話、D は理想的な状態の説明で、いずれも過学習とは異なります。
Q6. データを「訓練データ・検証データ・テストデータ」に分けて使う主な理由として、もっとも適切なものはどれですか?
回答
解説
正解は「D」です。
訓練データはモデルの学習に、検証データは学習の途中で設定を調整したり過学習をチェックしたりするために、テストデータは最後に本当の実力を測るために使います。学習に使っていない未知のデータで確かめることで、丸暗記ではない実力を評価できます。
A はデータを分けても総量は増えないため誤り、B は計算時間がそのように短縮されるわけではないため誤りです。C のような決まりはなく、データを分けるのは性能を正しく測るための工夫です。
Q7. 分類モデルの評価指標「適合率(精度・Precision)」の説明として、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
適合率(Precision)は、モデルが「陽性」と予測したもののうち、実際に陽性だった割合を表します。「陽性と判断した予測が、どれだけ信頼できるか」を測る指標で、誤って陽性と判定する空振りを減らしたいときに重視されます。
B は再現率(Recall)、C は正解率(Accuracy)、D はF値(F1スコア)の説明で、いずれも適合率とは別の指標です。
Q8. 「再現率(Recall)」を特に重視すべき場面として、もっとも適切なものはどれですか?
回答
解説
正解は「C」です。
再現率(Recall)は、実際に陽性であるもののうち、モデルが正しく陽性と予測できた割合です。病気の検査のように「本当は陽性なのに見逃す」ことの害が大きい場面では、取りこぼしを減らす再現率が重視されます。
A は誤検出を減らしたい場面で適合率が重視されるため誤りです。B の計算量や D のファイル容量は、評価指標とは関係のない話です。
Q9. 評価指標「F値(F1スコア)」が用いられる主な理由として、もっとも適切なものはどれですか?
回答
解説
正解は「B」です。
F値(F1スコア)は、適合率と再現率の調和平均をとった指標です。適合率を上げようとすると再現率が下がりやすいといったトレードオフの関係があるため、両者をバランスよく一つの数値でまとめて評価したいときに使われます。
A の学習時間とは無関係で、C のように正解ラベルなしで使える指標でもありません。D のように数値が100に固定されることもないため、いずれも誤りです。
Q10. 機械学習における「次元削減」を行う主な目的として、もっとも適切なものはどれですか?
回答
解説
正解は「A」です。
次元削減は、データが持つ特徴量(変数)の数を減らし、重要な情報をできるだけ保ったまま、扱いやすく可視化しやすい形にまとめる手法です。主成分分析(PCA)が代表例で、たくさんの観点を少数のまとまりに整理するイメージです。計算が軽くなったり、データの傾向が見やすくなったりします。
B はデータの水増し、C はラベルの操作、D は手作業の修正で、いずれも特徴量の数を減らす次元削減とは異なります。
試験全体の流れを俯瞰したい時は、G検定 試験全体概要 に戻れます。