ディープラーニング検定 G検定の例題を解く(2)機械学習の具体的手法

この記事は、ディープラーニング協会のホームページに記載されているディープラーニングG検定の例題について解答例と解説を書いていく記事の2回目です。この例題は解答が未掲載となっていますので参考になれば幸いです。

難易度や合格するのがどれほど難しいのかなどの判断材料になっていただければ幸いです。

なお、この記事で扱っているのは2021年2月14日時点で掲載されている例題となります。今後公式サイト記載の例題は変更になる可能性もありますのでご注意ください。

また、回答例や解説等含めた本記事の記載内容は当ブログ筆者の見解によるもので、間違いを含んでいる可能性があります。そのようなことが無いように努力してはおりますが、万が一誤りがありましたら大変申し訳ありません。

ディープラーニングG検定試験とは

機械学習、特にディープラーニングには試験で取得できる資格と検定があります。日本ディープラーニング協会が認定、運用しているディープラーニングに関する資格と検定です。

日本ディープラーニング協会の資格試験にはG検定とE資格があり、G検定は公式で次のように説明されている検定です。

ディープラーニングの基礎知識を有し、適切な活用方針を決定して、事業活用する能力や知識を有しているかを検定する。

G検定とは – 一般社団法人日本ディープラーニング協会【公式】

今回は、日本ディープラーニング協会の公式サイトに掲載されているG検定の例題のうちの「機械学習の具体的手法」の4問を解き、解説します。G検定試験の過去問というわけではないと思いますが、公式サイトが掲載している問題ですので参考になると思います。

「人工知能をめぐる動向」と「人工知能分野の問題」の例題については次の過去記事で解説しました。

G検定の例題:機械学習の具体的手法(4問)

「機械学習の具体的手法」という項目の4問を解いていきます。ディープラーニング(deep learning)以外の機械学習手法にも問われるようですね。

機械学習の具体的手法 1問目

Q. 以下の文章は、さまざまな機械学習の手法について述べたものである。空欄に最もよく当てはまる選択肢を、語群の中から1つずつ選べ。

機械学習にはいくつかの手法があり、用語の意味を正しく理解する必要がある。学習データに教師データと呼ばれる正解ラベルつきのデータを用いる手法は(ア)と呼ばれ、対照的に正解ラベルがないデータを利用する手法は(イ)と呼ばれる。また、正解ラベルが一部のサンプルにのみ与えられている(ウ)という手法も存在する。

1. 教師なし学習
2. 教師あり学習
3. 強化学習
4. 表現学習
5. マルチタスク学習
6. 半教師あり学習
7. 多様体学習

G検定の例題 – 一般社団法人日本ディープラーニング協会【公式】

回答例

(ア) 2、(イ) 1、(ウ) 6 ですね。

解説

(ア) (イ) 問題文そのままですね。教師データ(教師信号とも言う)が有る機械学習手法を教師あり学習、無いのを教師無し学習と呼びます。

(ウ) 正解ラベルが一部のサンプルデータにしかなく、一部の正解ラベル(教師データ)を参考に正解ラベルのないデータも学習に用いる手法を半教師あり学習と呼びます。

機械学習の具体的手法 2問目

Q. 以下の空欄に最もよく当てはまる選択肢を、語群の中から1つずつ選べ。

分類問題にはさまざまな性能指標がある。ここでは、サンプルを陽性(Positive)と陰性(Negative)の2クラスに分ける2値分類を考える。(ア)は単純にサンプル全体のうち、予測が正解したサンプル数の比を取ったものである。また、偽陽性(False Positive, FP)を減らすことに特に注力したい場合には(イ)を、逆に偽陰性(False Negative, FN)を減らすことに特に注力する場合には(ウ)を採用することが望ましい。しかし、この両者はトレードオフの関係にあることから、それらの調和平均を取った(エ)が利用されることも多い。

1. 正答率
2. 実現率
3. 協調率
4. 調和率
5. 適合率
6. 再現率
7. f値
8. p値
9. t値
10. z値

G検定の例題 – 一般社団法人日本ディープラーニング協会【公式】

回答例

(ア) 1、(イ) 5、(ウ) 6 、(エ) 7 ですね。

解説

(ア) 単純に正解したサンプル数とサンプル数全体の比率は正答率です。正解率やaccuracyといった呼び方もあります。次に説明する(イ)~(エ)もそうなのですが、性能指標や評価尺度には用語が色々あって覚えるのが大変です。

(イ) 偽陽性(False Positive, FP)に注目した指標は、適合率 (precision)です。正しく認識できることを表す真陽性のことをTP (True Positive)と呼びますが、適合率は問題文にもある偽陽性FPの数とTPを使って、次のような式で計算される値です。

$$ 適合率(precision) = \frac{TPの数}{TPの数+FPの数} $$

適合率は0~1の値で、1に近づく程良い指標です。適合率を1に近づけるには偽陽性(FP)を減らすのが最重要となりますので、この問の答えは適合率となります。注意としては、真陽性(TP)の数に関わらず偽陽性(FP)の数を減らしさえすれば(さらには偽陰性(FN)の数にも関わらず)、適合率は1に近づいていくということです。

(ウ) 一方で偽陰性 (False Negative, FN)に注目した指標は、再現率 (recall)です。再現率の定義は次式です。

$$ 再現率(recall) = \frac{TPの数}{TPの数+FNの数} $$

再現率 (recall)も0~1の値で、1に近づく程良い指標となります。再現率を1に近づけるには偽陰性(FN)を減らせばよいので、この問の答えは再現率となります。

(ウ) 適合率 (precision)と再現率 (recall)の調和平均といったら、f値(F-measure)です。調和平均の詳細の説明は省きますが、f値の式(precisionとrecallの調和平均の式そのもの)は次のようになります。

$$ f値(F-measure) = \frac{2}{ \frac{1}{precision}+ \frac{1}{recall}} $$

他の選択肢の説明はよくわからないものもありますので省きます。

ところで、新型コロナウイルス(Covid-19)のPCR検査で陽性や陰性と言った表現を目にすることがありませんか。機械学習における陽性や陰性といった概念と同じように、医学的な検査でも同じような用語が使われています。

例えば、PCR検査における検査性能の尺度に感度と特異度があります。感度は再現率(recall)のことです。感度=真陽性(TP)/(真陽性(TP)+偽陰性(FN))となります。

一方で、特異度は上で説明した機械学習用語に対応するものはありません。ただし、特異度=真陰性(TN)/(真陰性(TN)+偽陰性(FN))と表すことができ、機械学習の知識だけでも理解できる性能尺度であることがわかります。

機械学習の具体的手法 3問目

Q. 機械学習では、教師データをいくつかに分割して、そのうち一部だけを学習に利用するのが原則である。逆に言えば、その他の教師データはあえてモデルの学習に利用せずに、残しておく。そのような手法を採用する目的として、最も適切なものを1つ選べ。

1. いったん少ないデータ量で学習させ、初期段階の計算資源を節約するため。
2. データの中に含まれる異常値を持つサンプルを取り除くため。
3. 半教師あり学習はデータの一部がラベル付けされていなくても行えるため。
4. モデルが運用される際に示す性能を正しく見積もるため。

G検定の例題 – 一般社団法人日本ディープラーニング協会【公式】

回答例

4. ですね。

解説

用意できたデータのうちの一部のデータは、直接学習には用いずに学習が適切に行われているかを検証するのに使うのが一般的です。全てのデータを学習してしまうと、構築されたモデルが未学習のデータに対してどのくらいの性能を発揮するかを調べる術がなくなってしまうからです。

学習したデータを使って性能を見積もっても正当な性能評価はできませんし、さらに過学習になってしまっているかの判断はできません。

このように、敢えて一部のデータを学習に用いず、学習モデルの性能を測るために使うデータを検証データ(validation data)と呼びます。

機械学習の具体的手法 4問目

Q. 空欄に当てはまる語句の組み合わせとして最も適しているものを1つ選べ。

教師あり学習の問題は出力値の種類によって、大きく2種類に分けられる。(A) 問題は出力が離散値であり、カテゴリーを予測したいときに利用される。一方、(B) 問題は出力が連続値であり、その連続値そのものを予測したいときに利用される。

1. (A) 限定 (B) 一般
2. (A) 部分 (B) 完全
3. (A) 分類 (B) 回帰
4. (A) 線形 (B) 非線形

G検定の例題 – 一般社団法人日本ディープラーニング協会【公式】

回答例

3. ですね。

解説

機械学習で解く対象となる問題は大きく「分類」と「回帰」にわけることができます。

「分類」は、例えば犬と猫の認識等のことで、入力データのカテゴリーの判別を対象とするような離散的な判定のことです。

「回帰」は、天気予報の気温など連続値の予測を行うことです。「回帰」という日本語から、連続値予測という意味を理解するのは難しいですが、正直なところregressionという元々の英語を直訳してしまったのが理解しづらくしてしまっている原因と思います。「回帰」という日本語について考えても意味はありませんので、そういうものだと覚えてしまった方が良いと思います。

おわりに

日本ディープラーニング協会が認定および試験をしているディープラーニング検定のG検定について、ホームページにあるG検定の例題の「機械学習の具体的手法」を4つ解き、解説を記載しました。

間違いなどもしありましたら、コメント欄などで指摘頂けると幸いです。

残りの問題も、本ブログで扱っています。他の例題の解答と解説は以下のリンクを参照ください。次の記事はこちらです。

さらに他の問題も以下の記事で扱っています。

コメント

タイトルとURLをコピーしました