機械学習で用いられる用語まとめ

この記事では機械学習に用いられる言葉の意味を簡潔にまとめています。

初学者によるものであり正確性は担保されていないのでご注意ください。

ロジスティック回帰

・ハイパーパラメータにCがあり、モデルが学習する識別境界線が教師データの分類の間違いに対してどのくらい厳しくするかの指標となる

・Cの値が大きいほど教師データを完全に分類できるような学習ができるが、過学習が起こりやすい

・Cの値が小さいと汎化しやすいが、外れ値の少ないデータでは境界線がうまく識別できないモデルになる可能性がある

過学習

・モデルが過去のデータに適合しすぎてしまうこと

・過去のデータに対しては異様に高い予測精度になるが、未来のデータに対しての予測精度は低くなる

汎化

・過学習を防ぐ

・未知のデータに対するモデルの予測精度を高める

正則化

・汎化手法の1つに正則化がある

・回帰分析の際、モデルが推定したデータ同士の関係性を一般化する

L1正則化

・予測に影響しにくいデータの係数を0に近づける

・不要な情報が多いデータを扱う時に用いる

・特徴量の削減時にも用いる

L2正則化

・過学習を防ぐ

・係数が大きくなりすぎないようにする

ラッソ回帰

・L1正則化を行う線形回帰モデル

・データセットに対してパラメータ数が多い場合に用いる

リッジ回帰

・L2正則化を行う回帰モデル

・汎化しやすい

ElasticNet回帰

・ラッソ回帰とリッジ回帰を組み合わせて正則化を行うモデル

・パラメータでラッソ回帰とリッジ回帰の割合を調整できる

非線形回帰

・線形回帰を行うことができる線形SVMがある。

・線形分離できない入力データには使えないため、代わりに非線形SVMを用いる

・非線形SVMではカーネル関数を用いてデータを変換し、線形分離可能な状態とする

・カーネルトリックと呼ばれる計算量の抑制を行うことで計算時間を短縮している。

決定木

・説明変数の1つ1つに着目し、要素内でのある値を境にデータを分割してクラスを決定する

・それぞれの説明変数が目的変数に与える影響の大きさを見ることができる

・分割を繰り返して枝分かれするが、先に分割された条件ほど目的変数に与える影響が大きい

・線形分離できないデータに対しては使うことができない

ランダムフォレスト

・決定木を複数作り、分類結果をモデルの多数決で決める

・アンサンブル学習を用いた手法の一つ

・線形分離ができないデータに対しても使うことができる

K近傍法

・予測をするデータと類似するデータを見つけ、多数決により分類する

・怠惰学習の一つ

・学習にかかる計算量が0

ハイパーパラメーター

・機械学習のモデルの中で人が調整しなければならない部分

・ハイパーパラメーターを調整することをチューニングと呼ぶ

C

・分類の誤りの許容度を示す

・C値が大きいと過学習しやすい

・C値が小さいと適切な境界線を引けない可能性がある

penalty

・penaltyはモデルの複雑さに対するペナルティを表す

・penaltyはL1 L2を入力できる

・L1はデータの特徴量を削ることで境界線の一般化を図る

・L2はデータ全体の重みの減少により境界線の一般化を図る

multi_class

・多クラス分類時のモデルの動作を決める

random_state

・学習の順番を制御する

・処理する順番によって境界線が変わる場合がある

・値を固定すると同じ実行結果を得られる

kernel

・非線形SVMでの重要なパラメータ

・データを分類しやすい形にするための関数を定義する

decision_function_shape

・多クラス分類時に用いる

・ovo,ovrの二つが用意されている

・ovoはクラス同士のペアを作って二項分類を行い、多数決でクラスを決定する。計算量が多い。

・ovrは1つのクラスとそれ以外を分類し、多数決でクラスを決定する

max_depth

・学習時にモデルが学習する木の深さの最大値

・設定なしの場合は教師データを正しく分類できるまで分割するため、過学習が起こる

・値が大きすぎても、分類終了時点で木が分岐しなくなり過学習が起こる

・max_deapthによる木の深さを調節することを枝刈りと呼ぶ

n_estimators

・ランダムフォレストで用いられるパラメーター

・簡易決定木の個数を決める

n_neighbors

・K近傍法で用いられるパラメーター

・n_neighboresはk近傍法におけるkの値(整数値)

・ラベルがない未知のデータを分類する際、いくつのデータを予測に使うかを表す

・数が多すぎると選ばれるデータの類似度に幅がでるため、分類範囲の狭いカテゴリーがうまく分類されない場合がある。

グリッドサーチ

・パラメーターの範囲を指定し、精度の良いパラメーターの組み合わせを見つけてもらう方法

・調整したいハイパーパラメーターの値の候補を明示的に複数指定し、モデルの評価を繰り返して最適な組み合わせを作成する

・多数のパラメーターを同時にチューニングするには不向き

・文字列、整数、bool値と言った数学的に連続していないパラメーターに向いている

ランダムサーチ

・パラメーターが取りうる値の範囲を指定し、確率で決定された組み合わせを用いて評価することを繰り返し、最適な組み合わせを作成する