基本的な機械学習モデル - ニフティ’s Notion

大きく分けて2通り存在する

基本的な機械学習モデルについてだけ、頭に入れておきましょう

今回は教師ありのみ。いずれにしても、データに合ったモデルを心がけること

y = ax + b + \epsilon

のような関係でフィッティングするモデル

フィッティング方法は色々あるが、最も一般的なのは誤差の二乗を最小化する

E = \frac{1}{2} \sum_{i \leq i \leq n} (\epsilon_i)^2 = \frac{1}{2} \sum_{1 \leq i \leq n } (y_i - (a x_i + b ))^2 .

💡

理論解析
　単純な単回帰分析の最小二乗法は、

a, b

について偏微分係数が

0

になるときに最小（単純な二次関数）
　よって、解析的に（

O(1)

で）解ける。後述するが、ほとんどのモデルや深層学習はそうはいかない

\begin{align} a = \frac{\text{cov}(x,y)}{V(x)} \\ b = \bar{y} - a \bar{x} \end{align}

単回帰分析を自然に拡張したもの

線形な関数を直線、平面、超平面と拡張としても単回帰と同じようにして解析的に計算可能

$m$ 次元の場合：

\begin{equation} y=a_1x_1+a_2x_2 + \cdots + a_m x_m + b+\epsilon . \end{equation}

過学習を防ぐために、 $(3)$ 式に正則化項を追加した以下のモデルがよく使われる。

どのくらい関数を曲げてよいか、人間がコントロールできるパラメータがある、ということ。

結果を分析することが可能である。
- 単純に特徴量の線形結合で表されるため、重みの大きさがそのまま重要度と取れる。
  - ビジネス上必要な説明が比較的容易。
    - 多重共線性の考慮が必要
- 計算が単純ゆえに解析しやすい。

線形ではない、複雑なデータでは表現力が足りないことがある。
- 現実のデータは入力に対して複雑なデータである場合が多い
- 線形モデルで扱うには、線形分離しやすいよう前処理を加える必要がある。

ある閾値で分岐する木構造で分類するモデル

工夫すれば回帰も出来る（回帰木）
CART などの分割アルゴリズムによって、分割ルールを作成
ランダムフォレスト , XGBoost , LightGBM , CatBoost など、決定木をベースとして拡張した手法が有名
- 決定木を複数組み合わせて複雑な識別境界の学習を可能としている

複雑な予測が単純な決定木モデルだと出来ない
- 先述した ランダムフォレスト , XGBoost , LightGBM , CatBoost などは解決している
決定木がベースなため、深層学習と比較すると目的に沿った構造を作るのが困難
- 音声やセマンティックセグメンテーションなど

一部構造を脳のニューロン構造から得ている、統計的に関数を近似するモデル

重要なので次章で詳しく説明します。