<최소제곱법 (Least Square Method)>
1. 최소제곱법이란
회귀 분석의 방법으로 최소제곱법(Least Square Method), 최대가능도방법(Maximum Likelihood Estimation)을 주로 이용한다. 이중에 한때 최소자승법이라고 불리던 최소제곱법이 많이 쓰이는데 최소제곱법을 이용하면 여러가지 형태의 다항식 근사를 간단하게 할 수 있기 때문이다. Best fit을 찾는다고 하는데 여러가지 방면에 쓰이니 꼭 알아두어야 한다.
어떤 측정된 $n$개의 데이터 세트 $(x_i, y_i)$가 있다고 생각해보자. 여기에서 $i$는 $i$번째 데이터 세트를 의미한다. 단, $(i = 1, 2, ..., n)$
$$f(x_i) = ax_i + b = y_i^e $$
데이터 세트가 위와 같은 모델을 따른다고 가정하자. 여기서 $ y_i^e $는 실제 데이터 세트의 $y_i$가 아닌 모델로 예측된 값이라는 뜻에서 윗첨자 $e$를 붙였다. 이제 모델이 주는 결과와 데이터 세트의 오차들이 최소가 되는 계수 $a, b$을 구하는 것이 목표다. 오차는 양의 오차도 있고 음의 오차도 있기 때문에 그대로 더하면 상쇄될 수 있기 때문에 오차의 절대값의 합을 최소화 할 수도 있고 간단하게 제곱의 합을 최소화하는 방법이 있다.
2. 간단한 방법
오차 함수는 모든 데이터 세트 오차 제곱의 합이므로 아래와 같이 쓸 수 있다.
\begin{align}
E(a, b) & = \sum\limits_{i=1}^n(y_i^e - y_i)^2 \\
& = \sum\limits_{i=1}^n(ax_i + b - y_i)^2
\end{align}
오차 함수의 입력은 $x, y$가 아니다. 데이터 세트는 이미 주어져서 알고 있는 값이므로 그냥 상수에 불과하고 계수 $a, b$가 우리가 찾고자하는 미지수가 된 것이다.
이런 이차함수의 최소값은 미지수에 대한 미분이 0되는 극소값을 찾는 것이다. 미지수는 총 $a, b$로 두 개이고 최소값을 찾기 위해 각 미지수로 미분하면 두 개 방정식을 얻을 수 있다. 미지수의 개수만큼 방정식이 있으므로 연립방정식을 풀면 오차를 최소화하는 계수 $a, b$를 찾을 수 있다.
\begin{align}
\cfrac{\partial{E}}{\partial{a}} &= 2\sum\limits_{i=1}^n(ax_i + b - y_i)x_i &= 0 \\
\cfrac{\partial{E}}{\partial{b}} &= 2\sum\limits_{i=1}^n(ax_i + b - y_i) &= 0 \\
\end{align}
이 식을 정리해서 다시 써보면,
\begin{align}
&a\sum\limits_{i=1}^nx_i^2 + b\sum\limits_{i=1}^nx_i &= &\sum\limits_{i=1}^nx_iy_i \\
&a\sum\limits_{i=1}^nx_i + b\sum\limits_{i=1}^n(1) &= &\sum\limits_{i=1}^ny_i
\end{align}
이제 가지고 있는 데이터 세트로 위의 summation을 모두 계산해서 $a, b$의 상수 계수를 구한 뒤 연립 방정식을 풀어서 구하면 된다.
연립 방정식을 풀기 위해 행렬로 정리해보면,
$$
\begin{bmatrix}
\sum\limits_{i=1}^nx_i^2 & \sum\limits_{i=1}^nx_i \\
\sum\limits_{i=1}^nx_i & \sum\limits_{i=1}^n(1) \\
\end{bmatrix}
\begin{bmatrix}
a \\ b
\end{bmatrix}
=
\begin{bmatrix}
\sum\limits_{i=1}^nx_iy_i \\ \sum\limits_{i=1}^ny_i
\end{bmatrix}
$$
위 행렬에서 미지수 $[a, b]^{\mathsf{T}}$ 를 $\boldsymbol{x}$라고 하면 $\boldsymbol{Ax}=\boldsymbol{b}$ 형태로 볼 수 있다. 그럼 $ \boldsymbol{x}$는 다음과 같이 구할 수 있게 된다.
$$\boldsymbol{x} = \boldsymbol{A}^{-1}\boldsymbol{b}$$
<최소제곱법 (Least Square Method)>
최근댓글