다음과 같은 날씨가 있다고 가정해봅시다. 비가 조금이라도 온 날을 1로 보구요.. 맑은 날을 0이라고 해보죠.. 그리고 나서 일정 기간의 데이터를 보고 앞으로 비가 올지 안올지를 예측해 보는 겁니다. 먼저 위의 날씨를 R의 벡터로 표시하면 다음과 같이 할 수 있을 것입니다. 앞으로의 날씨를 예측하는 부분의 알고리즘은 여기에서는 쉽게 다수결로 한다고 생각해 보겠습니다. k라는 수를 정하고, k값이 3이면 이전 3일 데이터를 가지고 1과 0중 더 많이 나온 것을 보고, 그날의 날씨를 예측해 보는 것이죠. 위 예에서는 1일에서 3일까지의 (0, 1, 1) 세개를 보고 1이 많으므로, 4일째도 1이 나온다고 예측한다는 것이죠. (즉, 비가 온다는 것입니다.) 한번 더 생각해볼까요? k값이 5이고, 위 그림의 9..
기계학습에서 많이 사용하는 확률 이론에 대해서 살펴보도록 하겠습니다. 확률과 관련해서 처음 볼 경우에는 확률 - 일어날 가능성을 측정하는 방법 을 읽어보면 기본 개념을 이해할 수 있습니다. 여기에서는 비슷한 내용이기는 하지만 다른 방향에서 살펴보도록 하죠.. 다음 그림에서 전체 갯수가 N이라고 할 때, 임의의 값 x와 y가 동시에 나올 확률은 어떻게 될까요? x와 y가 동시에 나오는 경우를 전체 갯수로 나누면 되겠죠. 보통 동시에 나올 확률을 교집합으로 표기하기도 하는데, "Pattern Recognition and Machine Learning"에서는 다음과 같이 표시하네요. 이어서 임의의 x가 나올 확률은 다음과 같이 표시할 수 있습니다. 위 그림을 잘 살펴보면 직관적으로 확인할 수 있을 것입니다. ..