다음과 같은 날씨가 있다고 가정해봅시다. 비가 조금이라도 온 날을 1로 보구요.. 맑은 날을 0이라고 해보죠.. 그리고 나서 일정 기간의 데이터를 보고 앞으로 비가 올지 안올지를 예측해 보는 겁니다. 먼저 위의 날씨를 R의 벡터로 표시하면 다음과 같이 할 수 있을 것입니다. 앞으로의 날씨를 예측하는 부분의 알고리즘은 여기에서는 쉽게 다수결로 한다고 생각해 보겠습니다. k라는 수를 정하고, k값이 3이면 이전 3일 데이터를 가지고 1과 0중 더 많이 나온 것을 보고, 그날의 날씨를 예측해 보는 것이죠. 위 예에서는 1일에서 3일까지의 (0, 1, 1) 세개를 보고 1이 많으므로, 4일째도 1이 나온다고 예측한다는 것이죠. (즉, 비가 온다는 것입니다.) 한번 더 생각해볼까요? k값이 5이고, 위 그림의 9..
R에 대한 기본 실행 방법부터 간단한 사용법까지 정리해보려고 합니다. R 실행 R을 실행하는 방법은 인터렉티브 모드와 배치 모드의 두 가지가 있습니다. 앞으로의 예제들은 모두 인터렉티브 모드에서 실행하겠지만, 실제 환경에서는 경우에 따라 배치 모드를 활용할 필요도 있으므로 두 가지 실행 방법을 먼저 정리해 보려고 합니다. 인터렉티브 모드 R 설치와 관련해서 "데이터 통계 분석을 위한 R 설치"에서 정리해놨으니 참고하기 바랍니다. R이 설치되어 있는 경우, 리눅스/윈도우/맥 어디에서든 터미널에서 R을 입력하면 인터렉티브 모드를 시작할 수 있습니다. 또는 윈도우나 맥의 경우에는 R 아이콘을 더블클릭해서 실행할 수도 있습니다. 그럼 인터렉티브 모드에서 간단한 예제를 테스트해보도록 하죠. rnorm()은 랜덤하..
평균(average)이란 것은 워낙 많이 사용해서 잘 알고 있다고 생각하기 쉽습니다. 학교 성적의 평균, 제품의 평균 가격 등 실생활에서도 많이 사용하기 때문이죠. 그런데 평균(average)에도 우리가 알고 있는 평균값(mean)이외에도 다른 종류의 평균이 존재합니다. 이에 대해서 간략하게 정리해 보도록 하죠. 평균값(mean) 가장 일반적인 평균값(mean) 계산 공식은 다음과 같습니다. 즉, 모든 수를 더한 다음에 총 개수로 나누면 평균값(mean)이 완성됩니다. 만약 도수가 있다면 다음과 같이 계산하면 됩니다. 각 수에 도수를 곱한 다음에 그 결과를 모두 더하고 도수의 합으로 나누는 것이죠. 그런데, 만약 값이 극단적으로 한쪽으로 치우쳐 있는 경우에 평균값(mean)은 왜곡될 경우가 있습니다. 예..