R에 대한 기본 실행 방법부터 간단한 사용법까지 정리해보려고 합니다. R 실행 R을 실행하는 방법은 인터렉티브 모드와 배치 모드의 두 가지가 있습니다. 앞으로의 예제들은 모두 인터렉티브 모드에서 실행하겠지만, 실제 환경에서는 경우에 따라 배치 모드를 활용할 필요도 있으므로 두 가지 실행 방법을 먼저 정리해 보려고 합니다. 인터렉티브 모드 R 설치와 관련해서 "데이터 통계 분석을 위한 R 설치"에서 정리해놨으니 참고하기 바랍니다. R이 설치되어 있는 경우, 리눅스/윈도우/맥 어디에서든 터미널에서 R을 입력하면 인터렉티브 모드를 시작할 수 있습니다. 또는 윈도우나 맥의 경우에는 R 아이콘을 더블클릭해서 실행할 수도 있습니다. 그럼 인터렉티브 모드에서 간단한 예제를 테스트해보도록 하죠. rnorm()은 랜덤하..
확률분포위키피디아에 따르면 확률분포를 다음과 같이 정의하고 있습니다.확률분포(probability distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 주사위를 던질거나 슬롯머신을 할 때 나올 수 있는 모든 가능성의 확률을 모아놓은 집합이 확률분포라고 할 수 있습니다. 다음 그림을 보면 주사위 두개를 던졌을 때 나올 수 있는 두 주사위의 합을 확률분포로 나타내고 있네요. 그러면 이를 수식으로는 어떻게 표현할까요? 정의를 다시 보면 "확률변수가 특정한 값을 가질 확률..." 이라고 되어 있습니다. 확률변수는 일반적으로 X나 Y와 같이 대문자로 표기합니다. 그리고 변수가 가질 수 있는 특정한 값은 x나 y처럼 소문자로 나타내죠.. 변수 X가 특정한 값 x를 가질 확률을 위..
통계에서 분산이나 표준편차라는 말은 많이 들어봤고 수식도 외워봤지만 이것을 왜 써야 하는지는 모르고 배웠던 것 같습니다. 그래서 이번에는 분산과 표준편차를 중심으로 변이와 분포에 대해서 정리해 보려고 합니다. 범위앞서 평균과 관련해서 평균값, 중앙값, 최빈값을 정리했습니다. 만약 여러 사람의 데이터를 비교하려고 하는데 평균이 모두 동일한 경우라면, 데이터의 분포를 통해 비교해 볼 수 있을 것입니다. 데이터의 분포를 확인하는 가장 쉬운 방법은 바로 범위(range)입니다. 범위는 가장 큰 값에서 가장 작은 값을 빼면 되므로 쉽게 계산할 수 있습니다. 그러나 범위에서도 이상치가 나타나면 그 값의 폭이 너무 커지게 됩니다. 그래서 사분위수와 같은 것을 사용하기도 하는데요. 다음 그림(box and whiske..