"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다." "집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다. 하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다. "집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?" 스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다. 두 질문의 차이는 무엇일까? 전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다. 후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다. 분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문..
괴짜 경제학 (개정증보판) - 스티븐 레빗 외 지음, 안진환 옮김/웅진지식하우스(웅진닷컴) 미니 서평 윤리학은 이상세계를 반영하고, 경제학은 현실 세계를 반영한다. 괴짜 경제학을 살펴보면 사회적 통념에 대해 기존의 방식과 다르게 관찰하고 분석하는 것을 주로 이야기하고 있습니다. 교사의 부정행위를 확인하기 위해 1993년에서 2000년까지 연간 학년당 약 3만 명의 학생들이 제출한 70만 장의 답안지, 그리고 거의 1억 개 이상의 답을 비교 분석한다든지 스모 선수와 승률을 분석하기 위해 1989년 1월에서 2000년 1월까지 일본에서 가장 훌륭한 스모 선수들이 치렀던 모든 공식 경기의 결과, 즉 281명의 스모 선수들 사이에 있었던 약 3만 2,000건의 시합에 대한 데이터를 확인합니다. 요즘 말하는 빅데..
두 변수 간의 통계적인 관계 측정 방식으로 사용하는 상관관계 측정으로 피어슨 상관계수, 스피어만 상관계수 등이 있다고 합니다. 피어슨 상관계수는 두 변수 X와 Y가 함께 변하는지와 따로 변하는지의 비율로 계산하는 것으로 가장 많이 사용된다고 합니다. X와 Y가 완전히 동일하면 +1, 완전히 다르면 0, 반대방향으로 동일하면 -1 값을 가진다고 하네요. 스피어만 상관계수는 자료의 값 대신 순위(랭킹)을 기준으로 상관관계를 계산하는 방식이라고 합니다. 이 값은 -1과 1 사이의 값을 가지는데, 두 변수의 순위가 완전히 일치하면 +1, 완전히 반대면 -1이 된다고 합니다. 스피어만 상관계수와 같이 순위를 기준으로 값을 측정하는 캔달의 타우도 있다고 하네요. 이번에 살펴볼 R 예제는 기온과 기압과 같은 시계열 ..