선형 회귀 분석에서 분석 데이터의 적합성 여부를 항상 고려해야 한다. 적합성 여부를 확인하는 방법 중 먼저 "결정계수(Coefficient of Determination, R-Square, R-제곱값, R2, R^2)"를 알아보자~ 결정계수는 "수식이 얼마나 X와 Y의 관계를 잘 표현하고 있는지" 나타내는 기준이다. 결정계수 (r-square) 일반적으로 결정계수는 0과 1사이의 값을 갖는데, 관계가 높을 수록 1에 가까운 값을 갖는다. 즉, 0에 가까워질수록, 수식에 데이터 분포를 제대로 표현하지 못하는 것이며, 1에 가까워지면 모든 데이터가 해당 수식에 접근한다는 것을 나타낸다. 결정계수를 나타내는 수식을 보면 다음과 같다. SSR, SST, SSE?? 처음 접할 경우, 용어를 모르기 때문에 어렵게 ..
괴짜 경제학 (개정증보판) - 스티븐 레빗 외 지음, 안진환 옮김/웅진지식하우스(웅진닷컴) 미니 서평 윤리학은 이상세계를 반영하고, 경제학은 현실 세계를 반영한다. 괴짜 경제학을 살펴보면 사회적 통념에 대해 기존의 방식과 다르게 관찰하고 분석하는 것을 주로 이야기하고 있습니다. 교사의 부정행위를 확인하기 위해 1993년에서 2000년까지 연간 학년당 약 3만 명의 학생들이 제출한 70만 장의 답안지, 그리고 거의 1억 개 이상의 답을 비교 분석한다든지 스모 선수와 승률을 분석하기 위해 1989년 1월에서 2000년 1월까지 일본에서 가장 훌륭한 스모 선수들이 치렀던 모든 공식 경기의 결과, 즉 281명의 스모 선수들 사이에 있었던 약 3만 2,000건의 시합에 대한 데이터를 확인합니다. 요즘 말하는 빅데..
빅데이터의 사례로 가장 많이 이야기하는 것이 바로 "Google 독감 트렌드"입니다. 구글에 집계된 검색어를 기반으로 세계 여러 국가의 독감 유행 수준에 대한 예상 수치를 제공하는 것인데요. 이를 기반으로 빅데이터에 대한 전략이 어떻게 만들어졌는지 한번 생각해 보기로 했습니다. 데이터 수집구글 검색어가 자동으로 구글의 서버에 쌓이게 되므로 데이터의 축적은 기본적으로 이루어졌을 것입니다. 또한 검색어는 시간에 따른 분포를 나타낸다는 점과 IP를 통한 위치를 파악할 수 있다는 것을 활용한 것이라 볼 수 있습니다. 즉, 검색어, 시간대, 그리고 위치 정보를 활용해서 독감 트렌드를 분석해 낸 것이죠. 먼저 독감(ILI - influenza likeness illness)과 관련된 키워드(ILI-related q..