2015년 국가인적자원개발컨소시엄 지원사업으로 빅데이터 분석 관련 무료 교육이 진행될 예정입니다. 7월 8일(수) ~ 7월 10일(금) 까지 DMC 첨단산업센터에서 진행합니다. 1일차에는 빅데이터 분석의 필요성과 개념, 비즈니스에 적용 사례 등을 중심으로 살펴볼 계획이고2일차에는 빅데이터 분석을 위한 관련 기술들을 다뤄볼 생각입니다. 그리고 마지막 3일차에는 실제 빅데이터 분석을 어떻게 진행하는지, 어떤 방법이 더 나은 것인지 몇가지 주제를 정해서 함께 논의하면서 진행해 보려고 합니다. 정식 과정명은 "오픈소스를 활용한 빅데이터 분석 (Data Science & Analytics)"이고, 제가 강의를 진행합니다. 단순히 Hadoop이나 R 사용법만 교육하는 기존의 빅데이터 강의에서 벗어나 수강하시는 분들..
"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다." 최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다. 그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까? 먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한..
지난 11월 21일 삼성동 EMC 이펙트 데이 행사장에서 코스콤이 "빅데이터로 주가를 예측하다"라는 주제로 연초부터 진행해 온 주가예측분석 플랫폼과 활용 경험을 제시했다. 빅데이터 분석의 다양한 활용 분야 중 하나로 주식을 주목하고 있는 것이다. 기사에 따르면, 소셜 데이터를 통한 분석도 진행중이라고 한다. 기존 주식 데이터의 분석에 외부 환경을 고려한 소셜 데이터 분석은 좋은 아이디어라고 본다. 그리고 코스콤의 주가분석지수 'K-SMD12'는 국내외 증시 동향과 감성분석을 바탕으로 5일 미만의 단기예측을, 'K-SMD26'는 통계청 지표를 활용해 1개월, 6개월 이후 등 중기예측에 쓰인다고 한다. 하지만 위 제품을 검색해봐도 기사 내용 이외에는 나타나지 않아 실제 활용을 해볼 수 없다는 점과 더불어, ..
"본 글은 2013년 11월 12일 지디넷코리아에 기고한 칼럼입니다." 최근 빅데이터 분석에서 실시간(real-time) 처리에 대한 요구가 늘었다. 주요 빅데이터 기술로 널리 사용하는 하둡(Hadoop)은 배치 처리에 기반해, 하둡 맵리듀스 동작 시간을 최대한 줄일 수는 있어도 실시간 처리에는 한계가 있다. 빅데이터 분석은 그동안 처리하지 못했던 많은 데이터에서 의미있는 정보를 추출해 내는 것이므로 필자는 처음에만 해도 실시간 처리는 큰 의미가 없을 것으로 판단했던게 사실이다. 그러나 데이터 분석 컨설팅을 진행하면서 실시간 처리에 대한 요구가 꽤 높다는 것을 알게 됐다. 예를 들어, 새로운 모바일 앱을 출시했을 때 사용자 증가 추이를 바로 확인하거나 광고 프로모션을 진행한다면 실시간으로 광고 효과를 알..
빅데이터의 사례로 가장 많이 이야기하는 것이 바로 "Google 독감 트렌드"입니다. 구글에 집계된 검색어를 기반으로 세계 여러 국가의 독감 유행 수준에 대한 예상 수치를 제공하는 것인데요. 이를 기반으로 빅데이터에 대한 전략이 어떻게 만들어졌는지 한번 생각해 보기로 했습니다. 데이터 수집구글 검색어가 자동으로 구글의 서버에 쌓이게 되므로 데이터의 축적은 기본적으로 이루어졌을 것입니다. 또한 검색어는 시간에 따른 분포를 나타낸다는 점과 IP를 통한 위치를 파악할 수 있다는 것을 활용한 것이라 볼 수 있습니다. 즉, 검색어, 시간대, 그리고 위치 정보를 활용해서 독감 트렌드를 분석해 낸 것이죠. 먼저 독감(ILI - influenza likeness illness)과 관련된 키워드(ILI-related q..
빅데이터 비즈니스 - 스즈키 료스케 지음, 천채정 옮김/더숲 일본에서 경제경영 베스트셀러에 오른 책이라고 해서 잔뜩 기대를 하고 살펴봤습니다. 하지만 너무 번역체의 느낌이 나서 읽기가 쉽지는 않았습니다. 그래도 끝까지 읽어보니 내용 자체는 꽤 좋았다는 생각이 드네요. 빅데이터에 처음 관심을 가져본 분이라면 전체적인 개념을 잡기 위해서 한번쯤 읽어보셔도 좋을 것 같습니다. 빅데이터의 진정한 가치는 커다란 데이터 자체에 있는 것이 아니라 여기에서 추출할 수 있는 새로운 사회적 가치가 있는지 여부에서 나타난다. 먼저 1장에서 빅데이터 비즈니스란 무엇인가?를 다루고 있습니다. 빅데이터와 관련해서 스즈키 료스케는 이용사업자와 지원사업자의 관점에서 이야기를 시작합니다. 즉, 빅데이터를 활용하여 사업의 부가가치를 증..
올해부터 빅데이터에 관심이 부쩍 높아진 것 같습니다. 클라우드 환경이 대중화되고 하둡 등 분산 처리 기술이 일반화 되면서 자연스럽게 빅데이터에 대한 관심도 늘어나는 것 같습니다. 하지만 아직도 빅데이터를 단순히 대용량 데이터로만 생각하는 경향이 있어서 빅데이터의 의미와 실제 사례를 간략하게 정리해 보려고 합니다. 빅데이터 확장 배경 왜 빅데이터에 관심을 가지게 되었을까요? 먼저 하드웨어가 발달하고 ERP, CRM과 같은 것을 통해 데이터가 충분히 축적되었다는 것입니다. 이렇게 축적된 데이터를 통해 비즈니스에 기여할 수 있는 인사이트를 만들 수 있을까? 하는 고민이 빅데이터의 시작이라고 생각합니다. 모든 IT 관련 이슈들이 그러하듯 빅데이터란 것도 하루아침에 나타난 것이 아닙니다. 예전에 데이터베이스에서도..