하둡 스트리밍을 활용하면 맵리듀스 잡을 실행가능한 스크립트, 쉘 프로그래밍/파이썬/자바/R 등으로 처리할 수 있다. 하둡 스트리밍에 대해서는 Apache Hadoop Streaming을 참고하면 된다. 이번 강의에서는 기본 하둡 예제인 Word Count를 파이썬으로 구성한 후, 하둡 스트리밍으로 맵리듀스를 적용하는 예제를 살펴보기로 한다. 하둡 스트리밍 명령어는 다음과 같이 사용법을 확인할 수 있다. > hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar --help 1. 먼저 파이썬으로 맵 함수를 만들어 보자. WordCount에서 맵 함수는 파일의 각 라인별로 읽어서 공백으로 자른 다음, Key: 단어, Value: 1로 출력하면 된다. > ged..
구글 앱 엔진 활용하기 - 찰스 세브란스 지음, Software in Life 옮김/지&선(지앤선) 클라우드 컴퓨팅의 PaaS(Platform as a Service)의 대표인 구글 앱 엔진에 대해 다룬 책으로 관심있게 읽어봤습니다. 기본적인 GAE(Google App Engine)의 설치나 서버에 적용하는 방법등은 짧지만 이해하기 쉽게 설명되어 있습니다. 그러나 이 책이 매우 맘에 들었던 가장 큰 이유는 하나의 흐름을 가지고 Google App Engine 뿐만 아니라 해당 엔진을 활용한 웹 프로그래밍에 대해서 전반적으로 잘 설명하고 있다는 점입니다. 웹프로그래밍 개요, HTML과 CSS, Python, Ajax 등 기본적인 내용이지만 구글 앱 엔진에 적용하기 위해서 반드시 알아야 하는 부분들에 대해 ..