클라우데라의 QuickStartVM을 통해 하둡 어플리케이션을 살펴보고 있다. 이번에는 Hive를 beeline과 Hue를 통해서 간략하게 알아보자. Hive Beeline 예제 1. 터미널을 띄우고 /etc/passwd 파일을 HDFS의 /tmp 폴더에 넣는다. > hdfs dfs -put /etc/passwd /tmp/ > hdfs dfs -ls /tmp/ 2. Hive를 실행하기 위해 beeline을 실행한다. > beeline -u jdbc:hive2:// 3. beeline에서 userinfo 테이블을 생성하고, /tmp/passwd 파일을 읽어서 테이블에 저장한다. jdbc:hive2://>> CREATE TABLE userinfo ( uname STRING, pswd STRING, uid I..
하둡(Hadoop) 프로젝트를 진행할 때 사람들의 고민이 무엇일까? 하고 생각해 봤습니다. Java 언어에 익숙하더라도 첫번째로 만나는 문제는 역시 맵리듀스(MapReduce)가 아닐까 합니다. 맵리듀스는 맵과 리듀스가 합쳐진 것으로 각각의 Map 함수와 Reduce 함수를 구현하고 JobClient를 통해 호출해야 합니다. 그런데 일반적으로 하둡 프로젝트에서 한번만 맵리듀스를 사용하는 경우는 거의 없습니다. 대부분 맵 리듀스를 반복적으로 사용하게 됩니다. 여기에 맵리듀스에서 기본적으로 사용하는 타입인 Text, IntWritable, LongWritable과 같은 것 이외에 객체를 사용한다든지. Key 항목이 아닌 Value에 속하는 항목으로 정렬을 하고 싶다든지, 하는 경우에 많은 개발자들이 어려움을..