맵리듀스 개요 맵리듀스(MapReduce)는 기존 하드웨어를 활용한 분산 프로그래밍 모델로서, 대용량 데이터를 빠르고 안전하기 처리하기 위해 만들었다. 2014년 OSDI 컨퍼런스에서 구글이 "MapReduce : Simplified Data Processing on Large Clusters" 논문을 발표한 이후, 맵리듀스는 관심을 받기 시작했다. 그리고 오픈소스 루씬(Lucene)의 개발자인 더그 커팅(Doug Cutting)이 하둡(Hadoop)을 만들면서 맵리듀스가 널리 알려졌다. 하둡 오픈 소스 프로젝트는 구글의 분산 기술(GFS, MapReduce)을 기반으로 2006년부터 시작했다. 하둡 파일 시스템(HDFS)는 대규모 분산 파일 시스템 구축의 성능과 안전정을 보여줬고, 맵리듀스는 HDFS에..
루씬 인 액션 - 에릭 해쳐.오티스 고스포드네티츠 지음, 이문호 외 옮김/에이콘출판 프로젝트를 수행할 때마다 항상 고민이 되는 것이 바로 검색엔진이었던 것 같습니다. 상업용 검색엔진을 이용하면 비용이 발생하고, 그렇다고 DB 검색으로만 붙여놓기에는 늘어나는 정보의 양이 부담이 되었죠.. 아마 그때 루씬이라는 오픈소스를 알고 있었다면 한번쯤 적용해 보자고 했었을 수도 있었을 것 같네요. ^^ 물론 이 책에도 잘 나와 있지만 한글에 대한 분석기가 완벽한 것이 없어서 실제 적용에는 많은 한계가 있을 겁니다. 하지만 많은 개발자들이 관심을 가진다면 이것도 머지 않아 해결되지 않을까 하네요~ 책 자체로 보면 번역서라고 믿기지 않을 정도로 매끄럽게 되어 있습니다. 검색엔진에 대한 "색인", "쿼리(질의어)", "분..