
[Hadoop]02 hBase로 구축하는 대규모 분산 데이터 처리 시스템

2. Hadoop & hBase 개요

 Google(Technology)의 기반 소프트웨어에 공통되는 특징은, 매우 Scalable하며 또한 하드웨어 장애에 강하다고 하는 점이다. Google 입장에서는 전세계의 데이터를 수집 정보처리를 수행할 수 있는 능력이 필요했었기 때문에, 대규모의 하드웨어를 운용하며 데이터를 저장 유지, 정보처리가 가능한 기술은 어쩌면 필연에 의한 산물일 수 밖에 없다.


 본 글이 소개하는Hadoop, hBase는 이러한 Google(Technology) 독자개발 기반 소프트웨어의 Open source clone이다. Hadoop은 GFS(Google File System)와 MapReduce, hBase는 BigTable로 치환된다. Chubby의 open source는 이미 언급했듯 아직까지 실제 적용 사례가 없다.


 최근에는 Web어플리케이션이 전성기를 맞아 이전보다 많은 데이터나 로그가 축적되고 있는 사이트도 다수 존재한다고 볼 수 있다. 그러나, 방대한 데이터를 구축하고도 그것들을 유효하고 효율적인 정보처리와 활용이 이뤄지기는 쉽지 않다.


 그렇기 때문에 본 글을 통하여 Google(Technology) 독자개발 기반 소프트웨어 Clone인 Hadoop이나 hBase를 실제로 적용, 그 유효성을 검증하며, 잠자고 있는 방대한 데이터의 홍수 속에서 유효 적절한 정보처리 처리 구현을 위한 대안 솔루션으로서 쉽게 접근할 수 있기를 바라며 보다 많은 이들에게 소개되기를 원한다. 단일(1대) 장비만으로도 충분히 적용 구현할 수 있기 때문에, 현장 실무자들이라면 꼭 한번 경험해 볼 것을 권한다.


 그러면 Hadoop, hBase의 개요로 들어가겠다.




2.1 Hadoop의 개요

 Hadoop은 주로 야후 본사(Yahoo! Inc.)의 "Doug Cutting"씨에 의해 개발이 진행되고 있는 오픈소스 소프트웨어이다. 현재는Apache 프로젝트의 Top Project를 주도하고 있다. Hadoop라는 이름은 Doug씨의 자녀가 실제 가지고 있는 노란 코끼리의 봉제인형의 이름에 유래하고 있다.


 Hadoop은 HDFS(Hadoop Distributed File System), Hadoop MapReduce Framework로부터 구성된다. Google(Technology) 독자개발 기반기술로 치환시켜 보면, HDFS는 GFS, Hadoop MapReduce Framework는 MapReduce에 해당한다.


 Hadoop은 모두 Java로 개발되었고 MapReduce 처리를 쓰는 경우도 기본적으로는 Java로 개발하는 것을 전제하고 있다. 다만Hadoop Streaming이라고 하는 확장 패키지를 이용하면, C/C++, Ruby, Python등 임의의 언어와 표준 입출력을 이용해 MapReduce처리를 할 수가 있다.


 개발을 주도하고 있는야후는 물론, Facebook에서도 실제로 적용 구현하고 있다. 특히 정보처리 로그 분석을 목적으로 한 적용이 눈에 띄인다.


 Hadoop 관련 사이트

(현재 한국어 정보는 거의 없다)


Hadoop Official Site

Hadoop Official Wiki

인스톨 방법소개(복수 노드)

Hadoop DFS 목표 & 특징

Hadoop DFS Architecture

Hadoop MapReduce Tutorial



2.2 hBase 개요

 hBase란 BigTable의 Open source Clone을 말한다. 현재 Web검색 엔진을 개발하고 있는 Powerset사의 엔지니어가 개발를 주도하고 있으며, Hadoop과 마찬가지로 Java로 개발되고 있다. hBase는 Hadoop에 의존하고 있어, 실제의 데이터는 HDFS 상에 저장된다. 지난 버전의 Source code는 Hadoop에 포함되어 있지만, 현재는 개발방향 등이 갈려져 있으니 주의해서 챙길 필요가 있다.




hBase Official Site

hBase Official Wiki

hBase 인스톨 방법소개

hBase Architecture & 사용방법






아래는 현재 채택 적용한 사이트 실적


