본문 바로가기
Study/Data Science

Hadoop 개요 및 Hadoop 2.0 의 방향

by SeulKom 2017. 9. 27.


하둡은 데이터 저장소의 역할을 하는 HDFS와 연산작업을 진행하는 MapReduce 가 있다

 

HDFS 구성

·         NameNode

o    데이터가 저장된 위치를 갖고 있는 Tree 구조의 데이터 블록들이 저장되어 있다.

o    DataNode I/O 작업 요청을 한다

·         DataNode

o    실제 데이터가 저장

·         Secondary NameNode

o    NameNode가 죽은경우 대체되기 위해 떠 있는 보조 NameNode

o    NameNode의 상태를 동기화 하고 있으며, 약간의 시간차가 존재 한다

MapReduce 구성

·         JobTracker

o    클러스터의 전체 리소스 관리

o    Job의 상태 관리를 하면서 Job마다 Task를 할당 

·         TaskTracker

o    Task를 실제 수행

o    여러 JVM을 생성하여 다수의 맵리듀스 작업 실행

 

하둡1.0의 구성

하둡1.0의 단점

·         SPOF (Single Point of Failure)

o    NameNode가 죽으면 보조 NameNode가 있긴 하지만, 동기화의 시간차가 존재하기 때문에 일부 유실이 발생할 수 있다

·         JobTracker 과중한 부담

o    클러스터의 전체 리소스를 관리하면서 Job 상태 및 Task를 할당해야 하기 때문에 부하가 많이 발생한다

·         타 환경과의 연동 부족

o    하둡이 발달함에 따라 여러 환경과 연동되는 요구사항이 발생

o    Spark, Hive

 


하둡 2.0의 방향


·         YARN 을 통해 JobTracker의 업무를 분산

·         ResourceManager를 통해 타 분산환경과의 연동 지원

·         NameNode의 다중화를 통해 HA(High Avality) 지원