Hadoop 개요 및 Hadoop 2.0 의 방향

하둡은 데이터 저장소의 역할을 하는 HDFS와 연산작업을 진행하는 MapReduce 가 있다

HDFS 구성

· NameNode

o 데이터가 저장된 위치를 갖고 있는 Tree 구조의 데이터 블록들이 저장되어 있다.

o DataNode에 I/O 작업 요청을 한다

· DataNode

o 실제 데이터가 저장

· Secondary NameNode

o NameNode가 죽은경우 대체되기 위해 떠 있는 보조 NameNode

o NameNode의 상태를 동기화 하고 있으며, 약간의 시간차가 존재 한다

MapReduce 구성

· JobTracker

o 클러스터의 전체 리소스 관리

o Job의 상태 관리를 하면서 Job마다 Task를 할당

· TaskTracker

o Task를 실제 수행

o 여러 JVM을 생성하여 다수의 맵리듀스 작업 실행

하둡1.0의 구성

하둡1.0의 단점

· SPOF (Single Point of Failure)

o NameNode가 죽으면 보조 NameNode가 있긴 하지만, 동기화의 시간차가 존재하기 때문에 일부 유실이 발생할 수 있다

· JobTracker 과중한 부담

o 클러스터의 전체 리소스를 관리하면서 Job 상태 및 Task를 할당해야 하기 때문에 부하가 많이 발생한다

· 타 환경과의 연동 부족

o 하둡이 발달함에 따라 여러 환경과 연동되는 요구사항이 발생

o Spark, Hive 등

하둡 2.0의 방향

· YARN 을 통해 JobTracker의 업무를 분산

· ResourceManager를 통해 타 분산환경과의 연동 지원

· NameNode의 다중화를 통해 HA(High Avality) 지원

저작자표시 비영리

'Study > Data Science' 카테고리의 다른 글

딥러닝 기초 - Perceptron, Gradient Descent (0)	2023.11.20
딥러닝 기초 - Underfitting, Overfitting (0)	2022.03.21
린 분석 [#1] 좋은 지표를 찾는 방법 (0)	2016.12.14

seulkom note

Hadoop 개요 및 Hadoop 2.0 의 방향

HDFS 구성

MapReduce 구성

하둡1.0의 단점

하둡 2.0의 방향

'Study > Data Science' 카테고리의 다른 글

티스토리툴바

Hadoop 개요 및 Hadoop 2.0 의 방향

HDFS 구성

MapReduce 구성

하둡1.0의 단점

하둡 2.0의 방향

'Study > Data Science' 카테고리의 다른 글

관련글

티스토리툴바