하둡은 데이터 저장소의 역할을 하는 HDFS와 연산작업을 진행하는 MapReduce 가 있다
HDFS 구성
· NameNode
o 데이터가 저장된 위치를 갖고 있는 Tree 구조의 데이터 블록들이 저장되어 있다.
o DataNode에 I/O 작업 요청을 한다
· DataNode
o 실제 데이터가 저장
· Secondary NameNode
o NameNode가 죽은경우 대체되기 위해 떠 있는 보조 NameNode
o NameNode의 상태를 동기화 하고 있으며, 약간의 시간차가 존재 한다
MapReduce 구성
· JobTracker
o 클러스터의 전체 리소스 관리
o Job의 상태 관리를 하면서 Job마다 Task를 할당
· TaskTracker
o Task를 실제 수행
o 여러 JVM을 생성하여 다수의 맵리듀스 작업 실행
하둡1.0의 구성
하둡1.0의 단점
· SPOF (Single Point of Failure)
o NameNode가 죽으면 보조 NameNode가 있긴 하지만, 동기화의 시간차가 존재하기 때문에 일부 유실이 발생할 수 있다
· JobTracker 과중한 부담
o 클러스터의 전체 리소스를 관리하면서 Job 상태 및 Task를 할당해야 하기 때문에 부하가 많이 발생한다
· 타 환경과의 연동 부족
o 하둡이 발달함에 따라 여러 환경과 연동되는 요구사항이 발생
o Spark, Hive 등
하둡 2.0의 방향
· YARN 을 통해 JobTracker의 업무를 분산
· ResourceManager를 통해 타 분산환경과의 연동 지원
· NameNode의 다중화를 통해 HA(High Avality) 지원
'Study > Data Science' 카테고리의 다른 글
딥러닝 기초 - Perceptron, Gradient Descent (0) | 2023.11.20 |
---|---|
딥러닝 기초 - Underfitting, Overfitting (0) | 2022.03.21 |
린 분석 [#1] 좋은 지표를 찾는 방법 (0) | 2016.12.14 |