Skip to Content
Data EngineeringHadoop HistoryServer Log Process WorkFlow

Hadoop HistoryServer Log Process WorkFlow

#data-engineering#hadoop#historyserver#architecture#diagram

과거 하둡 클러스터 성능 관리 솔루션인 엑셈 플라밍고(EXEM Flamingo)를 개발하던 당시, YARN 애플리케이션 로그들을 파싱하여 실시간으로 중앙 대시보드에 수집하고 보여주기 위해 내부 로그 라이프사이클을 집요하게 추적하며 그렸던 아키텍처 다이어그램입니다.

하둡(Hadoop) 에코시스템에서 맵리듀스(MapReduce) 및 스파크(Spark) 잡들이 종료된 이후, 완료된 애플리케이션의 로그와 메트릭이 HistoryServer로 어떻게 이관되고 분산 처리되는지 시각적으로 정리되어 있습니다.

이 다이어그램은 YARN의 NodeManager가 생성한 파편화된 로컬 로그들이 어떤 조건(yarn.log-aggregation-enable)을 거쳐 HDFS 장기 저장소(yarn.nodemanager.remote-app-log-dir)로 집계되는지, 그리고 언제 삭제되는지 그 데이터의 운명을 이해하는 데 큰 도움이 됩니다.

(내부 아키텍처 설계 문서를 바탕으로 재구성한 다이어그램입니다.)

Last updated on