Hadoop HistoryServer Log 프로세스

과거 하둡 클러스터 성능 관리 솔루션인 당사 플랫폼(사내 빅데이터 모니터링 플랫폼)를 개발하던 당시, YARN 애플리케이션 로그들을 파싱하여 실시간으로 중앙 대시보드에 수집하고 보여주기 위해 내부 로그 라이프사이클을 집요하게 추적하며 그렸던 아키텍처 다이어그램입니다.

하둡(Hadoop) 에코시스템에서 맵리듀스(MapReduce) 및 스파크(Spark) 잡들이 종료된 이후, 완료된 애플리케이션의 로그와 메트릭이 HistoryServer로 어떻게 이관되고 분산 처리되는지 시각적으로 정리되어 있습니다.

이 다이어그램은 YARN의 NodeManager가 생성한 파편화된 로컬 로그들이 어떤 조건(yarn.log-aggregation-enable)을 거쳐 HDFS 장기 저장소(yarn.nodemanager.remote-app-log-dir)로 집계되는지, 그리고 언제 삭제되는지 그 데이터의 운명을 이해하는 데 큰 도움이 됩니다.

다이어그램 로딩 중...

(내부 아키텍처 설계 문서를 바탕으로 재구성한 다이어그램입니다.)