Breeze 정기 배포 체계

Nike Korea Platform Migration · Series 1 - 입사 직후 운영과 적응5 / 7Infra & DevOps

운영 중인 커머스 플랫폼에서 정기 배포는 단순한 릴리스 절차가 아니다.

← 이전 글: Log4j(CVE-2021-44228) 긴급 패치 다음 글: Consent Journey →

운영 중인 커머스 플랫폼에서 정기 배포는 단순한 릴리스 절차가 아니다. 그것은 여러 팀의 확인 리듬을 맞추고, 실제 트래픽에 영향을 주는 변경을 통제하며, 문제 발생 시 어디서부터 되돌릴지를 정하는 운영 체계다. 특히 트래픽 이벤트와 외부 연동 제약이 큰 환경에서는 정기 배포가 사실상 안전망 역할을 한다.

이 글은 그래서 배포 프로세스 자체를 소개하려는 것이 아니라, 왜 그 반복 절차가 운영 안정성의 핵심 장치였는지를 정리하기 위해 쓴다. Log4j 긴급 패치처럼 평소 원칙을 깨야 하는 순간에도 이 체계가 기반이 되었기 때문이다.

당시 플랫폼은 여러 내부 운영 컴포넌트와 외부 연동 시스템이 얽혀 있었고, 작은 변경도 실제 주문 흐름이나 운영 도구, 이벤트 페이지에 영향을 줄 수 있었다. 이런 환경에서는 “배포할 수 있는가”보다 “어떤 순서와 어떤 확인을 거쳐 배포해야 하는가”가 더 중요하다. 특히 배포 전후의 짧은 시간에 어떤 지표와 어떤 사용자 흐름을 볼지 미리 정해져 있어야 운영자가 흔들리지 않는다.

또한 트래픽 집중 이벤트가 존재하는 서비스에서는 배포 일정 자체가 비즈니스 일정과 강하게 묶인다. 이벤트 직전에는 불확실성을 줄이는 쪽이 우선이고, 이벤트 이후에는 밀린 변경을 안전하게 흡수해야 한다. 정기 배포 체계는 결국 기술 절차이면서 동시에 운영 일정 관리 방식이었다.

배포 프로세스: Staging - QA - Canary - Prod

정기 배포는 단순히 하나의 환경에서 테스트하고 끝나는 과정이 아니었다. 먼저 검증 가능한 환경에서 변경을 모아보고, 이후 회귀 테스트를 거쳐, 실제 트래픽 일부를 통해 위험을 좁은 범위에서 확인한 뒤, 마지막으로 전체 트래픽에 반영하는 흐름이 있었다. 이 리듬은 느려 보일 수 있지만, 운영 플랫폼에서는 바로 그 점이 중요했다. 위험을 한 번에 받아들이지 않고 단계별로 잘게 나누는 것이기 때문이다.

특히 Canary 단계의 의미는 새 버전이 정상 동작하는지 기술적으로 확인하는 것에만 있지 않았다. 실제 운영 흐름에서 예상치 못한 지점이 드러나는지, 외부 연동이 평소와 다른 반응을 보이지 않는지, 내부 도구와 실제 웹 경험이 어긋나지 않는지를 좁은 범위에서 먼저 보는 데 있었다. 정기 배포는 결국 불확실성을 순차적으로 줄이는 과정이었다.

Solr는 대용량 상품/콘텐츠를 빠르게 검색하기 위해 쓰는 검색 엔진으로, 커머스에서는 검색 결과 정확도와 응답속도에 직접 영향을 준다.

주의: Canary는 일부 트래픽 단계라서 안전한 게 아니라, 관측 기준과 중단 기준이 있을 때만 안전하다.

여기서 Canary는 “전체 트래픽을 한 번에 바꾸지 않고 일부 트래픽에 새 버전을 먼저 태워 확인하는 방식”이다. 핵심은 오류를 빨리 찾는 것보다, 문제가 생겼을 때 영향 범위를 작게 유지하는 데 있다. 그래서 Canary 단계에서는 기능 정상 여부뿐 아니라 에러율, 응답 시간, 외부 연동 실패율, CS로 들어오는 이상 징후까지 같이 본다. 당시에는 Canary에서 실제 주문 플로우까지 확인한 뒤 전체 배포로 넘어가는 식으로 운영했다.

비교를 위해 자주 언급되는 방식이 Blue-Green 배포다. Blue-Green은 두 환경을 준비해 트래픽을 한 번에 전환하므로 롤백이 빠르고 절차가 명확하다는 장점이 있다. 반면 Canary는 전환이 점진적이라 관측 기반으로 리스크를 줄이기 좋다. 당시 Breeze 운영에서는 외부 연동과 이벤트 트래픽 변동이 커서, 단계적으로 위험을 줄일 수 있는 Canary 접근이 실무적으로 더 잘 맞았다.

Canary 운영 기준 표

항목	Canary에서 확인한 내용	기준 미달 시 조치
트래픽 비율	일부 트래픽만 신규 버전에 라우팅	확대 중단, 비율 유지
핵심 사용자 흐름	로그인, 주문, 결제, 주문조회 정상 동작	즉시 원인 분석 후 이전 비율로 복귀
에러율/지연시간	기존 기준선 대비 급격한 악화 여부	롤백 또는 배포 보류
외부 연동	PG/배송/알림 연동 실패율 변화	장애 전파 차단 후 재검증
CS 이상 징후	문의/오류 제보 급증 여부	전체 배포 중단, 이슈 분류

Canary vs Blue-Green 요약

방식	강점	한계
Canary	점진 전환, 관측 기반 리스크 축소	모니터링/판단 체계가 필수
Blue-Green	전환/롤백 절차 단순	대규모 전환 시 영향이 한 번에 발생

배포 체계의 핵심 구성 요소

구성 요소	실무에서의 역할	없을 때 생기는 문제
단계형 환경(Staging/QA/Canary/Prod)	리스크를 구간별로 분할	문제 발견 시 영향 범위가 커짐
관측 지표(에러율/지연시간/연동 실패율)	전진/중단 판단 기준 제공	감으로 배포 의사결정
`내부 배포 채널`	담당자/상태를 단일 문맥으로 동기화	커뮤니케이션 분산, 판단 지연
롤백 기준	이상 징후 발생 시 즉시 복귀	중단 타이밍을 놓쳐 장애 확산

컴포넌트별 역할과 배포 순서

여러 내부 운영 컴포넌트가 묶인 플랫폼에서는 배포 순서가 곧 안정성의 일부였다. 데이터를 제공하는 계층과 소비하는 계층의 순서를 잘못 잡으면, 새 응답을 기대하는 쪽과 아직 옛 구조를 내보내는 쪽이 엇갈릴 수 있다. 그래서 배포는 단순히 각 서비스의 준비 여부가 아니라, 어떤 의존성이 먼저 맞춰져야 하는지에 대한 판단 위에서 진행됐다.

이 순서를 이해하고 있으면 문제 대응도 빨라졌다. 배포 후 이상이 보일 때 어떤 계층부터 되돌아가 확인해야 하는지, 새 버전이 영향을 준 범위가 어디까지인지 더 빨리 가늠할 수 있었기 때문이다. 운영 환경에서는 순서가 문서상의 절차가 아니라 사고를 줄이는 실제 장치였다.

The Draw와 배포 일정 조정

정기 배포 체계가 특히 빛났던 순간은 트래픽 이벤트와 충돌할 수 있는 시점이었다. 트래픽 이벤트 시스템이 예정된 주에는 같은 변경이라도 위험도가 달라졌다. 기술적으로는 배포 가능해 보여도, 이벤트 직전이라는 맥락에서는 작은 불확실성도 크게 증폭될 수 있기 때문이다. 그래서 일정 조정은 우유부단한 미룸이 아니라, 운영 리스크를 다시 계산한 결과였다.

이 경험을 통해 배포는 기술팀만의 일정이 아니라는 점이 더 분명해졌다. 이벤트와 주문, 고객 응대, 외부 연동의 안정성까지 고려해야 했기 때문에, 배포 일정은 결국 비즈니스 상황과 함께 읽어야 했다. 정기 배포가 단지 개발 완료의 끝점이 아니라 운영 판단의 일부였다는 의미다.

The Draw 트래픽과 인프라

트래픽 이벤트가 있는 환경에서는 배포 이후 상태를 보는 관점도 일반적인 서비스와 달랐다. 단순히 에러가 없는지만 보는 것이 아니라, 트래픽 상승 구간에서 응답성이 흔들리지 않는지, 특정 계층의 부담이 과도하게 커지지 않는지, 외부 연동 시스템까지 같이 버틸 수 있는지를 함께 생각해야 했다. 이벤트는 시스템의 약한 고리를 빠르게 드러내기 때문이다.

그래서 정기 배포 체계는 코드를 반영하는 절차이면서 동시에 “이벤트 전후에 무엇을 건드려도 되는가”를 판단하는 운영 도구였다. 이 구조를 알고 있으면 위기 상황에서도 어떤 절차를 단축할 수 있고, 어떤 절차는 끝까지 남겨야 하는지 구분할 수 있었다.

`내부 배포 채널`의 운영

내부 배포 채널은 배포 공지 창구를 넘어서, 각 단계의 상태를 같은 맥락으로 맞추는 장소였다. 어떤 환경 검증이 끝났는지, 누구 확인이 남았는지, 이상 징후가 있으면 어떤 수준에서 멈출지 같은 정보가 한 줄기로 이어져야 배포가 팀 작업으로 유지된다. 이 통로가 없으면 배포는 각자 아는 사실을 들고 있는 병렬 작업이 되고, 그만큼 실수가 늘어난다.

평상시 정기 배포에서 이 채널을 꾸준히 사용했기 때문에, 긴급 상황이나 일정 조정이 필요한 상황에서도 같은 경로를 그대로 활용할 수 있었다. 익숙한 절차가 반복될수록 커뮤니케이션 비용이 줄고, 줄어든 비용만큼 판단이 빨라진다. 정기 배포 체계에서 채널 운영이 중요했던 이유가 여기에 있다.

정기 배포가 만든 안전망

결국 정기 배포 체계의 가치는 “문제가 없으면 잘 돌아간다”는 당연한 수준에 있지 않았다. 오히려 문제가 생기거나, 급하게 바뀌거나, 이벤트와 겹치는 순간에도 어떤 절차를 기준으로 판단할 수 있게 만든다는 점이 더 중요했다. 반복된 리듬이 있었기 때문에 위기 상황에서도 모두가 같은 순서를 떠올릴 수 있었다.

이 안전망 덕분에 전환기 플랫폼에서도 무리한 확장보다 안정적인 운영이 가능했다. 다음 글에서 다룰 Consent Journey 같은 프로젝트도 결국 이 배포 리듬 위에서 여러 차례 반복 수정과 반영을 감당해야 했다.

배포 체계의 기술적 장단점

정기 배포 체계의 장점은 절차를 반복하면서 검증 품질이 누적된다는 점이다. 릴리스 체크리스트, 롤백 조건, 관측 지표가 팀의 공통 언어가 되면 긴급 상황에서도 판단 속도가 유지된다.

단점은 고정된 리듬이 때로는 변경 속도를 제한할 수 있다는 점이다. 그래서 실제 운영에서는 정기 배포 원칙을 기본으로 두되, 보안 이슈나 이벤트 대응 시에는 핵심 절차만 남겨 압축 실행하는 방식이 필요했다.