운영 사이트에서 먼저 파악한 시스템 경계

Nike Korea Platform Migration · Series 1 - 입사 직후 운영과 적응3 / 7Software Architecture

운영 중인 커머스 사이트를 맡았을 때 가장 먼저 필요한 것은 기능 목록이 아니라 시스템 경계였다.

← 이전 글: 왜 큰 피처를 만들지 않았나 다음 글: Log4j(CVE-2021-44228) 긴급 패치 →

운영 중인 커머스 사이트를 맡았을 때 가장 먼저 필요한 것은 기능 목록이 아니라 시스템 경계였다. 어디까지가 내부 책임이고, 어디서부터 외부 시스템의 영향이 시작되는지, 어떤 계층이 같은 데이터를 공유하고 어떤 계층이 조회 결과만 소비하는지를 먼저 알아야 문제를 올바르게 볼 수 있었다. 이 경계를 모르면 장애 대응도, 성능 문제 분석도, 배포 영향도 판단도 모두 느려진다.

운영 초기에 만든 “경계 지도”는 문서가 아니라 장애 분류와 배포 판단의 실행 기준이었다.

이 글은 그래서 커머스 운영 적응의 핵심이 왜 “컴포넌트를 많이 아는 것”보다 “경계를 먼저 그리는 것”에 있었는지 정리한다. 특히 당시처럼 여러 계층이 강하게 연결된 플랫폼에서는 시스템 경계를 그리는 일이 사실상 운영자의 기본 지도 만들기와 같았다.

당시 플랫폼은 하나의 웹 서비스가 아니라, 역할이 다른 여러 계층이 서로 얽혀 돌아가는 구조였다. 주문, 상품, 검색, 배치, 결제, 고객 응대, 이벤트 판매처럼 성격이 다른 책임이 한 플랫폼 안에 모여 있었고, 같은 데이터가 여러 흐름에서 재사용됐다. 겉으로는 한 사이트처럼 보이지만, 운영자는 그 안의 경계들을 따로 읽어야 했다.

중요한 점은 이 구조가 본질적으로 MSA는 아니었다는 사실이다. 기능별로 커스터마이징되어 겉으로는 서비스가 분리된 것처럼 보이기도 했지만, 기본 구조는 단일 애플리케이션에 가까웠고 데이터베이스도 하나를 공유하는 방식이었다. 그래서 문제를 볼 때도 “서비스 간 네트워크 장애”보다 “같은 애플리케이션/같은 DB 안에서 책임 경계가 어떻게 엮였는가”를 먼저 봐야 했다.

만약 초기에 MSA 기반으로 재구성된 구조였다면 일부 피처는 더 유연하게 추가했을 여지도 있었다. 실제로 한때는 MSA 리빌딩 방향이 검토되기도 했다. 하지만 최종적으로는 로컬 플랫폼을 재구축하는 대신 글로벌 시스템으로 마이그레이션하는 방향이 확정됐고, 그 결정이 이후 우선순위와 운영 전략의 기준점이 됐다.

특히 운영 중인 시스템은 개발 문서만으로 파악하기 어렵다. 데이터 저장 구조와 검색 반영 시차, 외부 시스템 호출 제약, 배치 실패가 사용자 경험에 미치는 영향까지 같이 봐야 하기 때문이다. 그래서 초기에 해야 할 일은 기능을 하나씩 배우는 것이 아니라, 문제를 어느 축에서 분류해야 하는지 기준점을 세우는 일이었다.

경계 파악 절차

책임 축 분리

데이터 저장소, 검색, 외부 연동, 웹/운영 도구 계층을 책임 단위로 나눈다.

데이터 흐름 확인

같은 데이터가 어떤 계층을 거쳐 노출/처리되는지 흐름을 고정한다.

실패 양상 매핑

각 경계에서 자주 발생하는 실패 신호와 점검 순서를 정리한다.

운영 기준표 반영

배포 점검표/장애 대응표에 경계 기준을 직접 연결한다.

내부 컴포넌트 맵핑

처음에는 내부 운영 컴포넌트를 역할 기준으로 나눠 보는 것부터 시작했다. 관리자 기능을 담당하는 계층, 정기 작업을 담당하는 배치 계층, 외부 시스템과 접점을 만드는 연동 계층, 고객 응대용 내부 도구, 실제 사용자 요청을 처리하는 웹 계층이 서로 어떤 순서와 의존성으로 연결되는지 그려보면, 문제 상황에서도 훨씬 빠르게 출발점을 찾을 수 있었다. 운영에서 중요한 것은 모든 코드를 읽는 것이 아니라, 어디를 먼저 봐야 하는지 아는 것이다.

이 맵핑은 단순한 구조도 이상의 의미가 있었다. 예를 들어 같은 상품 노출 문제라도 실제 원인은 관리자 데이터 수정 누락, 배치 반영 지연, 검색 인프라 인덱싱 문제, 웹 계층의 캐시 상태 중 어느 쪽이든 될 수 있었다. 컴포넌트 경계를 먼저 잡아두면 원인을 추측하는 대신, 어떤 책임선에서 증상을 분해해야 하는지 더 빨리 정리할 수 있었다.

`공유 데이터 저장소` - 모든 흐름이 만나는 축

운영 관점에서 가장 먼저 봐야 했던 경계 중 하나는 공유 데이터 저장소였다. 여러 계층이 같은 저장소를 바라보는 구조에서는 한쪽의 부하나 정합성 문제가 다른 흐름으로 퍼지기 쉽다. 배치가 크게 돌면 조회 응답성이 흔들릴 수 있고, 데이터 수정이 예상과 다르게 들어가면 웹과 내부 도구, 정산 흐름이 동시에 영향을 받을 수 있다.

이 구조를 이해하고 나니 문제를 볼 때도 “어느 화면에서 보였는가”보다 “어느 데이터 축에서 시작됐는가”가 더 중요해졌다. 운영 중인 커머스에서는 화면은 증상을 보여주지만, 책임은 대부분 데이터와 흐름의 경계 쪽에 있다. 그래서 공유 데이터 저장소를 중심축으로 두고 나머지 계층을 바라보는 시각이 필요했다.

`검색 인프라` - 보조 기능이 아니라 핵심 경계

처음에는 검색을 부가 기능처럼 생각하기 쉽지만, 커머스에서는 검색 인프라가 사실상 상품 노출의 핵심 경계였다. 목록 노출이 느리거나, 일부 상품만 보이거나, 인덱싱 반영이 어긋나면 사용자는 상품 자체가 없는 것처럼 느낄 수 있다. 특히 운영 중인 사이트에서는 이 문제가 단순 조회 성능이 아니라 판매 기회 손실로 바로 이어진다.

그래서 검색은 저장소의 사본을 조회하는 보조 계층이 아니라, 별도의 책임과 별도의 실패 양상을 가진 시스템으로 봐야 했다. 이 관점을 잡고 나니 상품 노출 문제를 볼 때도 웹 계층만 의심하지 않고, 반영 시차, 인덱싱 상태, 전환 로직까지 같이 보게 됐다. 이후 Solr 이중화 문제를 다룰 때도 이 경계 인식이 출발점이 됐다.

`외부 연동 시스템` - 내부 문제처럼 보이는 외부 원인

운영 중 만나는 문제 중 상당수는 처음에는 내부 버그처럼 보이지만, 실제로는 외부 연동 시스템의 응답 지연이나 실패에서 시작되기도 한다. 결제, 배송, 알림, 인증 같은 영역은 커머스의 핵심 흐름에 들어와 있지만, 책임 경계는 내부에만 있지 않다. 그래서 문제가 생기면 애플리케이션 안쪽만 보지 말고, 외부 호출 구간의 상태와 실패 패턴을 같이 봐야 했다.

이 경계를 분리해서 보는 습관은 커뮤니케이션에도 도움이 됐다. 내부 수정이 필요한지, 외부 벤더와 함께 봐야 하는지, 임시 우회가 가능한지 판단하려면 먼저 경계 인식이 있어야 한다. 운영자가 시스템 경계를 제대로 그릴수록 문제는 더 빨리 “누가 잘못했는가”가 아니라 “어느 경계에서 막혔는가”로 정리됐다.

시스템 경계 맵의 활용

이렇게 정리한 경계 맵은 문서 한 장으로 끝나는 산출물이 아니라, 운영 판단의 기준점이었다. 장애가 나면 어디부터 확인할지, 배포 전에 어떤 축을 점검할지, 마이그레이션 준비에서 무엇이 대체 대상인지 모두 이 경계 맵 위에서 생각할 수 있었다. 운영을 맡으며 가장 유효했던 방법은 시스템을 세부 기능의 모음으로 보는 대신, 경계가 만나는 구조로 이해하는 것이었다.

다음 글들에서 다룰 보안 패치, 정기 배포, 검색 이슈도 결국 이 경계 이해 위에 놓여 있었다. 시스템 경계를 먼저 그려두면, 이후의 사건들은 더 이상 개별 사고가 아니라 구조 안에서 설명 가능한 현상으로 보이기 시작한다.

경계 중심 분석의 장단점

경계 중심 접근의 장점은 장애 분류 속도가 빨라진다는 점이다. 화면 증상에서 출발하더라도 데이터 경계와 책임선을 기준으로 보면 조사 순서가 명확해지고, 팀 간 커뮤니케이션도 같은 모델 위에서 진행된다.

단점은 초기 학습 비용이 크다는 점이다. 기능별로 빠르게 대응하는 방식보다 시스템 전체 맥락을 익히는 데 시간이 더 필요하다. 하지만 운영 기간이 길수록 이 투자 비용은 회수되며, 반복 장애에서 특히 큰 효과를 낸다.

경계별 책임 요약표

경계	주 책임	대표 실패 양상	우선 점검 지점
`공유 데이터 저장소`	정합성/공유 데이터 관리	조회 지연, 상태 불일치	배치 영향, 쓰기/읽기 경합
`검색 인프라`	상품 노출/조회 성능	누락 노출, 반영 지연	인덱싱 상태, 전환 경로
`외부 연동 시스템`	결제/배송/알림 연계	타임아웃, 부분 실패	재시도 정책, 실패 격리
내부 웹/도구 계층	사용자/운영자 인터페이스	화면 증상 과대해석	원인 경계를 먼저 분류

기술 체크포인트

장애 분류 시작점은 화면 증상이 아니라 공유 데이터 저장소/검색 인프라/외부 연동 경계로 고정했다.
단일 애플리케이션 + 단일 DB 구조에서 변경 영향도는 의존성 순서 기준으로 점검했다.
경계 맵은 문서 산출물이 아니라 배포 전 점검/장애 대응의 기준표로 운영했다.