ress 의 기술블로그
DevOps, Kubernetes, Service Mesh.
Learning by doing, documenting the journey.
About
DevOps와 Platform Engineering에 관심이 많은 엔지니어입니다. Kubernetes 위에서 서비스를 운영하고, Istio 로 Service Mesh를 구성하며, Terraform 으로 인프라를 코드로 관리하는 것에 대해 공부하고 있습니다.
개발자 경험(DX)을 개선하는 것에도 깊은 관심을 갖고 있습니다. CI/CD 파이프라인 최적화, GitOps 워크플로우 설계, Observability 구축까지 — 팀이 더 빠르고 안정적으로 배포할 수 있도록 고민하는 것을 좋아합니다.
94
Posts
6
Categories
221
Tags
Latest
관측성 스택 선택기 — Grafana LGTM+를 고른 이유
메트릭·로그·트레이스 백엔드부터 수집 에이전트, Kafka 버퍼링 전략까지 — 티켓팅 서비스의 관측성 아키텍처를 설계하며 내린 6가지 결정
Read more →Recent
View all →비즈니스 메트릭 수집기를 Go로 분리한 이유
인프라 메트릭은 있는데 비즈니스 메트릭이 없다. 좌석 판매 속도, 결제 전환율 같은 지표를 수집하기 위해 Go 별도 서비스를 만든 아키텍처 결정 과정
Cloudflare 전환 실전 — 5가지 라우팅 장애와 해결 과정
CloudFront에서 Cloudflare로 전환하면서 만난 Custom Error Response 충돌, SSL 이중 종단, Pages 우선순위, Workers Host 헤더 제한까지 실전 트러블슈팅 기록
CloudFront에서 Cloudflare로 — CDN 전환을 결정한 이유
CloudFront Custom Error Response가 API 에러를 삼키는 구조적 한계를 발견하고, Cloudflare Pages + Workers로 전환한 아키텍처 결정 과정
Tempo spanmetrics 전량 폐기 — batch timeout과 ingestion slack의 함정
140만 span이 수신됐지만 전량 폐기됐다. Alloy Kafka consumer의 batch timeout이 Tempo의 ingestion slack을 초과해서 모든 spanmetrics가 생성되지 않은 문제