'DevOps' 태그의 글 목록

DevOps

로컬 환경에서의 AWS API 호출을 위한 임시 자격 증명 시스템 구축기 2025.08.06 2
Airflow를 쿠버네티스에 운영하기 위한 고민 2025.06.26
쿠버네티스가 쉬워지는 컨테이너 이야기가 어렵다면 - cgroup, cpu 편 2024.11.11
GCP Multi Project에 대한 IRSA 구성하기 2024.09.03
CI/CD 파이프라인 자동화 및 Deploy 분리하기 2024.08.16

로컬 환경에서의 AWS API 호출을 위한 임시 자격 증명 시스템 구축기

2025. 8. 6. 18:22

최근 AWS 환경을 운영하면서 장기적인 액세스 키를 사용하지 않고 보다 안전한 방식으로 AWS 리소스에 접근할 수 있는 방법을 고민했어요.

저는 이러한 문제를 AWS SSO를 통해 굉장히 편하고 쉽게 해결한 경험이 있어요. 그래서 회사에 입사하자 마자 추진했던게 AWS SSO 사용이었어요.

그런데 외부 제약 사항으로 인해 AWS SSO를 사용할 수 없었고, 실제로 우리와 같은 환경을 많은 회사가 겪고 있을거라는 생각을 했어요.

이러한 환경에서 어떻게 AWS API 호출을 보다 안전하게 접근할 수 있게 했는지 소개합니다.

해결하고자 한 문제

최초 회사에 입사했을 때는 AWS 환경의 자원에 접근하기 위해 Long Term Access Key를 발급하고 이를 통해 AWS API를 호출하는 형태였고, 다음의 문제를 안고 있었어요.

액세스 키를 발급하고 관리하는 것은 보안상 취약점이 될 수 있다.
키가 유출되면 언제든 AWS 리소스가 위험에 노출될 수 있다.
누군가 키를 지워버리면 그 순간 모든 것이 중단된다.
키의 주기적 교체 및 관리에 대한 부담이 크다.

이러한 문제를 해결하고자 처음에는 애플리케이션 단위로 IAM Role 및 User를 생성하고 Long Term Access key를 발급했는데 이는 최소 권한 원칙은 지킬 수 있었지만 기존의 문제점들은 해결하지 못했어요.

어떻게 할지 고민하다가 “AWS SSO만 사용할 수 있으면 쉽게 해결될텐데…”라는 생각을 했고, 이는 “💡 AWS SSO와 비슷한 사용자 경험을 줄 수 있는 시스템을 만들면 되지 않을까?” 라는 생각을 했고, 시스템을 만들기 시작했어요.

AWS SSO 그리고 AWS STS

AWS Single SIgn On

AWS SSO는 AWS 인증 센터를 통해 관리되는 여러 AWS 계정에 대해 제공하는 중앙 집중식 로그인 솔루션이에요. 단순히 AWS 콘솔에 로그인 할 수 있을 뿐만 아니라 애플리케이션에서 사용하기 위한 인증/인가도 수행할 수 있어요.

이를 통해 사용자는 회사에서 허용 및 구성한 AWS 계정, AWS 콘솔, AWS와 융합된 여러 애플리케이션에 접근할 수 있어요.

AWS 인증 센터를 기준으로 구성 조직은 AWS Identity Center를 통해 그룹 및 사용자 설정, MFA 등 로그인 관련 정책 그리고 권한 정책을 설정 할 수 있고, 회사와 사용자는 별도의 Long Term Access Key를 발급 관리할 필요가 없어요.

AWS Security Token Service

AWS STS는 짧은 수명을 가진 임시 보안 자격증명(AccessKey, SecretKey, SessionToken)을 발급해 주는 서비스에요.

호출하는 주체의 자격 증명과 조건에 따라 미리 작성되어 있는 IAM Role에 대해 사용할 수 있는 임시 토큰을 발급해요.

AWS STS를 통해 발급된 토큰은 기한이 지나면 자동 폐기되므로 장기 키를 저장·관리하는 위험을 크게 줄여 주고, 이는 보안과 관리 측면에서도 유리해요.

AWS SSO와 AWS STS의 관계

AWS SSO 콘솔에서 사용자가 로그인하면 내부적으로 STS의 AssumeRole 등을 호출하여 임시 자격 증명을 발급해요.

사용자는 이 임시 자격 증명을 바탕으로 AWS 콘솔, CLI, SDK 등에서 STS가 발급한 토큰을 로컬에 저장하고 활용할 수 있어요.

이 구조 덕분에 사용자는 긴 키를 직접 다루지 않고도, 필요한 권한을 안전하게 AWS API 호출에 사용할 수 있게 돼요.

고민한 포인트

해당 시스템을 만들때 가장 크게 고민한 포인트는 다음과 같았어요.

어떻게 해야 개발자의 귀찮음을 최소화할까?

실제로 개발자들은 AWS API를 사용하는 애플리케이션을 개발하기 위해 AWS Credential을 어떻게 구성하고 관리하는지는 그들이 궁금해 하지 않는 한 알 필요 없다고 생각했어요. 그리고 이를 설명해줌으로써 개발자들의 보안 환경에 반감이 들 수 있지 않을까? 하는 걱정도 있었어요.
토큰 만료로 인해 개발자의 애플리케이션 개발 싸이클이 중간에 끊기지 않고, 의도치 않은 버그에 빠지지 않도록 하고자 했어요. (코드는 정상인데 토큰이 만료되어서 에러가 발생하는 등)
보안이 엄격해질수록 사람의 귀찮음이 늘어나기 때문에 제가 제공하는 환경으로 인해 개발자의 업무 효율성이 떨어지는 것을 지양하고 이러한 작업을 최소화 하고자 했어요.

AWS의 Role Chaining에 따른 STS 지속 시간 문제

해당 환경을 제공하는 시스템을 ECS 부터 Lambda까지 고민했어요. ECS나 Lambda의 경우 최소의 비용으로 시스템을 구성할 수 있을거라 생각했어요.
하루 8시간 일한다면, 적어도 8번 해당 시스템에 접근하여 STS를 획득해야 하는 귀찮음이 발생해요…ㅠㅠEC2, ECS, Lambda 등에 시스템을 배포한다면 다음의 시퀀스 다이어그램과 같은 환경이 될거라 예상했어요. 이는 AWS 정책상 임시 자격을 가진 주체가 또 다른 역할을 Assume할 때, 그 유효 시간은 최대 “1시간”으로 한다는 문제점이 생겼어요. 이는 앞서 고민한 개발자의 귀찮음을 최소화 하자는 것에 위배될거라 생각했어요.

이를 해결하기 위한 웹 대시보드 서버의 코드는 다음과 같아요. EKS의 IdP Federation을 활용하여 WebIdentity를 Assume 하는 것이 주요 내용이에요.

// roleArn 사용자에 대한 Assume Role 대상이에요. 이 역할에 필요한 정책이 할당되어 있어요
func assumeWithWebIdentity(ctx context.Context, roleArn, sessionName string, duration int32) (*sts.AssumeRoleWithWebIdentityOutput, error) {

	tokenFile := os.Getenv("AWS_WEB_IDENTITY_TOKEN_FILE")
	data, err := os.ReadFile(tokenFile)
	if err != nil {
		return nil, fmt.Errorf("read token file: %w", err)
	}
	
	cfg, err := config.LoadDefaultConfig(ctx)
	if err != nil {
	    return nil, err
	}
	client := sts.NewFromConfig(cfg)
	
	return client.AssumeRoleWithWebIdentity(ctx, &sts.AssumeRoleWithWebIdentityInput{
	    RoleArn:          aws.String(roleArn),
	    RoleSessionName:  aws.String(sessionName),
	    WebIdentityToken: aws.String(string(data)),
	    DurationSeconds:  aws.Int32(duration),
	})
}

EKS를 사용하고 있기 때문에, 이를 활용하여 시스템을 구성하자.

우리 회사는 어차피 EKS를 사용하고 있기 때문에 남는 자원으로 애플리케이션을 돌릴 수 있을거라 생각했고, IRSA를 활용하여 사용자 별 권한을 쉽게 융합할 수 있을거라 생각했어요.
특히 EKS의 서비스 계정은 WebIdentityFederation을 통해서 “신뢰받는 외부 자격 제공자”로 취급 받게되고, 이는 Role Chaining이 아니라 서비스 계정의 직접적인 Assume Role이 가능하다는 장점이 있어요.

AWS SSO와 같이 사용자에 대한 인증이 가능해야 한다.

저는 AWS SSO를 사용하면서 굉장히 편했던 경험이 있어요. 그래서 회사에 입사하자 마자 추진했던게 AWS SSO 사용이었어요. 그런데 외부 제약 사항으로 인해 AWS SSO를 사용할 수 없었고, 많은 회사가 우리와 같은 환경일거라 생각했어요.
- 이는 해당 글을 작성하는 계기가 되었답니다.
AWS SSO는 사용자의 계정과 MFA 인증을 통해 임시 자격을 할당하는데, 이처럼 해당 개발자만 알고 있는 정보를 바탕으로 사용자 인증이 가능하게끔 했어요.

💡 AssumeRole, AssumeRoleWithWebIdentity, AssumeRoleWithSAML

AssumeRole

Assume Role은 IAM에 이미 발급된 자격 증명을 다른 IAM Role로 전환하여 사용할 때 이용되는 기능이에요. 이름에서 볼 수 있듯이 다른 Role로 가장하여 해당 Role의 권한을 그대로 사용할 수 있게 됩니다.

AssumeRole을 통해 권한을 위임하기 위해서 호출하는 Role, User가 iam:PassRole 권한을 가져야 대상 Role을 활용할 수 있어요.

보통 다계정 환경에서의 Role 가정, Broker Role이 필요할 때 주로 사용됩니다.

AssumeRole을 중복 호출할 경우 Role Chaining이 발생할 수 있어요

AssumeRole → Assume Role은 STS를 통해 발급한 자격 증명을 바탕으로 또 다시 STS를 이용하기 때문에 Role Chaining이 발생해요.
이러한 Role Chaining은 토큰 최대 사용 시간 제한 등 사용에 제약이 있어요.

AssumeRoleWithWebIdentity

AssumeRole은 IAM의 자격 증명을 바탕으로 동작한다면, AssumeRoleWithWebIdentity는 OIDC를 바탕으로 동작해요.

AWS STS가 아닌 Open ID Connect를 통해 발급한 JWT를 사용하기 때문에 Role Chaining이 발생하지 않아요.

대표적으로 AWS의 EKS도 OIDC를 이용하여 쿠버네티스의 서비스 계정을 IAM과 상호작용 하도록 구성하여 사용할 수 있어요.

AssumeRoleWithSAML

Security Assertion Markup Language은 XML 기반의 인증·권한 부여 프레임워크로, 주로 기업 SSO(Single Sign-On) 환경에서 사용되는데요,

AWS도 이를 활용하여 제휴 ID 제공자에서 발급된 정보를 바탕으로 사용자를 인증할 수 있도록 지원해요.

AssumeRoleWithWebIdentity가 OIDC에서 발급된 JWT를 이용한다면, AssumeRoleWithSAML은 SAML Assertion을 이용해요.

시스템 구성

최종적으로 고안한 시스템의 시퀀스 다이어그램은 다음과 같아요.

EKS에 배포하는 시스템들은 IRSA 구성을 통해 AWS 자원에 접근할 수 있는데요, 이 경우 일반적으로 default profile을 통해 IRSA에 연결된 IAM Role의 권한을 사용할 수 있어요.

default role을 사용함으로써 개발자가 stage별 코드를 별도로 운영하지 않아도 되도록 구성했어요.

Golang 기준 변경전 코드

// 인터페이스 선언
type AwsConfig interface {
	Config(ctx context.Context, roleArn string) (*aws.Config, error)
}

// EKS 환경에서 사용하기 위한 Default Credential Config 획득 코드
type ProductionAwsConfig struct{}

func NewProductionAwsConfig() AwsConfig {
	return &ProductionAwsConfig{}
}

func (l *ProductionAwsConfig) Config(ctx context.Context, roleArn string) (*aws.Config, error) {

	cfg, err := config.LoadDefaultConfig(
		ctx,
		config.WithRegion("ap-northeast-2"),
	)
	if err != nil {

		return nil, err
	}

	return &cfg, nil
}

// 로컬 환경에서 사용하기 위한 특정 Role Credential Config 획득 코드
type LocalAwsConfig struct{}

func NewLocalAwsConfig() AwsConfig {
	return &LocalAwsConfig{}
}

func (l *LocalAwsConfig) Config(ctx context.Context, roleArn string) (*aws.Config, error) {

	roleSessionName := os.Getenv("LOCAL_ROLE_SESSION_NAME")
	if roleSessionName == "" {
		
		return nil, fmt.Errorf("fail to get env [LOCAL_ROLE_SESSION_NAME]")
	}

	baseCfg, err := config.LoadDefaultConfig(
		ctx,
		config.WithRegion("ap-northeast-2"),
		config.WithSharedConfigProfile("assume-role-sa"),
	)
	if err != nil {

		return nil, err
	}

	stsClient := sts.NewFromConfig(baseCfg)
	provider := stscreds.NewAssumeRoleProvider(
		stsClient,
		roleArn,
		func(o *stscreds.AssumeRoleOptions) {
			o.Duration = 900 * time.Second
			o.RoleSessionName = roleSessionName
		},
	)

	cachedCreds := aws.NewCredentialsCache(provider)
	clientCfg := baseCfg
	clientCfg.Credentials = cachedCreds

	return &clientCfg, nil
}

변경후 코드

type AwsConfig interface {
	Config(ctx context.Context, roleArn string) (*aws.Config, error)
}

type ApplicationAwsConfig struct{}

func NewAwsConfig() AwsConfig {
	return &ApplicationAwsConfig{}
}

func (l *ApplicationAwsConfig) Config(ctx context.Context, roleArn string) (*aws.Config, error) {

	cfg, err := config.LoadDefaultConfig(
		ctx,
		config.WithRegion("ap-northeast-2"),
	)
	if err != nil {

		return nil, err
	}

	return &cfg, nil
}

또한 MFA 인증을 통해 자신의 역할만 사용할 수 있게 했는데, 이는 Golang의 TOTP 라이브러리를 활용하여 AWS 2FA 인증과 동일한 솔루션으로 구성하게 했어요.

MFA가 많아지면 많아질수록 이 또한 실 사용자에겐 꽤 고통스러운 일이에요..ㅠㅠ

실제로 동작하는 웹 대시보드의 경우 다음과 같이 생겼어요.

이와 같은 Zero Trust Web Dashboard를 구성함으로써 조금 더 안전하고 편한 사내 개발 환경을 만드는데 기여할 수 있었어요.

이 글이 저와 비슷한 고민을 하는 분들께 도움이 되길 바라며, 글을 마칩니다!

저작자표시 비영리 변경금지 (새창열림)

'DevOps > Cloud' 카테고리의 다른 글

GCP Multi Project에 대한 IRSA 구성하기 (0)	2024.09.03
GKE와 Cloud Load Balancing 연결하기 (1)	2024.07.15

Airflow를 쿠버네티스에 운영하기 위한 고민

2025. 6. 26. 19:48

회사에서 DataOps를 위해 Airflow를 구성하고, 안정적인 운영 환경을 제공해야 하는 태스크가 있었다.
요즘 같은 세상에 컨테이너 혹은 Kubernetes 차트 등을 이용하여 편하게 배포할 수 있지만, DevOps로써는 보다 많은 고민이 필요했고, 본 글은 Airflow 운영 3개월차가 작성하는 다른 누군가에게 도움이 되기를 기대하며, 또 미래의 내가 찾아 볼 수 있는 하나의 기록으로써 남기는 글이다.

Managed Workflow Apache Airflow vs EKS

SaaS 형태의 Apache Airflow를 이용하는 것은 실질적으로 Apache Airflow를 모르는 상태에서 운영하게 될것으로 예상했다.
- 놀랍게도 이는 SaaS를 이용하는 대다수의 이유기도 하지만, 우리 회사의 경우 데이터 사업 회사기 때문에 ETL 파이프라인을 잘 모르는 상태로 배포하는 것은… (이하생략)
또한 MWAA에 대해 찾아보니, 커스터마이징이 생각보다 까다롭고 문제가 발생했을 때 추적이 어렵다는 후기들을 보고 온프레미스로 배포하기로 결정했다.
- 그리고 비용…😂

Airflow의 Executor를 무엇으로 선택하는게 좋을까?

Celery Executor vs Kubernetes Executor
Celery Executor의 경우 등록된 워커의 리소스를 이용하여 워크플로우를 처리한다. 이 경우 “워커 관리”라는 관리 지점이 생기고 워커의 자원에 따라 태스크 실행이 제한될 수 있다.
- N 대의 워커 운용
- 분산된 워커 환경에 대한 관리
- 워커 failover
- concurrency 제한
이러한 이유로 인해 Kubernetes Executor를 선택하여 DAG를 처리하는 방안을 선택했다.
- DAG 실행 시 각 Task에 대한 Pod가 생성되기 때문에,, 워커의 실패가 없다.
- Cluster Autorscaler (Karpenter)를 통한 능동적인 워커 자원 관리
- Airflow 환경 설정 = concurrency 설정 → 워커로 부터 자유롭다.

Kubernetes Executor, 조금 더 섬세하고 자유롭게 운영하고 싶은데..

Kubernetes Executor는 Pod Template을 통해 Task를 실행할 Pod의 스펙을 정할 수 있다. 이를 통해 목적별, 작업별, 심지어 그룹별로 Pod가 실행될 템플릿을 미리 정하고, executor_config을 통해 template을 지정하여 사용할 수 있다.
- 이에 따라서 Spot Instance, GPU, CPU, CPU Architecture, 그리고 자원량 까지 정할 수 있다.
- Pod Template에 대해 Airflow Pool을 지정한다면, 더 멋진 관리가 가능하다.
Airflow를 Kubernetes와 이용한다면 Kubernetes Pod Operator라는 것을 접하게 되는데, 나는 사용하지 않기로 했다.
1. Kubernetes Pod Operator의 “격리된 실행 환경”을 보장하라는 철학에 따라 Kubernetes Executor의 작업을 처리하기 위해 생성된 Task Pod와는 별개로… 또 하나의 Pod가 생성되어 처리된다. 즉.. 하나의 Task에 두 개의 Pod가 생성된다. 이는 불필요한 자원낭비로 이어질 수 있다.
2. 보기도 힘들고.. 심지어 둘 간의 의존성이 혹시라도 끊어진다면, 작업의 유실로 이어지기 때문에.. Kubernetes Executor만 사용하기로 했다.
그렇다고 KPO 자체에 의문을 갖는것은 아니다. 일반화 할순 없지만, 분명 더욱 세분화 해야 하는 작업이 있을것이고 이에 따라 따른 세밀한 제어가 필요할 때 사용할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'DevOps > Kubernetes' 카테고리의 다른 글

네트워크로 시작하는 쿠버네티스 - kube proxy (0)	2024.12.19
네트워크로 시작하는 쿠버네티스 - iptables, ipvs, ipip, vxlan (1)	2024.12.03
네트워크로 시작하는 쿠버네티스 - 컨테이너 통신, 도커 네트워크 (0)	2024.11.21
네트워크로 시작하는 쿠버네티스 - 컨테이너간 통신, Network Namespace (2)	2024.11.14
네트워크로 시작하는 쿠버네티스 - 내가 데이터를 보낸다면 (5)	2024.11.14

쿠버네티스가 쉬워지는 컨테이너 이야기가 어렵다면 - cgroup, cpu 편

2024. 11. 11. 10:43

컨테이너에 대해 공부를 해야겠다는 생각, 그리고 숙제로 미루어 왔던 Control Group에 대해 공부하자는 계획을 세운 뒤 꽤나 오랜 시간이 흘렀습니다. 링크드인의 글을 눈팅하던 중 우연히 “쿠버네티스가 쉬워지는 컨테이너이야기 시리즈” 게시글을 보게 되었고, 해당 글을 바탕으로 공부를 시작했습니다.

앞으로 작성할 cgroup 관련 게시글은 해당 글을 바탕으로 컨테이너에 대한 이해도를 높이고자 작성한 글 입니다.

원글의 출처는 아래와 같습니다.

쿠버네티스가 쉬워지는 컨테이너 이야기 — cgroup, cpu편 (https://medium.com/@7424069/쿠버네티스가-쉬워지는-컨테이너-이야기-cgroup-cpu편-c8f1e2208168), 천강진 님

이 글이 도움 될 사람

쿠버네티스가 쉬워지는 컨테이너 이야기 시리즈를 읽었지만 이해가 안되는 부분이 있는 사람
컨테이너가 리눅스의 union filesystem, cgroup, namespace를 이용해 만들어지는 것을 알고 있는 사람
cgroup이 단순히 자원을 격리한다는 것만 알고 있는 사람

본 글의 마지막 부분에는 천강진 님의 이번 글의 대상이 아닌 독자에 대한 개인적인 견해를 작성해 놓았습니다.

컨테이너

컨테이너는 리눅스의 union fs (overlayfs), cgroup, namespace를 이용하여 host os의 메인 워크로드와 격리된 워크로드를 제공하는 가상화 솔루션입니다.

union filesystem을 이용하여 애플리케이션을 실행하기 위한 운영체제 환경부터 시작하여 서비스 바이너리까지 레이어로 나뉘어진 하나의 통합된 파일 시스템을 제공하여 언제 어디서든 동일한 환경을 제공하고 namespace를 이용하여 애플리케이션 프로세스를 격리하여 독립된 환경을 제공할 수 있다면,

control group은 이렇게 격리된 환경, 그리고 언제나 동일한 애플리케이션을 실행하기 위한 리눅스 프로세스 그룹에 시스템 자원을 격리, 할당하여 제어할 수 있도록 해 줍니다.

정리하자면,

Union Filesystem을 통해 low layer, upper layer, merged view를 통해 레이어화 된 애플리케이션 실행에 필요한 파일시스템을 제공하고
Namespace를 통해 애플리케이션의 실행 환경을 분리하며
Control Group을 통해 애플리케이션 실행에 필요한 하드웨어 자원을 격리, 제한하여 독립된 환경에서 안정적으로 실행될 수 있도록 하는 가상화 기술입니다.

“천강진”님의 시리즈를 읽으면서 Control Group을 이해한다면 컨테이너 환경에서의 안정적으로 하드웨어 자원을 제공할 수 있을 뿐 아니라, 애플리케이션에 어떤 현상 혹은 문제가 발생했을 때 조금 더 넓은 각도에서 원인을 분석하고 문제를 해결할 수 있을 것이라 느꼈습니다.

Control Group은 /sys/fs/cgroup 아래에 논리 제어 그룹을 확인할 수 있으며 루트 제어 그룹 아래에 자식 제어 그룹이 존재하는 형태입니다. 새로운 논리 그룹을 생성하려면 대상의 루트, 혹은 자식 제어 그룹에 폴더를 생성하면 됩니다.

출처: 쿠버네티스가 쉬워지는 컨테이너 이야기 — cgroup, cpu편, 천강진님

A라는 논리 그룹을 새롭게 만들 경우, 리눅스 시스템에 의해 해당 디렉토리 아래에 자동으로 다음과 같은 구조가 추가됩니다.

단순히 논리 그룹을 만듦으로써 프로세스 격리된 제어 그룹 공간을 활용하는 것은 아닙니다. 생성된 제어 그룹에 실행중인 프로세스의 ID를 할당함으로써 실질적인 제어 그룹을 이용하게 됩니다.

물론 아직 제어 그룹에 대해 자원에 대한 제한을 설정하지 않았기 때문에 아직은 루트 제어 그룹을 그대로 따르는 상태입니다.

Docker의 Control Group과 CPU

잠깐! macOS의 경우 /sys/fs/cgroup을 찾을 수 없습니다. 아래의 명령어를 통해 host의 /sys/fs/cgroup을 확인할 수 있는 컨테이너를 실행해 주세요.

docker run --rm -d -it \
  --privileged --pid=host \
  --name cgroup-host \
  justincormack/nsenter1

예제에서 사용된 컨테이너의 경우 아래 명령어로 생성할 수 있습니다.

docker run -d --rm --privileged --name cgroup docker:27.3.1-dind-alpine3.20

도커는 컨테이너를 생성할 때, 하나의 논리 제어 그룹을 생성합니다. 도커를 운영중인 환경에서 /sys/fs/cgroup을 확인해보면 아래와 같이 docker 디렉토리가 존재하는 것을 확인할 수 있습니다.

/sys/fs/cgroup # ls
cgroup.controllers               cpu.weight.nice                  memory.low
cgroup.events                    cpuset.cpus                      memory.max
cgroup.freeze                    cpuset.cpus.effective            memory.min
cgroup.kill                      cpuset.cpus.exclusive            memory.oom.group
cgroup.max.depth                 cpuset.cpus.exclusive.effective  memory.peak
cgroup.max.descendants           cpuset.cpus.partition            memory.reclaim
cgroup.procs                     cpuset.mems                      memory.stat
cgroup.stat                      cpuset.mems.effective            memory.swap.current
cgroup.subtree_control           **docker**                           memory.swap.events
cgroup.threads                   **init.scope**                       memory.swap.high
cgroup.type                      io.max                           memory.swap.max
cpu.idle                         io.stat                          memory.swap.peak
cpu.max                          **k3s**                              pids.current
cpu.max.burst                    memory.current                   pids.events
cpu.stat                         memory.events                    pids.events.local
cpu.stat.local                   memory.events.local              pids.max
cpu.weight                       memory.high                      pids.peak
/sys/fs/cgroup #

이후 docker 아래의 경로를 확인해보면, 실제로 실행중인 container id 이름으로 제어 그룹이 각각 생성되어 있는것 또한 확인할 수 있습니다.

/sys/fs/cgroup # cd docker
/sys/fs/cgroup/docker # ls
5d16df9b31de84920181fc18e72b4fb5725c9353b3b27f5a758e41cbb039eb54
b1a5dc151e15a4373d30adbc920e8e9ced70e1632d3027c2c4acc55efaeb2395
ba834863df92a0f9919c98e4829d6fb8a4dbdf66e81507f103e75dd710a4c566
cgroup.controllers
cgroup.events
cgroup.freeze
cgroup.kill
cgroup.max.depth
cgroup.max.descendants
cgroup.procs
cgroup.stat
cgroup.subtree_control
cgroup.threads
cgroup.type
cpu.idle
cpu.max
cpu.max.burst
cpu.stat
cpu.stat.local
cpu.weight
cpu.weight.nice
cpuset.cpus
cpuset.cpus.effective
cpuset.cpus.exclusive
cpuset.cpus.exclusive.effective
cpuset.cpus.partition
cpuset.mems
cpuset.mems.effective
e1277fe09be51e878f1b38bb4936982295c68f1f0b0429f9c4ab8319494cc6a5
io.max
io.stat
memory.current
memory.events
memory.events.local
memory.high
memory.low
memory.max
memory.min
memory.oom.group
memory.peak
memory.reclaim
memory.stat
memory.swap.current
memory.swap.events
memory.swap.high
memory.swap.max
memory.swap.peak
pids.current
pids.events
pids.events.local
pids.max
pids.peak
/sys/fs/cgroup/docker #

아래는 Host OS에서 docker ps 명령어를 입력했을 때 보이는 컨테이너 입니다.

$ docker ps
CONTAINER ID   IMAGE                           COMMAND                   CREATED         STATUS         PORTS                                                  NAMES
b1a5dc151e15   justincormack/nsenter1          "/usr/bin/nsenter1"       3 minutes ago   Up 3 minutes                                                          cgroup-host
e1277fe09be5   docker:27.3.1-dind-alpine3.20   "dockerd-entrypoint.…"    7 minutes ago   Up 7 minutes   2375-2376/tcp                                          cgroup
5d16df9b31de   mysql:8.0                       "docker-entrypoint.s…"    4 days ago      Up 7 minutes   0.0.0.0:3306->3306/tcp, :::3306->3306/tcp, 33060/tcp   mysql
ba834863df92   redis:7.4                       "docker-entrypoint.s…"    4 days ago      Up 7 minutes   0.0.0.0:6379->6379/tcp, :::6379->6379/tcp              redis

우리가 생성한 예제의 경우 e1277fe09be5로 실행되고 있는 것을 확인할 수 있으며, 현재 아무 자원 제한을 두지 않았기 때문에 cpu의 max, 가중치를 Host OS에서 확인해 봤을 때 모두 기본 값임을 확인할 수 있습니다.

/sys/fs/cgroup/docker # cat e1277fe*/cpu.weight
100
/sys/fs/cgroup/docker # cat e1277fe*/cpu.max
max 100000
/sys/fs/cgroup/docker # cat e1277fe*/cpu.stat
usage_usec 2073096
user_usec 1489344
system_usec 583751
nr_periods 0
nr_throttled 0
throttled_usec 0
nr_bursts 0
burst_usec 0

컨테이너를 실행할 때 cpu 할당량을 설정한다면 아래와 같은 변화를 확인할 수 있습니다.

$ docker stop cgroup
$ docker run -d --rm --privileged --cpus 0.5 --name cgroup docker:27.3.1-dind-alpine3.20
8292ce42483c59539655d0f727d771cadee933a91c74fe92b53feec96a0b31cd

아래 코드는 Host OS에서 실행한 결과입니다.

/sys/fs/cgroup/docker # cat 8292ce*/cpu.weight
100
/sys/fs/cgroup/docker # cat 8292ce*/cpu.max
50000 100000
/sys/fs/cgroup/docker # cat 8292ce*/cpu.stat
usage_usec 1927030
user_usec 1741681
system_usec 185349
nr_periods 113
nr_throttled 35
throttled_usec 1735216
nr_bursts 0
burst_usec 0

control group에서, 다시 말해 컨테이너에서 cpu 자원을 제한한다는 의미는 CPU 스케줄링에 있어서 얼만큼 자원을 선점할 수 있느냐를 의미하는데, 다시 말해 --cpus 0.5를 설정하는 행위는 100ms 동안 50ms를 선점할 수 있다는 것을 의미하게 됩니다.

해당 부분이 이해되지 않으신다면, 운영 체제의 CPU 스케줄링에 대해 찾아보시면 좋을것 같습니다.

만약 1개를 넘어가면 어떻게 될까요? 간단하게 하기 위해 cpu 개수를 2로 할당한다면, 다음과 같은 결과가 나오게 됩니다.

$ docker stop cgroup
$ docker run -d --rm --privileged --cpus 2 --name cgroup docker:27.3.1-dind-alpine3.20
68b5952c3487249c14eb48c9649d916475ae7d4593386c9e234d90ba0a92d9f1

---

/sys/fs/cgroup # cd docker
/sys/fs/cgroup/docker # cat 68b5952*/cpu.max
200000 100000

$ docker stop cgroup
$ docker run -d --rm --privileged --cpus 2 --name cgroup docker:27.3.1-dind-alpine3.20
68b5952c3487249c14eb48c9649d916475ae7d4593386c9e234d90ba0a92d9f1

---

/sys/fs/cgroup # cd docker
/sys/fs/cgroup/docker # cat 68b5952*/cpu.max
200000 100000

100ms 동안 200ms를 선점할 수 있다는 것이 이상하다 느껴질 수 있습니다.

실제 애플리케이션이 동작하는 환경은 다수의 CPU를 가지는 환경이기 때문에, 단일 CPU의 환경이 아닌 이상 여러 CPU를 통해 각각 100%를 선점하여 200ms를 달성하게 됩니다.

그렇기 때문에 컨테이너 플랫폼 혹은 오케스트레이션 환경에서 cpu 자원을 요청하거나 제한할 때 실제 cpu의 core 수를 넘어서 요청할 수 없게 됩니다.

쿠버네티스의 cpu.weight (cpu.shares)

cpu.weight은 control group을 통해 생성하는 프로세스의 cpu 가중치를 설정할 수 있습니다. 일반적으로 도커, crio 등 컨테이너 플랫폼 환경을 실행한다면 cpu.weight은 일반적으로 100으로 설정되는 것을 확인할 수 있습니다. 이 경우 “천강진”님의 예제를 통해 cpu.weight을 쉽게 이해하실 수 있습니다.

하지만 실제 컨테이너 오케스트레이션 환경(쿠버네티스 등)이나 SaaS, PaaS로 제공되는 환경의 경우 cpu.weight 값이 100으로 설정되어 있지 않는 경우도 있는데, 이 경우 실행하는 서비스 혹은 환경에 의해 cpu.weight 값이 계산되어 할당됩니다. 이는 실제 CPU 리소스를 할당할 때 상대적인 CPU 우선순위를 설정하는 cpu.weight의 특징이자 영향을 받았기 때문입니다.

아래는 온프레미스 환경에 쿠버네티스를 설치하고 제어 그룹 디렉토리로 이동했을 때의 상태입니다. 아직 아무 파드도 설치하지 않았으며, crio v1.31과 쿠버네티스 1.31.2를 설치한 직후의 상태입니다.

root@worker1:/sys/fs/cgroup # ls
A                       cgroup.procs            cpu.pressure           dev-hugepages.mount  io.cost.qos    kubepods.slice    misc.capacity                  sys-kernel-debug.mount
cgroup.controllers      cgroup.stat             cpu.stat               dev-mqueue.mount     io.pressure    memory.numa_stat  proc-sys-fs-binfmt_misc.mount  sys-kernel-tracing.mount
cgroup.max.depth        cgroup.subtree_control  cpuset.cpus.effective  init.scope           io.prio.class  memory.pressure   sys-fs-fuse-connections.mount  system.slice
cgroup.max.descendants  cgroup.threads          cpuset.mems.effective  io.cost.model        io.stat        memory.stat       sys-kernel-config.mount        user.slice
root@worker1:/sys/fs/cgroup # cat kubepods.slice/cpu.weight
79

쿠버네티스의 경우 cpu.weight의 값이 79인 이유는 Control Group V1에서 V2로 넘어오면서 cpu.shares를 cpu.weight로 변환하는 과정에서 스케일링이 발생했기 때문입니다.

cpu.shares는 실질적으로 가중치를 할당하여 사용한다기 보다 cpu.shares가 설정된 제어 그룹 간의 비율을 바탕으로 CPU 자원을 나눠 사용할 수 있게 됩니다. 즉 cpu.shares가 512, 1024, 2048로 설정되어 있다면, 1:2:4의 비율로 cpu 자원을 할당받아 사용할 수 있게 됩니다. cpu.shares의 최대 값은 2^18 - 2인 262142를 갖습니다.
- control group v1 에서 cpu.shares는 최대 값은 이론상 2^32를 갖지만, 시스템의 안정성 등을 위해 최대 값을 2^18로 제한하고 있습니다.
- 실제로 Ubuntu 등 Linux 계열의 cpu.shares의 옵션을 보면 [2, 262144] 값을 가지고 있습니다.
- 2를 빼는 이유는 cpu.shares의 최소값인 2를 보장하기 위함입니다.
이러한 cpu.shares를 [1, 10000]의 범위를 갖는 cpu.weight로 변환하기 위해서는 다음의 식이 사용됩니다.
- 1 + ((cpu shares - 2) * [cpu.weight의 맥스 - 최소값] ) / [cpu.shares의 맥스 - 최소값]
- 1 + ((cpu shares - 2) * 9999) / 262142
- 이 때 1을 더해주는 이유는 int 값이기 때문에 버려지는 값을 보완하기 위함입니다.
cpu.weight 값을 새롭게 스케일링 한 것이 아니라, cpu.shares와 최대한 유사한 값을 제공하기 위한 식입니다.

이를 바탕으로 2 개의 vCPU (CPU 코어)를 갖는 쿠버네티스 환경에서는 1 + (( 2048 - 2 ) * 9999 ) / 262142 값인 79를 도출하게 됩니다.

쿠버네티스 관련 코드 → https://github.com/kubernetes/kubernetes/blob/release-1.27/pkg/kubelet/cm/cgroup_manager_linux.go#L312

자 그렇다면 이제 실질적으로 resources.requests.cpu를 설정하여 파드를 배포해서 확인해 봅시다.

apiVersion: v1
kind: Pod
metadata:
  name: a
  namespace: default
spec:
  containers:
  - image: busybox
    command:
      - sleep
      - "3600"
    imagePullPolicy: IfNotPresent
    name: busybox
    resources:
      requests:
        cpu: 250m
  restartPolicy: Always
  nodeSelector:
    kubernetes.io/hostname: worker1

위 yaml을 바탕으로 pod를 배포하게 되면 cpu.weight의 값은 얼마가 될지 한번 고민해 봅시다.

우리는 전체 CPU shares인 2048에 대해 250m을 요청했고, 2개의 코어를 갖는 노드에서 CPU Weight는 79를 갖고 있습니다. 즉 250 / 2048 만큼 요청했고, 79의 가중치를 갖기 때문에 다음과 같은 식을 갖는다고 예상할 수 있습니다.

1 + 250 / 2048 * 79 ~= 9.6 (10)

이를 직접 워커 노드의 /sys/fs/cgroup을 통해 확인해봅시다.

root@worker1:~# crictl ps
CONTAINER           IMAGE                                                                                                     CREATED             STATE               NAME                ATTEMPT             POD ID              POD
**8a6b6f7c79ece       27a71e19c95622dce4d60d4a3760707495c9875f5c5322c5bd535214799593ce                                          29 minutes ago      Running             busybox             0                   c063f7c199d23       a**
9f61aea39bdf1       registry.k8s.io/coredns/coredns@sha256:f0b8c589314ed010a0c326e987a52b50801f0145ac9b75423af1b5c66dbd6d50   13 hours ago        Running             coredns             0                   fb79be5137b43       coredns-7c65d6cfc9-k65k4
89986ea9962fa       registry.k8s.io/coredns/coredns@sha256:f0b8c589314ed010a0c326e987a52b50801f0145ac9b75423af1b5c66dbd6d50   13 hours ago        Running             coredns             0                   220bc9ce4e46f       coredns-7c65d6cfc9-hrx2k
f34df68b00d35       registry.k8s.io/kube-proxy@sha256:22535649599e9f22b1b857afcbd9a8b36be238b2b3ea68e47f60bedcea48cd3b        13 hours ago        Running             kube-proxy          0                   90179e9aaf2f6       kube-proxy-mb9f7

root@worker1:~# crictl inspect 8a6b6f7 | grep "pid"
    "pid": 16120,
    
root@worker1:~# find /sys/fs/cgroup -name cgroup.procs -exec grep -H 16120 {} \\;
/sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod10e59c76_03e0_447b_bbc0_d66f7ffe0583.slice/crio-8a6b6f7c79ece337d02b1ebdf1fe7984d18c2bb829aa2c75cfed19e18e166fbc.scope/container/cgroup.procs:16120

root@worker1:~# cd /sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod10e59c76_03e0_447b_bbc0_d66f7ffe0583.slice/crio-8a6b6f7c79ece337d02b1ebdf1fe7984d18c2bb829aa2c75cfed19e18e166fbc.scope
root@worker1:/sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod10e59c76_03e0_447b_bbc0_d66f7ffe0583.slice/crio-8a6b6f7c79ece337d02b1ebdf1fe7984d18c2bb829aa2c75cfed19e18e166fbc.scope# cat cpu.weight
10

우리가 계산한 9.6 + 1 = 10.6에 대한 10의 값이 정상적으로 출력되는 것을 확인할 수 있습니다.

혹시 모르니 resources.requests.cpu를 500m으로 설정하고 다시 확인해 봅시다.

root@master1:~/k8s/pods# cat a.yaml
apiVersion: v1
kind: Pod
metadata:
  name: a
  namespace: default
spec:
  containers:
  - image: busybox
    command:
      - sleep
      - "3600"
    imagePullPolicy: IfNotPresent
    name: busybox
    resources:
      requests:
        cpu: 500m
  restartPolicy: Always
  nodeSelector:
    kubernetes.io/hostname: worker1
root@master1:~/k8s/pods# kubectl apply -f a.yaml
pod/a created
---
root@worker1:~# crictl ps
CONTAINER           IMAGE                                                                                                     CREATED             STATE               NAME                ATTEMPT             POD ID              POD
**1618ac0f6157d       27a71e19c95622dce4d60d4a3760707495c9875f5c5322c5bd535214799593ce                                          18 seconds ago      Running             busybox             0                   cfbb9f68873cf       a**
9f61aea39bdf1       registry.k8s.io/coredns/coredns@sha256:f0b8c589314ed010a0c326e987a52b50801f0145ac9b75423af1b5c66dbd6d50   13 hours ago        Running             coredns             0                   fb79be5137b43       coredns-7c65d6cfc9-k65k4
89986ea9962fa       registry.k8s.io/coredns/coredns@sha256:f0b8c589314ed010a0c326e987a52b50801f0145ac9b75423af1b5c66dbd6d50   13 hours ago        Running             coredns             0                   220bc9ce4e46f       coredns-7c65d6cfc9-hrx2k
f34df68b00d35       registry.k8s.io/kube-proxy@sha256:22535649599e9f22b1b857afcbd9a8b36be238b2b3ea68e47f60bedcea48cd3b        13 hours ago        Running             kube-proxy          0                   90179e9aaf2f6       kube-proxy-mb9f7

root@worker1:~# crictl inspect 1618ac0f | grep "pid"
    "pid": 16906,
            "type": "pid"
          "pids": {

root@worker1:~# find /sys/fs/cgroup -name cgroup.procs -exec grep -H 16906 {} \\;
/sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod089ebf2e_1909_430e_aad6_14f1ff19455b.slice/crio-1618ac0f6157df7b07558d8507856af3a5707cb941ef923786bd8d09ba259b4b.scope/container/cgroup.procs:16906

root@worker1:~# cd /sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod089ebf2e_1909_430e_aad6_14f1ff19455b.slice/crio-1618ac0f6157df7b07558d8507856af3a5707cb941ef923786bd8d09ba259b4b.scope
root@worker1:/sys/fs/cgroup/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-pod089ebf2e_1909_430e_aad6_14f1ff19455b.slice/crio-1618ac0f6157df7b07558d8507856af3a5707cb941ef923786bd8d09ba259b4b.scope# cat cpu.weight
20

예상값: 1 + 500 / 2048 * 79 = 20.28 ( 20 )
실제값: 20
450m → 18 (17.35 + 1)

이번 글의 대상이 아닌 독자

k8s는 왜 CPU를 압축 가능한 자원으로 보는가?
- CPU Core에 대한 실행시간, 즉 스케줄링에 대해 가중치를 바탕으로 할당하기 때문에 탄력적으로 조절 가능하기 때문.
쿠버네티스에서 CPU requests/limits는 어떤 의미인가?
- CPU requests는 cpu weight을 기반으로 “상대적으로” 컨테이너가 보장받을 수 있는 최소 CPU 자원을 설정한다.
  - 예를 들어, 전체 가중치가 100일 때 두 애플리케이션에 각각 50의 가중치가 설정되면, 각 애플리케이션은 최소 50%의 CPU 시간을 보장받는다.
    - 하나의 애플리케이션만 존재할 경우, 우리가 알고 있는 스케줄링 정책과 같이 자원을 더 많이 사용할 수 있다.
  - 만약 50의 가중치를 가진 애플리케이션이 세 개 존재한다면, 피크 타임에 모두 50%의 CPU를 요청하여 병목 현상이 발생할 수 있다.
    - 하지만 쿠버네티스는 스케줄링 정책에서 세 번째 Pod를 Pending 상태로 유지한다.
- CPU limits는 컨테이너가 사용할 수 있는 최대 CPU 시간을 의미한다. CPU 사용량은 이 limits을 초과할 수 없다.
- 그렇기 때문에 쿠버네티스 환경에서는 CPU requests만 설정해도 충분한 경우가 많다.
  - 이는 전체 가중치 중 각 애플리케이션의 requests 비율에 따라 CPU 시간이 할당되기 때문이다.
  - 따라서 limits을 불필요하게 설정하여 애플리케이션에 인위적인 병목 현상을 만들 필요는 없다.
    - 어차피 각 비율에 따라 가질수 있는 최대 CPU 타임은 정해져있다.
  - 다만 쿠버네티스의 QoS 정책에 따라 Guaranteed로 사용하기 위해 limits을 설정하는게 좋다.
컨테이너의 CPU 사용률은 어떻게 측정되는가? ( by 천강진 님 )

/sys/fs/cgroup/C # cat cpu.stat
usage_usec 0     # CPU 총 사용 시간(마이크로초 단위)
user_usec 0      # 사용자 모드에서 실행된 시간
system_usec 0    # 커널 모드에서 실행된 시간

### 아래 값은 cpu.max에 MAX(QUOTA)가 설정된 경우 증가
nr_periods 0     # 스케줄러에 의해 CPU가 할당된 횟수
nr_throttled 0   # 사용 가능한 CPU 시간을 초과 또는 남은 시간이 부족하여 쓰로틀링에 걸린 횟수
throttled_usec 0 # 쓰로틀링 걸린 시간

### 아래 값은 cpu.max.burst가 설정된 경우 증가
nr_bursts 0      # CPU 버스트 모드로 전환된 횟수
burst_usec 0     # 버스트 모드에서 사용한 시간

last_cpu_usage_us = [cpu.stat의 usage_usec]
last_time_us = [현재 시간 마이크로초]

N초 휴식

curr_cpu_usage_us = [cpu.stat의 usage_usec]
curr_time_us = [현재 시간 마이크로초]

delta_cpu_usage_us = curr_cpu_usage_us - last_cpu_usage_us
delta_time_us = curr_time_us - last_time_us

print(f"CPU 사용률: {delta_cpu_usage_us / delta_time_us * 100:.2f}%")

CPU 사용률이 100%가 아닌데 왜 throttled 상태가 되는가?
- cpu.max에 설정된 CPU 시간을 초과할 수 있기 때문
일정량의 RPS 또는 TPS가 목표일 때, 내 어플리케이션에 적용해야할 CPU 값은 어떻게 알 수 있는가?
- 성능 테스트를 통해 CPU 자원 사용량을 계산해야 한 뒤, 목표 값에 도달하기 위해 얼마나 필요할지 예측할 수 있다.
- 예를 들어 1350 RPS가 목표이고, 1000 RPS (TPS)를 처리할 때 0.5 vCPU가 사용되었다면 0.675 vCPU가 필요한 것을 알 수 있다. ( 1350 / 1000 ) * 0.5
- 실제 vCPU를 할당할 때는 이보다 넉넉하게 할당하도록 하자.
k8s에서 CPU와 관련된 추가 기능은 무엇이 나올 수 있을까?
- 자식 프로세스와 관련된 기능 ?
  - address space를 공유할 수 있을것 같고
  - CPU의 근본적인 것에 가까워지는 느낌이라, 부모 - 자식 process…….
컨테이너 환경은 CPU 활용에 있어 어떤 문제가 있는가?
- Host OS를 이용한다는 점
  - 가상 머신의 경우 일반적으로 하드웨어적으로 격리된 자원을 보장받지만
  - 컨테이너는 그렇지 않기 때문에 발생할 수 있는
  - 자원 이슈
7번의 문제는 특정 애플리케이션을 컨테이너로 올리는데 문제가 되는가?
- Host OS에 영향을 줄 수 있는 만큼의 연산을 필요로 하는 애플리케이션
  - 우리가 자원량을 설정하지 않는다면 문제가 되지 않을까?

참고

저작자표시 비영리 변경금지 (새창열림)

'DevOps > Kubernetes' 카테고리의 다른 글

네트워크로 시작하는 쿠버네티스 - kube proxy (0)	2024.12.19
네트워크로 시작하는 쿠버네티스 - iptables, ipvs, ipip, vxlan (1)	2024.12.03
네트워크로 시작하는 쿠버네티스 - 컨테이너 통신, 도커 네트워크 (0)	2024.11.21
네트워크로 시작하는 쿠버네티스 - 컨테이너간 통신, Network Namespace (2)	2024.11.14
네트워크로 시작하는 쿠버네티스 - 내가 데이터를 보낸다면 (5)	2024.11.14

GCP Multi Project에 대한 IRSA 구성하기

2024. 9. 3. 10:43

안녕하세요, 짧은머리 개발자입니다.

클라우드는 보안이 매우 중요한 환경인데요, 오늘은 Google Cloud Platform에서 관리중인 여러 프로젝트간 서비스 접근을 어떻게 구성하는지 공유하려 해요.

클라우드는 서비스로 제공하는 XaaS에 대한 접근을 제어할 수 있도록 IAM을 제공하는데 AWS, GCP와 같은 거대 클라우드는 IAM Role for Service Account(IRSA)라 불리는 메커니즘을 통해 더 세밀한 제어를 가능하게 해요.

이름에서 유추할 수 있듯이 서비스 계정을 위한 IAM 역할을 부여함으로써 그 메커니즘이 동작해요.

GCP의 서비스에 등록된 Service Account는 구글의 메타데이터 서버를 통해 자격 증명에 접근하고, 필요한 토큰을 관리해요.

이전에 작성한 Github과 같이 GCP 외부에서 접근하는 경우에는 Security Token Services를 통해 단기 자격을 증명해주는 토큰을 발급받아야 하고, 이 때 roles/iam.serviceAccountTokenCreator과 같은 역할이 추가로 필요해요.

GCP는 구조를 계정 수준 리소스부터 서비스 수준 리소스로 나누어 관리할 수 있는데, 베스트 프랙티스로 GCP 내부에 생성할 그 구조를 회사의 조직 구조와 일치하게 만드는 것을 권장해요.

https://cloud.google.com/resource-manager/docs/cloud-platform-resource-hierarchy?hl=ko

이는 곧 분리되어 있는 프로젝트 간 배포된 서비스간 접근을 허용해야 하는 경우가 발생할 수 있어요.

제가 수행했던 프로젝트의 경우에도 분리되어있는 프로젝트간 버킷에 접근해야 할 필요가 있었는데요, 이를 어떻게 구성했는지 공유하려 해요.

프로젝트 구성은 위와 같은 형태로, Project A에서 동작중인 Application A는 Project B의 Bucket B의 오브젝트에 접근할 수 있어야 하며, Bucket B는 Private하며 IAM을 통해 접근을 제한하고 있어요.

이를 해결하기 위해 우리는 싱글 프로젝트와 같이 Project A의 Application A에 서비스 계정을 추가한 뒤, Project B의 IAM을 구성해줘야 해요.

이 때 Project B에서 bucket-sa@project-a.iam.gserviceaccount.com 서비스 계정이 가져야할 역할은 다음과 같아요.

Bucket B에서 행할 작업에 따른 Storage 접근 권한, roles/storage.objectViewer

💡 roles/iam.serviceAccountUser의 경우, 특정 사용자 혹은 서비스 계정이
bucket-sa와 같이 IAM 역할을 갖는 서비스 계정으로 가장(impersonate)해야 할 때 필요해요.
이 경우에는 Application에 부착된 서비스 계정이 직접적으로 사용하기 때문에 필요하지 않아요.

여기까지 수행하고 나면 RBAC이 구성되고, Application A에서 Bucket B에 정상적으로 접근할 수 있어요.

그런데 만약 Project B에 Bucket B 말고 여러 버킷이 존재한다며면, bucket-sa 서비스 계정을 이용해서 모든 버킷에 접근 가능하게 돼요. 이는 보안상 매우 취약한 설정이며, 따라서 Attribute Based Access Control(ABAC)을 구성해야 해요.

ABAC은 이름에서 유추할 수 있듯 속성 기반의 접근 제어 메커니즘이에요. 기존의 bucket-sa 서비스 계정은 역할을 기반으로 Bucket B에 접근 가능하도록 구성했다면, 여기에 속성을 추가하여 더 세밀한 제어를 할 수 있어요.

우리에게 필요한 세밀한 제어는 다음과 같아요.

Bucket B에 접근할 수 있어야 한다.
Bucket B 내부의 오브젝트를 볼 수 있어야 한다.
Bucket B 내부의 디렉토리 구조를 볼 수 있어야 한다.

이를 해결하기 위해 GCP는 IAM 역할에 조건을 설정할 수 있고, 역할의 조건에 필요한 리소스 유형과 리소스 이름은 다음 링크에서 확인할 수 있어요.

리소스 유형: https://cloud.google.com/iam/docs/conditions-resource-attributes?hl=ko#resource-type
리소스 이름: https://cloud.google.com/iam/docs/conditions-resource-attributes?hl=ko#resource-name

우리에게 필요한 속성을 정리하면 다음과 같아요.

# 허용할 서비스 계정
member = "bucket-sa@project-a.iam.gserviceaccount.com"

# 허용할 역할
roles = [
  "roles/storage.objectViewer",
]

# 역할 + 대상 = 서비스 계정이 접근할 수 있는 대상
target_resources = [
  # 버킷의 이름이 bucket-b와 같아야 한다.
  {
    type   = "storage.googleapis.com/Bucket",
    name   = "projects/_/buckets/bucket-b"
    option = "equal"
  },
  # 접근하고자 하는 오브젝트는 bucket-b의 objects여야 한다.
  {
    type = "storage.googleapis.com/Object",
    name   = "projects/_/buckets/bucket-b/objects/"
    option = "startsWith"
  },
  # 접근하고자 하는 폴더는 bucket-b의 관리형 폴더여야 한다.
  {
    type = "storage.googleapis.com/ManagedFolder",
    name   = "projects/_/buckets/bucket-b/managedFolders/"
    option = "startsWith"
  }
]

버킷 뿐만 아니라 다른 XaaS에 대한 접근이 필요할 때도 위와 같이 서비스 계정을 구성한다면 프로젝트간 IRSA를 구성할 수 있어요.

오늘도 읽어주셔서 감사합니다.

저작자표시 비영리 변경금지 (새창열림)

'DevOps > Cloud' 카테고리의 다른 글

로컬 환경에서의 AWS API 호출을 위한 임시 자격 증명 시스템 구축기 (2)	2025.08.06
GKE와 Cloud Load Balancing 연결하기 (1)	2024.07.15

CI/CD 파이프라인 자동화 및 Deploy 분리하기

2024. 8. 16. 09:18

안녕하세요, 짧은머리 개발자에요.

오늘은 초기 스타트업인 회사에서 CI/CD 파이프라인을 도입하고 이에 대한 정책 결정에 대한 고민과 솔루션을 공유하려 해요.

우선 제가 입사하기 전까지 회사는 데브옵스 엔지니어가 없었기에 CI/CD 파이프라인 마찬가지로 없었고, 클라우드 내에 딱히 정해진 정책 없이 애플리케이션을 운영중하고 있었어요. 그렇기 때문에 현재 운영중인 애플리케이션의 버전을 알 수 없었고, 언제 어떻게 배포되었는지 추적하기 어려운 환경이었어요.

이러한 환경에서 제가 CI/CD 파이프라인을 도입하기 위해 회사의 현재 상황을 분석하고 마련한 예비 요구사항은 다음과 같아요.

Continuous Integration, Continuous Delivery, Continuous Deploy 각 단계에서 현재 상태와 결과를 알 수 있어야 한다.
현재 운영중인 애플리케이션의 버전과 상태를 알 수 있어야 한다.
자동화된 시스템을 통해 개발자는 CI/CD를 수행할 수 있어야 한다.
- 기존에는 CI ~ Deploy까지 한 번에 무조건 실행되어서 애플리케이션의 테스트 없이 곧바로 Production에 올라가는 문제가 있었어요. 이를 해결하기 위해 “적절한 자동화”를 통해 각자가 담당한 애플리케이션을 관리, 배포할 수 있게 하고자 했어요.
DevOps Engineer를 제외한 개발자는 CI/CD 각 단계가 어떻게 진행되는지 몰라도 된다.
- DevOps Engineer가 생긴 만큼 개발자는 각자의 영역에 충실할 수 있게끔 하고자 했어요.
Git Ops와 융합되어야 한다.
- 회사에서 GitHub Enterprise를 이용중이었고, 따라서 GitOps와 융합하고자 했어요.

1, 2번을 묶어서 기존 시스템의 가장 큰 문제점인 현재 운영중인 애플리케이션의 버전을 알 수 없는 점과 각 단계에서의 결과와 상태를 앎으로써 배포 후보군이 되는 애플리케이션이 어떤 내용을 갖는지 추적할 수 있게 하고자 했어요.

GCP Artifact Registry에 대한 Git Actions 접근 허가하기

GCP의 경우 워크로드 아이덴티티 제휴(Workload Identity Federation)를 통해 외부 서비스와의 융합을 지원하는데요, Git Actions에서 GCP에 접근 또한 이를 활용하여 해결할 수 있어요.

https://cloud.google.com/blog/products/identity-security/enabling-keyless-authentication-from-github-actions?hl=en

워크로드 아이덴티티 제휴는 쉽게 말해 GCP의 Iam Roles for Service Accounts(IRSA)라 볼 수 있어요. 즉, GCP의 리소스를 이용하는 작업(Workload)에 대해 신원(Identity)을 제공하는 기능이에요.

Git Actions에서 GCP의 서비스인 Artifact Registry에 접근할 필요가 있었고, 이를 위한 워크로드 아이덴티티 제휴를 구성했어요.

생성할 서비스 계정은 워크로드 아이덴티티 풀과 Artifact Registry에 접근하기 위해서 다음의 Role들을 가지고 있어요.

roles/iam.workloadIdentityUser
- 서비스 계정을 통해 GCP의 워크로드 아이덴티티를 사용하기 위함이에요.
roles/iam.serviceAccountUser
- 서비스 계정을 통해 GCP 리소스에 접근하기 위함이에요.
roles/artifactregistry.writer
- 서비스 계정을 통해 Artifact Registry에 Git Actions로 생성된 컨테이너 이미지를 업로드하기 위함이에요.
roles/iam.serviceAccountTokenCreator
- 서비스 계정에 대한 단기 인증정보를 만들 수 있도록 해요. 이를 통해 Git Actions 워크 플로우에 정의된 서비스 계정의 OAuth 2.0 토큰을 획득하고 명시된 권한을 사용할 수 있어요.

또한 아무 Git 리포지터리에서 실행되는 Git Actions의 워크플로우를 통해 우리의 GCP 인프라에 접근하면 안되기 때문에 다음과 같이 GitHub 계정 혹은 리포지터리에 대한 제한 및 격리를 시켜야 합니다.

module "oidc_gh" {
  ...
  sa_mapping = {
    "github-sa" = {
      sa_name   = google_service_account.github_sa.id
      attribute = "attribute.repository_owner/{{ Organization }}"
    }
  }
  ...
}

# module.oidc_gh 중
resource "google_service_account_iam_member" "wif-sa" {
  for_each           = var.sa_mapping
  service_account_id = each.value.sa_name
  role               = "roles/iam.workloadIdentityUser"
  member             = "principalSet://iam.googleapis.com/${google_iam_workload_identity_pool.this.name}/${each.value.attribute}"
}

Git Actions OIDC에서 제공하는 Claims은 다음 링크에서 확인할 수 있어요. https://token.actions.githubusercontent.com/.well-known/openid-configuration

이렇게 GCP와 Git Actions에 대한 WIP를 설정했다면, Git Actions에서 실제로 접근 가능한지 테스트해야 해요.

GCP의 경우 Git Actions에서 사용 가능한 Git Action을 제공하고 있는데요, google-github-actions/auth@v2를 통해서 GCP 서비스 계정의 권한을 획득할거에요.

build-and-delivery:
  runs-on: ubuntu-latest
  permissions:
    id-token: "write"
  steps:
	- name: "GCP Auth"
	  id: "gcp-auth"
	  uses: "google-github-actions/auth@v2"
	  with:
	    token_format: "access_token"
	    workload_identity_provider: "{{ 워크로드 아이덴티티 제공자 }}"
	    service_account: "{{ 워크로드 아이덴티티 서비스 계정 }}"
	    access_token_lifetime: "300s"

해당 Git Actions를 실행하면 GCP의 OAuth 2.0 토큰을 해당 잡에서 사용할 수 있게 해요.

이를 위해 Git Actions에서 토큰에 대한 권한을 설정해야 해요. permissions의 id-token 속성을 write로 구성해야 합니다.
Github OIDC Provider는 클라우드 제공자로 부터 토큰을 전달받아 사용하는데, 여기서는 GCP의 OAuth 2.0 토큰을 받아 사용합니다.

이렇게 획득한 OAuth 2.0 토큰을 바탕으로 Artifact Registry 로그인 하여 이미지를 업로드 할 수 있어요.

- name: "Login to GAR"
  uses: docker/login-action@v3
  with:
    registry: asia-northeast3-docker.pkg.dev
    username: oauth2accesstoken
    password: ${{ steps.auth.outputs.auth_token }}

- name: "Docker auth with GCP Auth"
  run: |
    gcloud auth configure-docker asia-northeast3-docker.pkg.dev --quiet

Continuous Integration ~ Continuous Delivery 스텝 정의하기

Git Actions를 통해 Google Artifact Registry에 대한 권한을 획득했으니 실질적으로 CI ~ Delivery 까지의 Step을 정의해야 해요.

Continuous Integration은 한 제품을 개발하는 많은 개발자들이 각자의 코드를 융합하고 문제없이 돌아가는지 확인하며 제품으로 빌드하는 행위를 하도록 다음과 같이 정의했어요.

코드 테스트 단계
- Git Actions에서 GCP Artifact Registry로 잘 접근이 되는지 확인해요.
- 코드에 대한 테스트를 수행해요.
코드 빌드 단계
- 코드 테스트 단계를 통과했다면 합쳐진 코드를 바탕으로 제품을 빌드해요.
- 우리의 경우 Container 환경에서 애플리케이션을 운영하기 때문에 Container Image를 생성하는 행위를 의미해요.
제품 배달 단계
- 생성된 Container Image를 GCP Artifact Registry로 업로드해요.

특히 우리는 예비 요구사항에서 각 스텝에 대한 결과와 상태를 알 수 있어야 한다.는 요구사항이 있었어요. 이를 지원하기 위해 CI ~ Delivery에 Slack Notification을 전송하는 Job을 추가했어요.

Slack Notification은 총 두 단계로 구성되어 있어요.

Git Actions 시작 알림 메시지
- 해당 메시지를 통해서 Git Actions의 결과물로 나올 컨테이너 이미지에 대한 정보를 함축적으로 전달해요.
- 변경에 대한 Commits List를 추가하여 Slack의 쓰레드 메시지로 전달해요.
Git Actions 종료 알림 메시지
- Git Actions의 성공 여부와 Git Actions 링크 정보를 포함한 메시지를 전달해요

단순히 알림 메시지를 단순히 보내는 것에 끝내지 않고 데이터베이스에 저장하여서 해당 커밋 혹은 릴리즈를 통해 배달된 버전이 어떤 변경점을 갖는지 추후에 확인할 수 있게 했어요.

슬랙에 메시지를 보냄으로써 생성된 이미지에 대해 변경사항을 확인할 수 있고 추후 애플리케이션 배포 시에도 활용하고자 했어요.

CI/CD 파이프라인의 성공 여부 메시지. 부모 슬랙 메시지의 쓰레드로 전달 되어요

독립된 Continuous Deploy

이제 배달 된 제품 빌드에 대해 배포할 차례에요. 기존의 문제점에서 현재 운영중인 애플리케이션의 버전을 알 수 없는 점을 해결하기 위해 배포에 대한 파이프라인을 앞 단계와 분리했어요.

웹 대시보드를 통해 배포하고자 하는 버전과 그 변경사항을 알 수 있게 했고, 현재 배포된 애플리케이션 차트가 어떻게 구성되어 있는지 확인할 수 있도록 배포 서버를 개발 했어요. 해당 서버의 경우 코드를 정리한 다음에 오픈소스로 공개할 예정이에요.

우리 회사는 GKE를 이용해서 애플리케이션을 운영하고 있는데, 실제 쿠버네티스에 배포에 대한 책임은 Argo CD에 위임했어요.

즉, 직접적으로 Continuous Deploy가 해결해야 하는 것은 Argo CD가 알 수 있도록 애플리케이션 매니페스트를 수정해주면 돼요.

여기까지 CI/CD 파이프라인을 설계하며 고민했던 내용을 정리했어요.

읽어주셔서 고맙습니다 🙂

저작자표시 비영리 변경금지 (새창열림)

PREV 1 NEXT

짧은머리 개발자

DevOps

로컬 환경에서의 AWS API 호출을 위한 임시 자격 증명 시스템 구축기

해결하고자 한 문제

AWS SSO 그리고 AWS STS

고민한 포인트

💡 AssumeRole, AssumeRoleWithWebIdentity, AssumeRoleWithSAML

시스템 구성

'DevOps > Cloud' 카테고리의 다른 글

Airflow를 쿠버네티스에 운영하기 위한 고민

Managed Workflow Apache Airflow vs EKS

Airflow의 Executor를 무엇으로 선택하는게 좋을까?

Kubernetes Executor, 조금 더 섬세하고 자유롭게 운영하고 싶은데..

'DevOps > Kubernetes' 카테고리의 다른 글

쿠버네티스가 쉬워지는 컨테이너 이야기가 어렵다면 - cgroup, cpu 편

이 글이 도움 될 사람

컨테이너

Docker의 Control Group과 CPU

쿠버네티스의 cpu.weight (cpu.shares)

이번 글의 대상이 아닌 독자

참고

'DevOps > Kubernetes' 카테고리의 다른 글

GCP Multi Project에 대한 IRSA 구성하기

'DevOps > Cloud' 카테고리의 다른 글

CI/CD 파이프라인 자동화 및 Deploy 분리하기

GCP Artifact Registry에 대한 Git Actions 접근 허가하기

Continuous Integration ~ Continuous Delivery 스텝 정의하기

독립된 Continuous Deploy

+ Recent posts

티스토리툴바