빅데이터/Databricks

Databricks CLI

네야_IT 2025. 11. 19. 08:00
반응형

Databricks CLI(Command Line Interface)는 Databricks Workspace, Jobs, Repos, File System(DBFS), Secrets 등을 터미널에서 직접 관리하기 위한 강력한 도구입니다. 시험에도 자주 등장하고, 실무에서도 자동화 · DevOps · CI/CD 환경에서 필수적으로 사용됩니다.

 

✔ Databricks CLI란 무엇인가?

Databricks CLI는 터미널에서 Databricks 리소스에 접근할 수 있는 도구로,
다음 영역을 지원합니다:

  • Workspace 파일 관리
  • DBFS 파일 업로드 및 다운로드
  • Job 실행(trigger) 및 상태 확인
  • Secrets 관리
  • Token 관리
  • Repos 관리 (Git 연동)
  • 클러스터 관련 작업

CLI는 자동화 스크립트, Jenkins/Github Actions 같은 DevOps 환경에서 매우 유용합니다.

 

✔ Databricks CLI의 핵심 명령어

1. Jobs (시험에서 가장 많이 나옴)

• Job 실행 요청

databricks jobs run-now --job-id 1234

 

• 반환 값(run_id) 중요!

응답 JSON에 포함된 run_id는:

실행 인스턴스(run)를 고유하게 식별하는 globally unique ID

 

• 실행 상태 조회

databricks runs get --run-id 5678

 

• 실행 리스트 조회

databricks runs list

 

 

2. DBFS 파일 작업

  파일 업로드

databricks fs cp local.whl dbfs:/libs/my.whl

 

  파일 목록 확인

databricks fs ls dbfs:/mnt/data

 

 

3. Workspace 파일/노트북 작업

   Workspace에 노트북 업로드

databricks workspace import src.py /Users/me/test.py

 

   Workspace 파일 목록 보기

databricks workspace ls /Users/me

 

 

4. Secrets (시험에서 자주 나오는 주제)

   Secret Scope 생성

databricks secrets create-scope --scope finance-team

 

Secret Key 저장

databricks secrets put --scope finance-team --key db-password

 

Secret 목록 보기

databricks secrets list --scope finance-team

 

 

✔ Databricks CLI 실무 최적화 팁

1. CI/CD 파이프라인에서 필수

  • Job 자동 실행
  • Notebook 자동 배포
  • Library 자동 업로드
  • Secret 자동 생성

2. DevOps 팀은 instance profile + OAuth 기반 인증 사용 추천

PAT(token)은 개인 사용자 기반이므로 자동화 환경에서 비추천.

3. CLI 스크립트에서 Python으로 JSON 처리하기 좋음

많은 CLI 명령이 JSON 구조를 반환하므로 자동화가 매우 쉬움.

 

✔ 전체 요약

Databricks CLI는 시험에서도 중요하지만 실무에서도 DevOps 자동화에 필수적인 도구입니다.

특히 시험에서 자주 등장하는 포인트는:

🎯 시험 필수 암기 포인트

  • run_id = job 실행의 고유 ID
  • wheel 업로드 = databricks fs cp
  • secret scope 권한 = scope 단위 + Read 권한
  • workspace import/export 명령어
  • repos는 branch 생성 → push → PR 흐름

이를 정확히 알고 있으면 대부분의 Databricks CLI 문제를 맞힐 수 있습니다.

 

 

반응형