반응형

2026/01 2

[Deep Dive] Spark Internals: spark-submit부터 Task 실행까지의 여정

Apache Spark를 다루는 데이터 엔지니어나 아키텍트라면 한 번쯤 "도대체 내 코드가 클러스터 내부에서 어떻게 쪼개져서 실행되는 걸까?" 라는 질문을 던져보았을 것입니다. 특히 성능 튜닝(Performance Tuning)과 트러블슈팅은 Spark의 실행 계획(Execution Plan)과 물리적 아키텍처(Physical Architecture)를 이해하는 것에서 시작됩니다. 오늘은 Spark 애플리케이션이 제출(submit)되고 결과가 나오기까지의 내부 프로세스를 해부해 보겠습니다. 1. The Big Picture: 주요 컴포넌트 (The Actors)프로세스를 이해하기 전에 무대 위의 배우들을 먼저 알아야 합니다.Driver (The Brain):main() 함수를 실행하는 프로세스입니다.Sp..

빅데이터/Spark 2026.01.08

데이터와 AI를 위한 통합 거버넌스 솔루션: Databricks Unity Catalog

오늘날 기업들은 멀티 클라우드 환경과 방대한 데이터 호수(Data Lake) 속에서 데이터 거버넌스(Data Governance)'라는 큰 장벽에 직면해 있습니다. 데이터는 쌓여가는데 누가 접근 가능한지, 이 데이터가 어디서 왔는지 파악하기 어렵다면 그 가치는 반감될 수밖에 없기 때문이죠. 이러한 복잡성을 해결하고 데이터 레이크하우스(Lakehouse) 환경을 완성하는 핵심 열쇠, 바로 Databricks Unity Catalog에 대해 알아보겠습니다. Unity Catalog란 무엇인가요?Unity Catalog는 Databricks 레이크하우스 플랫폼 내의 데이터와 AI 자산을 위한 통합 거버넌스 솔루션입니다. 과거에는 여러 작업 공간(Workspace)이나 클라우드 계정에 따라 권한을 따로 관리해야..

반응형