반응형

전체 글 68

[Deep Dive] Spark Internals: spark-submit부터 Task 실행까지의 여정

Apache Spark를 다루는 데이터 엔지니어나 아키텍트라면 한 번쯤 "도대체 내 코드가 클러스터 내부에서 어떻게 쪼개져서 실행되는 걸까?" 라는 질문을 던져보았을 것입니다. 특히 성능 튜닝(Performance Tuning)과 트러블슈팅은 Spark의 실행 계획(Execution Plan)과 물리적 아키텍처(Physical Architecture)를 이해하는 것에서 시작됩니다. 오늘은 Spark 애플리케이션이 제출(submit)되고 결과가 나오기까지의 내부 프로세스를 해부해 보겠습니다. 1. The Big Picture: 주요 컴포넌트 (The Actors)프로세스를 이해하기 전에 무대 위의 배우들을 먼저 알아야 합니다.Driver (The Brain):main() 함수를 실행하는 프로세스입니다.Sp..

빅데이터/Spark 2026.01.08

데이터와 AI를 위한 통합 거버넌스 솔루션: Databricks Unity Catalog

오늘날 기업들은 멀티 클라우드 환경과 방대한 데이터 호수(Data Lake) 속에서 데이터 거버넌스(Data Governance)'라는 큰 장벽에 직면해 있습니다. 데이터는 쌓여가는데 누가 접근 가능한지, 이 데이터가 어디서 왔는지 파악하기 어렵다면 그 가치는 반감될 수밖에 없기 때문이죠. 이러한 복잡성을 해결하고 데이터 레이크하우스(Lakehouse) 환경을 완성하는 핵심 열쇠, 바로 Databricks Unity Catalog에 대해 알아보겠습니다. Unity Catalog란 무엇인가요?Unity Catalog는 Databricks 레이크하우스 플랫폼 내의 데이터와 AI 자산을 위한 통합 거버넌스 솔루션입니다. 과거에는 여러 작업 공간(Workspace)이나 클라우드 계정에 따라 권한을 따로 관리해야..

Databricks CLI

Databricks CLI(Command Line Interface)는 Databricks Workspace, Jobs, Repos, File System(DBFS), Secrets 등을 터미널에서 직접 관리하기 위한 강력한 도구입니다. 시험에도 자주 등장하고, 실무에서도 자동화 · DevOps · CI/CD 환경에서 필수적으로 사용됩니다. ✔ Databricks CLI란 무엇인가?Databricks CLI는 터미널에서 Databricks 리소스에 접근할 수 있는 도구로,다음 영역을 지원합니다:Workspace 파일 관리DBFS 파일 업로드 및 다운로드Job 실행(trigger) 및 상태 확인Secrets 관리Token 관리Repos 관리 (Git 연동)클러스터 관련 작업CLI는 자동화 스크립트, Jen..

Spark Structured Streaming: Stream-Static Join 완벽 정리 (허용되는 조인 vs 허용되지 않는 조인)

Spark Structured Streaming을 활용하여 실시간 데이터 파이프라인을 만들다 보면 종종 스트리밍 데이터(streaming DataFrame) 와 정적 테이블(static DataFrame) 을 결합해야 하는 상황이 발생합니다.예를 들어:실시간 이벤트(streamingDF)에 사용자 정보(static user lookup)를 매칭IoT 센서 이벤트에 센서 메타데이터 조인로그 데이터에 저장된 reference table을 매핑이처럼 stream-static join은 실제 데이터 엔지니어링에서 굉장히 흔합니다. 하지만 Structured Streaming에서는 모든 조인이 허용되는 것이 아닙니다. 일부 조인은 기술적으로 불가능하거나, Spark 엔진의 일관성을 위해 금지되어 있습니다.이번 글..

빅데이터/Spark 2025.11.18

Ganglia Metrics란 무엇일까? 분산 시스템 모니터링의 핵심

Ganglia Metrics란 무엇일까? 분산 시스템 모니터링의 핵심대규모 서버 환경이나 클러스터를 운영하다 보면, 각 노드에서 발생하는 CPU 사용량, 메모리 소비, 디스크 IO, 네트워크 트래픽 등을 한눈에 파악하는 것이 매우 중요합니다. 특히 Hadoop, Spark, HBase 같은 분산 시스템에서는 노드 수가 많아질수록 문제 파악이 어려워지기 때문에, 체계적인 모니터링 도구가 필수적입니다. Ganglia Metrics(갱글리아 메트릭스)는 이러한 문제를 해결하기 위해 만들어진 대표적인 분산 모니터링 시스템입니다. Ganglia란 무엇인가?Ganglia는 대규모 분산 시스템 환경을 위해 설계된 오픈소스 모니터링 시스템입니다. 원래는 UC Berkeley에서 고성능 컴퓨팅 환경(HPC)과 클러스터 ..

빅데이터 2025.11.18

Spark Structured Streaming에서 체크포인트가 중요한 이유와 Auto Loader에서 필수인 이유

Databricks나 Spark 기반 데이터 파이프라인을 구축하다 보면 가장 많이 듣는 개념 중 하나가 바로 checkpoint(체크포인트) 입니다. 특히 Structured Streaming이나 Auto Loader를 사용할 때는 “체크포인트가 꼭 필요하나요?”라는 질문을 많이 받습니다.결론부터 말하자면:✔ 대부분의 스트리밍 파이프라인에서는 체크포인트가 필수✔ Auto Loader는 체크포인트 없이는 사실상 운영 불가 이번 글에서는 체크포인트가 정확히 어떤 역할을 하는지, 어떤 경우에 꼭 필요하고 어떤 경우에는 생략할 수 있는지를 쉬운 언어로 정리해보겠습니다. ✔ Structured Streaming에서 체크포인트의 역할 3가지Structured Streaming이 안정적으로 동작하기 위해서는 다음 ..

빅데이터/Spark 2025.11.16

Databricks CDC와 CDF 완전 정리

데이터 환경이 복잡해지고 데이터가 폭발적으로 증가하면서, 전체 데이터를 매번 다시 처리하는 방식은 이제 효율성이 크게 떨어집니다. 이런 한계를 해결하기 위해 등장한 기술이 바로 CDC(Change Data Capture)와 CDF(Change Data Feed)입니다. Databricks는 Delta Lake 기반으로 이 두 기능을 매우 쉽게 활용할 수 있도록 지원하고 있어, 대규모 데이터 환경에서도 빠르고 효율적인 파이프라인을 구축할 수 있습니다. 이번 포스팅에서는 Databricks의 CDC와 CDF가 무엇인지, 그리고 실제 업무에서 어떻게 활용되는지 쉽게 풀어보겠습니다. 1. CDC(Change Data Capture)란?CDC는 말 그대로 데이터의 변화(Change)를 포착(Capture)하는 기..

AI 에이전트란 무엇인가? 개념부터 무료로 체험할 수 있는 플랫폼까지

요즘 AI 분야에서 “Agent(에이전트)” 라는 단어가 정말 자주 등장하죠 — OpenAI의 GPTs, Anthropic의 Claude Projects, Google의 Gemini Agents, 그리고 오픈소스 진영의 LangChain agents, AutoGen agents, CrewAI 같은 것들까지요. 🧩 1️⃣ 기본 개념Agent(에이전트) 는 간단히 말하면“목표를 달성하기 위해 스스로 판단하고 행동할 수 있는 AI 시스템” 입니다.즉, 단순히 질문에 답하는 모델(ChatGPT처럼)과 달리,스스로 상황을 이해하고필요한 도구(tool) 를 선택해 사용하며목표에 맞게 여러 단계를 계획하고 실행하는 존재예요. 🧠 2️⃣ 핵심 구성 요소AI Agent는 보통 아래 4가지 구성으로 설명됩니다:구성 요..

AI 2025.11.13

Comfy Cloud 출시! 이제 복잡한 모델 실행을 클라우드에서 간편하게

🧠 Comfy란 무엇인가?Comfy(정식 명칭: ComfyUI)는 AI 이미지 생성 워크플로우를 시각적으로 구성하고 실행할 수 있는 오픈소스 툴입니다.Stable Diffusion과 같은 이미지 생성 모델을 직접 실행할 수 있으며, 복잡한 노드(node) 기반의 구조로 되어 있어 사용자가 이미지 생성 과정을 자유롭게 제어하고 커스터마이즈할 수 있다는 점이 큰 장점입니다.예를 들어, 단순히 “프롬프트를 넣고 이미지를 얻는” 수준을 넘어서,프롬프트 처리모델 로딩업스케일링LoRA, ControlNet 등의 보조 모델 연결이미지 후처리이 모든 단계를 노드 기반 인터페이스에서 시각적으로 구성할 수 있습니다.이러한 유연성과 시각적 구조 덕분에, Comfy는 단순한 툴을 넘어 AI 크리에이터들의 실험 플랫폼으로 자..

AI 2025.11.12

AWS 서비스, 하루 종일 이어진 대규모 장애 후 복구 완료

전 세계 주요 웹사이트 동시 접속 장애… "인터넷이 감기 걸린 날"아마존 웹서비스(AWS)가 또다시 전 세계 인터넷을 멈춰 세웠습니다. 현지 시간 10월 21일(월) 새벽부터 시작된 AWS의 대규모 장애로 인해 아마존닷컴(Amazon.com), 디즈니플러스(Disney+), 스냅챗(Snapchat), 레딧(Reddit), 캔바(Canva) 등 수많은 주요 서비스가 일시적으로 접속 불가 상태에 빠졌습니다. AWS는 같은 날 오후 6시(미 동부시간) 이후 “모든 서비스가 정상적으로 복구됐다”고 밝혔지만, 일부 메시지 큐와 내부 프로세스는 몇 시간 동안 지연이 이어졌습니다. 회사 측은 “조만간 상세한 Post-Event Summary(사후 보고서)를 공개할 예정”이라고 전했습니다.▣ 장애의 시작 – 핵심 원인..

IT 뉴스 2025.10.23
반응형