반응형

Databricks 9

데이터와 AI를 위한 통합 거버넌스 솔루션: Databricks Unity Catalog

오늘날 기업들은 멀티 클라우드 환경과 방대한 데이터 호수(Data Lake) 속에서 데이터 거버넌스(Data Governance)'라는 큰 장벽에 직면해 있습니다. 데이터는 쌓여가는데 누가 접근 가능한지, 이 데이터가 어디서 왔는지 파악하기 어렵다면 그 가치는 반감될 수밖에 없기 때문이죠. 이러한 복잡성을 해결하고 데이터 레이크하우스(Lakehouse) 환경을 완성하는 핵심 열쇠, 바로 Databricks Unity Catalog에 대해 알아보겠습니다. Unity Catalog란 무엇인가요?Unity Catalog는 Databricks 레이크하우스 플랫폼 내의 데이터와 AI 자산을 위한 통합 거버넌스 솔루션입니다. 과거에는 여러 작업 공간(Workspace)이나 클라우드 계정에 따라 권한을 따로 관리해야..

Spark Structured Streaming: Stream-Static Join 완벽 정리 (허용되는 조인 vs 허용되지 않는 조인)

Spark Structured Streaming을 활용하여 실시간 데이터 파이프라인을 만들다 보면 종종 스트리밍 데이터(streaming DataFrame) 와 정적 테이블(static DataFrame) 을 결합해야 하는 상황이 발생합니다.예를 들어:실시간 이벤트(streamingDF)에 사용자 정보(static user lookup)를 매칭IoT 센서 이벤트에 센서 메타데이터 조인로그 데이터에 저장된 reference table을 매핑이처럼 stream-static join은 실제 데이터 엔지니어링에서 굉장히 흔합니다. 하지만 Structured Streaming에서는 모든 조인이 허용되는 것이 아닙니다. 일부 조인은 기술적으로 불가능하거나, Spark 엔진의 일관성을 위해 금지되어 있습니다.이번 글..

빅데이터/Spark 2025.11.18

Databricks CDC와 CDF 완전 정리

데이터 환경이 복잡해지고 데이터가 폭발적으로 증가하면서, 전체 데이터를 매번 다시 처리하는 방식은 이제 효율성이 크게 떨어집니다. 이런 한계를 해결하기 위해 등장한 기술이 바로 CDC(Change Data Capture)와 CDF(Change Data Feed)입니다. Databricks는 Delta Lake 기반으로 이 두 기능을 매우 쉽게 활용할 수 있도록 지원하고 있어, 대규모 데이터 환경에서도 빠르고 효율적인 파이프라인을 구축할 수 있습니다. 이번 포스팅에서는 Databricks의 CDC와 CDF가 무엇인지, 그리고 실제 업무에서 어떻게 활용되는지 쉽게 풀어보겠습니다. 1. CDC(Change Data Capture)란?CDC는 말 그대로 데이터의 변화(Change)를 포착(Capture)하는 기..

Databricks Lakehouse Federation이란 무엇인가?

🚀 Databricks Lakehouse Federation: 외부 데이터도 한 번에 조회하기Databricks를 사용하다 보면 데이터가 여러 시스템에 흩어져 있는 경우가 많습니다. 모든 데이터를 한곳으로 옮기지 않고 분석하고 싶을 때가 있죠. 이럴 때 유용한 기능이 바로 Lakehouse Federation, 즉 Query Federation(쿼리 페더레이션) 입니다. 이 기능을 사용하면 외부 데이터베이스에 저장된 데이터까지 Databricks SQL로 한 번에 조회할 수 있습니다. 🧭 Lakehouse Federation이란?Lakehouse Federation은 Databricks의 Unity Catalog 기능 중 하나입니다. 이 기능을 통해 Databricks 내부 데이터뿐만 아니라 외부 데..

Databricks Assert Bundle이란 무엇인가?

📦 Databricks Asset Bundles란?Databricks Asset Bundles는 데이터 및 AI 프로젝트를 패키지 단위로 관리할 수 있도록 해주는 도구입니다. 즉, 소스 코드 + Databricks 리소스 정의 + 환경 설정을 하나로 묶어, 버전 관리·테스트·배포까지 체계적으로 할 수 있게 합니다. 🔑 주요 특징프로젝트 전체를 파일 기반으로 정의 (Git에서 관리 가능)Databricks 리소스(잡, 파이프라인, 대시보드, 모델 서빙, MLflow 등)를 소스 파일로 선언적 정의개발 → 테스트 → 배포 전 과정을 일관성 있게 자동화 가능협업, 코드 리뷰, CI/CD 적용에 유리📂 번들에 포함되는 것클라우드 인프라 및 워크스페이스 설정 (개발/스테이징/운영 환경 정의)소스 파일 (노트..

Databricks Photon 엔진이란?

Photon은 Databricks에 내장된 차세대 벡터화 쿼리 엔진으로, SQL과 DataFrame 워크로드를 훨씬 더 빠르고 효율적으로 실행해주는 엔진입니다. Apache Spark API와 완벽하게 호환되기 때문에 기존 코드를 수정할 필요 없이 바로 사용할 수 있습니다. 🔹 왜 중요한가?성능 향상: 쿼리, 집계, 조인 등을 기존 Spark 엔진보다 빠르게 처리비용 절감: 실행 시간이 짧아져서 전체 워크로드당 비용이 줄어듬on은 Databricks에 내장된 차세대 벡터화 쿼리 엔진으로, SQL과 DataFrame 워크로드를 훨씬 더 빠르고 효율적으로 실행해주는 엔진입니다. Apache Spark API와 완벽하게 호환되기 때문에 기존 코드를 수정할 필요 없이 바로 사용할 수 있습니다.🔹 왜 중요한가..

Databricks Liquid Clustering: 성능 최적화와 운영 가이드

Lakehouse 환경에서 테이블을 어떻게 최적화하느냐는 쿼리 성능과 운영 효율성에 직결되는 중요한 요소입니다. 지금까지는 파티셔닝(Partitioning)이나 ZORDER 인덱싱을 통해 데이터 레이아웃을 최적화하는 방식이 주로 사용되었습니다. 하지만 이 방식들은 파티션 키 설계 부담이 크거나, 데이터가 갱신될 때마다 다시 정렬 작업을 해야 하는 등의 한계가 있었습니다. Databricks가 새롭게 선보인 Liquid Clustering은 이러한 문제를 해결하기 위해 등장한 차세대 데이터 최적화 기능입니다. Liquid Clustering은 기존 데이터를 다시 쓰지 않고도 클러스터링 키를 유연하게 변경할 수 있으며, Streaming Table과 Materialized View까지 지원하여 운영의 복잡성..

Databricks의 MLflow: 데이터 사이언스와 머신러닝 워크플로의 혁신

MLflow는 머신러닝 라이프사이클 전반을 관리할 수 있는 오픈소스 플랫폼으로, 모델 개발, 실험 관리, 배포까지의 복잡한 과정을 간소화합니다. 특히 Databricks와의 결합은 MLflow의 강력한 기능을 극대화하여 데이터 과학 팀이 보다 효율적이고 생산적으로 작업할 수 있도록 돕습니다. 이번 블로그에서는 MLflow의 주요 구성 요소와 Databricks와의 통합으로 얻을 수 있는 장점을 설명하겠습니다.MLflow란 무엇인가?MLflow는 데이터 사이언스와 머신러닝 프로젝트의 전 과정을 지원하는 플랫폼입니다. 특히 다음과 같은 문제를 해결합니다.실험 관리의 어려움: 다양한 파라미터, 코드, 결과를 관리하기 어려움.팀 협업의 비효율성: 여러 사람이 같은 프로젝트에서 작업할 때 일관성 유지의 어려움.모..

AI 2024.12.03

Databricks Auto ML로 회귀(Regression) 분석의 잠재력을 극대화하기

데이터 기반 의사결정이 기업 성공의 핵심 요소로 자리 잡으면서, 정확한 예측 모델을 구축하고 배포하는 능력이 점점 더 중요해지고 있습니다. Databricks Auto ML은 머신러닝 워크플로우를 단순화하고 가속화하는 강력한 도구로, 특히 회귀(Regression) 기능은 연속적인 숫자형 결과를 예측해야 하는 문제를 해결하는 데 탁월합니다.이번 블로그에서는 Databricks Auto ML의 회귀 분석 기능이 제공하는 혜택, 그리고 이를 활용해 신뢰할 수 있는 회귀 모델을 효과적으로 구축하는 방법을 소개합니다.Databricks Auto ML의 회귀(Regression)란?Databricks Auto ML의 회귀 분석 기능은 연속형 목표 변수를 예측하는 머신러닝 모델을 자동으로 구축하는 것을 말합니다. ..

AI 2024.11.30
반응형