빅데이터/Databricks

Databricks Lakehouse Federation이란 무엇인가?

네야_IT 2025. 10. 22. 04:40
반응형

🚀 Databricks Lakehouse Federation: 외부 데이터도 한 번에 조회하기

Databricks를 사용하다 보면 데이터가 여러 시스템에 흩어져 있는 경우가 많습니다. 모든 데이터를 한곳으로 옮기지 않고 분석하고 싶을 때가 있죠. 이럴 때 유용한 기능이 바로 Lakehouse Federation, 즉 Query Federation(쿼리 페더레이션) 입니다. 이 기능을 사용하면 외부 데이터베이스에 저장된 데이터까지 Databricks SQL로 한 번에 조회할 수 있습니다.

 

🧭 Lakehouse Federation이란?

Lakehouse Federation은 Databricks의 Unity Catalog 기능 중 하나입니다. 이 기능을 통해 Databricks 내부 데이터뿐만 아니라 외부 데이터베이스(MySQL, PostgreSQL, Oracle 등)에 있는 데이터도 하나의 쿼리로 통합 조회할 수 있습니다. 즉, 데이터를 복사하거나 이동하지 않고도 Databricks 환경 안에서 외부 데이터를 함께 분석할 수 있는 것이죠.

 

⚙️ 작동 방식

Lakehouse Federation은 외부 데이터베이스에 JDBC로 직접 연결해 쿼리를 전달합니다. 일부 연산은 외부 DB에서 처리하고, 그 결과를 Databricks로 가져와 후처리하는 방식으로 동작합니다. 이 과정을 Query Pushdown이라고 부르며, 쉽게 말해

“Databricks가 외부 DB에게 ‘이 쿼리를 대신 실행해줘’라고 요청하고 결과만 받아오는 구조” 라고 생각하면 됩니다.

 

따라서 네트워크 속도나 외부 DB 성능에 따라 쿼리 처리 속도가 달라질 수 있습니다.

 

🧩 지원되는 외부 데이터 소스

Databricks의 Query Federation은 다음과 같은 다양한 외부 데이터 소스를 지원합니다.

  • MySQL
  • PostgreSQL
  • Oracle
  • Teradata
  • Microsoft SQL Server
  • Amazon Redshift
  • Snowflake
  • Salesforce Data Cloud
  • Google BigQuery
  • Azure Synapse Analytics
  • 다른 Databricks 워크스페이스

즉, 대부분의 주요 데이터베이스와 클라우드 웨어하우스를 아우를 수 있습니다.

 

 

📊 Query Federation vs Catalog Federation

Databricks에서는 외부 데이터를 연결하는 방식이 두 가지로 나뉩니다. 하나는 지금까지 살펴본 Query Federation, 다른 하나는 Catalog Federation입니다. 두 방식 모두 외부 데이터를 Databricks 환경에서 활용할 수 있게 해주지만, 접근 방식과 성능, 사용 목적에서 큰 차이가 있습니다.


 

구분 Query Federation Catalog Federation
연결 방식 JDBC를 통해 외부 DB에 직접 연결 외부 오브젝트 스토리지(S3, ADLS 등)를 Databricks Catalog로 등록
쿼리 실행 위치 일부 연산은 외부 DB에서 실행 (Pushdown) 모든 연산이 Databricks 내부에서 실행
데이터 이동 없음 (실시간 접근) 필요 시 Databricks로 로딩 가능
적합한 용도 운영 DB 실시간 조회, 샘플 분석 대규모 데이터 분석, 정기적 통합
장점 설정이 간단하고 실시간 조회 가능 고성능, 보안 및 접근제어 강화
단점 외부 DB 성능에 의존, 네트워크 지연 가능 초기 구성 복잡, 설정 비용 높음

요약하자면, Query Federation은 “즉시 연결해서 빠르게 조회”, Catalog Federation은 “데이터를 체계적으로 통합 관리”하는 데 초점이 맞춰져 있습니다. 실시간으로 외부 시스템 데이터를 모니터링하고 싶다면 Query Federation, 장기적인 데이터 거버넌스와 분석 효율화를 원한다면 Catalog Federation이 더 적합합니다.

 

⚠️ 주의할 점

  • 쿼리 속도는 외부 DB의 네트워크 환경과 성능에 따라 달라집니다.
  • 연결 시 보안 설정(VPC, 방화벽, 네트워크 접근 제어)을 반드시 확인해야 합니다.
  • 외부 DB의 쿼리 푸시다운 지원 여부나 JDBC 드라이버 버전 호환성을 고려해야 합니다.

 

💡 활용하기 좋은 경우

  • 여러 데이터베이스에 흩어진 데이터를 한 번에 분석하고 싶을 때
  • ETL 없이 실시간으로 데이터를 조인하고 싶을 때
  • 데이터 마이그레이션 이전 단계에서 외부 데이터를 임시로 연결해 분석할 때

이럴 때 Databricks의 Lakehouse Federation 기능은 강력한 해답이 됩니다.

 

🔗 참고 링크

👉 Databricks Query Federation (AWS 공식 문서)

 

What is Lakehouse Federation? | Databricks on AWS

Learn about Databricks Lakehouse Federation and how to use it to run federated queries against multiple external data sources.

docs.databricks.com

 

Databricks의 Lakehouse Federation은 데이터 통합을 훨씬 유연하게 만들어주는 핵심 기능입니다. 데이터 이동에 드는 시간과 비용을 줄이고, 다양한 소스를 실시간으로 연결해 분석할 수 있습니다. 하나의 플랫폼에서 여러 데이터베이스를 연결해보세요. 진정한 Lakehouse 경험을 느낄 수 있을 것입니다.

 

 

#Databricks #Lakehouse #QueryFederation #CatalogFederation #UnityCatalog #데이터브릭스 #데이터통합 #빅데이터 #클라우드데이터 #AWS #데이터엔지니어링 #데이터분석

반응형