데이터 환경이 복잡해지고 데이터가 폭발적으로 증가하면서, 전체 데이터를 매번 다시 처리하는 방식은 이제 효율성이 크게 떨어집니다. 이런 한계를 해결하기 위해 등장한 기술이 바로 CDC(Change Data Capture)와 CDF(Change Data Feed)입니다. Databricks는 Delta Lake 기반으로 이 두 기능을 매우 쉽게 활용할 수 있도록 지원하고 있어, 대규모 데이터 환경에서도 빠르고 효율적인 파이프라인을 구축할 수 있습니다. 이번 포스팅에서는 Databricks의 CDC와 CDF가 무엇인지, 그리고 실제 업무에서 어떻게 활용되는지 쉽게 풀어보겠습니다. 1. CDC(Change Data Capture)란?CDC는 말 그대로 데이터의 변화(Change)를 포착(Capture)하는 기..