[Databricks] 데이터 셔플 완벽 가이드: 발생 원인과 제어 전략데이터브릭스 환경에서 쿼리 성능이 저하되는 가장 큰 원인 중 하나는 바로 데이터 셔플(Data Shuffle)입니다. 오늘은 셔플이 왜 발생하는지, 그리고 이를 최적화하기 위한 핵심 전략인 브로드캐스트 해시 조인(Broadcast Hash Join)에 대해 심층적으로 알아보겠습니다.데이터 셔플이란 무엇인가?데이터 셔플은 조인(Join), 집계(Aggregation), 윈도우 함수(Window operations)와 같은 와이드 트랜스포메이션(Wide Transformation) 시에 발생합니다. 워커 노드 간에 네트워크를 통해 데이터를 주고받는 과정이 포함되기 때문에 비용이 매우 많이 들고 속도가 느려지는 원인이 됩니다. 1. 브로..