📌 데이터 스큐(Data Skewness) — 원인 파악과 해결 방법 완벽 가이드데이터 스큐(Data Skew)란 데이터 분포가 균일하지 않아 소수의 CPU 코어에 엄청난 양의 데이터 처리가 몰리는 현상을 말합니다. 예를 들어, 데이터가 한쪽으로 심하게 쏠려 있는 컬럼을 기준으로 조인(Join)이나 집계(Aggregation)를 수행하게 되면 셔플(Shuffle) 단계에서 스큐가 발생합니다. 이로 인해 작업이 완료되는 데 아주 오랜 시간이 걸리거나, 여러 번의 재시도 끝에 결국 작업이 실패해버릴 수도 있습니다. 🔍 데이터 스큐 현상 식별하기 (Identification)스큐가 발생했는지 확인하는 방법은 다음과 같습니다.태스크 지연 확인: 셔플 단계의 Spark 태스크들이 대부분 완료되었는데, 한두 개..