[Spark/Airflow] Airflow Dag 비활성화했는데도 스케줄링 도는 경우
·
Data Engineering/Spark
1. 문제 상황Airflow 데이터 적재 테스트하다가 리소스 문제가 발생했고, 실행 중인 DAG를 전부 비활성화했는데도 계속 스케줄링이 걸려 40 초 간격으로 실행되었다.2. 원인문제는 DAG에서 SPARK를 사용했는데, SPARK 세션을 전역변수로 선언하고 사용했다.3. 해결 방법전역변수 지우고 함수마다 세션 만들어 수정했더니 해결 완료. 스파크 세션 여러개 만드는 게 비효율적일 것 같아서 전역 변수로 설정했는데, 이러면 리소스 문제가 발생한다. 스파크 세션을 함수 간 XCOM으로 넘기기에는 너무 크다.