개발 기록장

Airflow 정리 본문

Airflow

Airflow 정리

jxwxnk 2024. 5. 27. 00:29
반응형

Airflow란 무엇인가?

  • Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임웍
    • 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임 웍
    • Airflow에서 데이터 파이프라인을 DAG(Directed Acycleic Graph)라고 부름
  • Airflow 장점
    • 데이터 파이프라인을 세밀하게 제어 가능
    • 다양한 데이터 소스와 데이터 웨어하우스 지원
    • Backfill에 용이
  • Airflow 관련 중요 용어/개념
    • start_date, execution_date, catchup
  • 스케일링 방식
    • Scale Up vs. Scale Out vs. 클라우드 버전 vs. K8s 사용

데이터 파이프라인 작성 시 기억할 점

  • 데이터 파이프라인에 관한 정보를 수집하는 것이 중요
    • 비지니스 오너와 데이터 리니지에 주의할 것
    • 결국 데이터 카탈로그가 필요함
  • 데이터 품질 확인
    • 입력 데이터와 출력 데이터
  • 코드 실패를 어설프게 복구하려는 것 보다는 깔끔하게 실패하는 것이 좋음
    • transaction
    • backfill
  • 가능하면 Full Refresh
    • Incremental Update를 쓸 수밖에 없다면 Backfill 방식을 먼저 생각해 둘 것 -> Airflow가 필요한 이유
  • 주기적인 청소(데이터, 테이블 , DAG)
반응형

'Airflow' 카테고리의 다른 글

Airflow config API 활성화  (0) 2024.06.05
"ModuleNotFoundError: No module named 'MySQLdb'" 해결  (0) 2024.05.27
airflow.cfg 살펴보기  (0) 2024.05.26