일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 데이터파이프라인
- selenium
- 데이터마트
- docker-compose
- ETL
- 웹 스크래핑
- 데이터레이크
- 웹 크롤링
- airflow
- dag
- airflow.cfg
- docker
- Django Rest Framework(DRF)
- truncate
- Kafka
- 컨테이너 삭제
- docker hub
- dag 작성
- AWS
- yarn
- snowflake
- Hive
- SQL
- 데이터 웨어하우스
- 알고리즘
- spark
- Django
- ELT
- redshift
- Serializer
Archives
- Today
- Total
개발 기록장
Airflow 정리 본문
반응형
Airflow란 무엇인가?
- Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임웍
- 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임 웍
- Airflow에서 데이터 파이프라인을 DAG(Directed Acycleic Graph)라고 부름
- Airflow 장점
- 데이터 파이프라인을 세밀하게 제어 가능
- 다양한 데이터 소스와 데이터 웨어하우스 지원
- Backfill에 용이
- Airflow 관련 중요 용어/개념
- start_date, execution_date, catchup
- 스케일링 방식
- Scale Up vs. Scale Out vs. 클라우드 버전 vs. K8s 사용
데이터 파이프라인 작성 시 기억할 점
- 데이터 파이프라인에 관한 정보를 수집하는 것이 중요
- 비지니스 오너와 데이터 리니지에 주의할 것
- 결국 데이터 카탈로그가 필요함
- 데이터 품질 확인
- 입력 데이터와 출력 데이터
- 코드 실패를 어설프게 복구하려는 것 보다는 깔끔하게 실패하는 것이 좋음
- transaction
- backfill
- 가능하면 Full Refresh
- Incremental Update를 쓸 수밖에 없다면 Backfill 방식을 먼저 생각해 둘 것 -> Airflow가 필요한 이유
- 주기적인 청소(데이터, 테이블 , DAG)
반응형
'Airflow' 카테고리의 다른 글
Airflow config API 활성화 (0) | 2024.06.05 |
---|---|
"ModuleNotFoundError: No module named 'MySQLdb'" 해결 (0) | 2024.05.27 |
airflow.cfg 살펴보기 (0) | 2024.05.26 |