일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- docker hub
- Serializer
- SQL
- Hive
- 데이터 웨어하우스
- airflow.cfg
- snowflake
- 알고리즘
- yarn
- dag 작성
- 데이터레이크
- docker-compose
- ELT
- dag
- truncate
- 데이터마트
- 컨테이너 삭제
- ETL
- Django
- 웹 스크래핑
- docker
- airflow
- AWS
- Django Rest Framework(DRF)
- spark
- 데이터파이프라인
- selenium
- Kafka
- redshift
- 웹 크롤링
- Today
- Total
목록Airflow (4)
개발 기록장
Airflow config API는 airflow.cfg의 내용을 API 호출을 통해 확인할 수 있도록 하는 API이다. 기본적으로 airflow.cfg는 민감한 정보들을 담고 있기 때문에 Airflow config API로부터 접근이 막혀있다. 하지만 편의를 위해 Airflow config API를 푸는 법을 정리해 보겠다.Airflow config API 잠금해제airflow.cfg 파일 수정expose_config = True(; False -> True로 변경)docker-compose.test.yaml 파일 수정environment:AIRFLOW__API__EXPOSE_CONFIG: 'true' 추가docker 컨테이너 재시작docker-compose -f docker-compose.test.y..

오류 개요오류 설명: Airflow Admin/Connection에서 Mysql을 연결할 때 발생하는 오류배경Docker 위에서 Airflow 실행Airflow 버전: 2.5.1 기준(하지만 다른 버전에서도 응용 가능)오류 해결(1)Airflow Scheduler Docker Container에 root 유저로 로그인Scheduler의 Container ID 확인docker ps Scheduler의 root 유저로 로그인Scheduler의 Container ID: 0017662673c3docker exec --user root -it 0017662673c3 shmysql 관련 모듈 설치(airflow) sudo apt-get updatesudo apt-get install -y default-libmys..
Airflow란 무엇인가?Airflow는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임웍가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임 웍Airflow에서 데이터 파이프라인을 DAG(Directed Acycleic Graph)라고 부름Airflow 장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스 지원Backfill에 용이Airflow 관련 중요 용어/개념start_date, execution_date, catchup스케일링 방식Scale Up vs. Scale Out vs. 클라우드 버전 vs. K8s 사용데이터 파이프라인 작성 시 기억할 점데이터 파이프라인에 관한 정보를 수집하는 것이 중요비지니스 오너와 데이터 리니지에 주의할 것결국 데이터 카탈로그가 필요함..
Airflow.cfg는 Apache Airflow의 설정 파일이다. 이 파일은 Airflow의 동작을 제어하는 다양한 옵션들을 포함하고 있으며, Docker위에서 동작하고 있는 Airflow 기준 opt 파일 아래에 위치한다. 간략하게 airflow.cfg에 대해 살펴본 바를 정리해 보려고 한다.설정파일 주요 사항DAGs 폴더는 어디에 지정되는가?dags_folder = /opt/airflow/dags : 기본적으로 Airflow가 설치된 디렉토리 아래에 dags 폴더가 되며, dags_folder 키에 저장됨DAGs 폴더에 새로운 DAG를 만들면 언제 Airflopw 시스템에서 이를 알게 되나? 또 이 스캔 주기를 결정해주는 키의 이름?dag_dir_list_interval = 300 : 기본값은 ..