일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- selenium
- docker
- 컨테이너 삭제
- truncate
- 웹 크롤링
- 알고리즘
- docker hub
- AWS
- snowflake
- spark
- yarn
- 웹 스크래핑
- ETL
- 데이터레이크
- Django
- airflow.cfg
- Serializer
- dag
- 데이터파이프라인
- Kafka
- ELT
- dag 작성
- redshift
- SQL
- Django Rest Framework(DRF)
- 데이터 웨어하우스
- Hive
- docker-compose
- 데이터마트
- airflow
- Today
- Total
목록데브코스(DE)/Airflow 고급 기능 배우기, DBT와 데이터 디스커버리 소개 (2)
개발 기록장
학습 주제: Redshift 구글 시트 연동, API와 Airflow 모니터링 하기구글 시트 연동구글 서비스 어카운트 생성 및 Airflow 연동구글 클라우드 로그인: https://console.cloud.google.com구글 스프레드시트 API 활성화: https://console.cloud.google.com/apis/library/sheets.googleapis.com구글 서비스 어카운트 생성(JSON)이 JSON 파일 내용을 google_sheet_access_token이라는 이름으로 Airflow/Admin/Variable에 등록JSON 파일의 client_email의 내용을 구글 스프레드 시트 파일을 공유(Share)에 Editor(편집자)로 등록구글 스프레드시트의 내용을 Redshift..

학습 주제: Summary 테이블 구현(ELT), Airflow와 Slack 연동하기Summary 테이블 구현(ELT)CTAS 한 파일 안에서 구현PythonOperator를 만들고 params 파라미터를 설정해서 CTAS 및 ELT 구현execsql = PythonOperator( task_id = 'mau_summary', python_callable = execSQL, params = { 'schema' : 'analytics', 'table': 'mau_summary', 'sql' : """SELECT TO_CHAR(A.ts, 'YYYY-MM') AS month, COUNT(DISTINCT B.userid) AS mauFROM raw_da..