일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Django Rest Framework(DRF)
- airflow
- airflow.cfg
- dag 작성
- Hive
- redshift
- spark
- 컨테이너 삭제
- dag
- snowflake
- SQL
- docker
- ELT
- 데이터마트
- AWS
- docker-compose
- docker hub
- Serializer
- 데이터파이프라인
- 데이터 웨어하우스
- 웹 크롤링
- 데이터레이크
- yarn
- Kafka
- Django
- truncate
- ETL
- 웹 스크래핑
- 알고리즘
- selenium
- Today
- Total
목록데브코스(DE)/데이터 파이프라인과 Airflow (5)
개발 기록장

학습 주제: OTLP 테이블 복사, Backfill 실행테이블 복사: MySQL 테이블(OLTP) -> 데이터웨어하우스(Redshift; OLAP)설정S3와 MySQL 정보S3 버킷 이름MySQL 서버 연결 정보(Host, Schema, Login, Password, Port)AWS 관련 권한 설정Airflow DAG에서 S3 접근: 쓰기권한IAM User을 만들고 S3버킷에 대한 읽기/쓰기 권한 설정, Access key와 Secret key 사용Redshift가 S3 접근: 읽기권한Redshfit에 S3를 접근할 수 있는 역할(Role)을 만들고 이를 Redshift에 지정MySQL Connections 설정Connection Id, Connection Type(Mysql), Host, Schema,..

학습 주제: Airflow, DAG 작성, Primary Key Uniqueness, BackfillOpen Weathermap DAGOpen Weathermap API 소개위도/경도를 기반으로 그 지역의 기후 정보를 알려주는 서비스무료 계정으로 api key를 받아서 이를 호출시에 사용DAG 구현 살펴보기Open Weathermap의 one call API를 사용해 서울의 다음 8일간의 낮/최소/최대 온도를 읽어다가 각자 스키마 밑의 weather_forecast라는 테이블로 저장https://openweathermap.org/api/one-call-api 호출해서 테이블을 채움weather_forecast라는 테이블이 대상이 됨유의할 점) created_date은 레코드 생성시간으로 자동 채워지는 필..

학습 주제: Airflow, DAG 작성Task 정의 및 실행Dag를 구성하는 Task를 정의하고 실행하는 방법은 크게 두 가지가 있음Operators - PythonOperatorAirflow DecoratorsOperators - PythonOperator전통적인 방법으로 Task를 정의하고 실행함수와 태스크 정의가 분리됨주요 구성python_callable: 실행할 Python 함수 호출task_id: 태스크의 IDdag: 이 태스크가 속한 DAGprovide_context: 함수에 Airflow 컨텍스트 변수를 전달할지 여부 (기본값은 False)from airflow.operators.python import PythonOperatorload_nps = PythonOperator( dag ..

학습 주제: SQL 트랜잭션, Airflow 설치, Airflow 기본 프로그램, DAGSQL 트랜잭션데이터 웨어하우스에서틔 테이블 업데이트 방법Full Refresh단순하지만 데이터가 커지만 사용 불가능데이터 업데이트 전 원래의 테이블 데이터를 전부 비우고 다시 저장Incremental Update데이터가 클 경우 효과적이나 복잡도 증가보통 타임스탬프 또는 일련 번호 등의 필드 필요execution_date 활용트랜잭션중간에 실패하면 불완전한 상황에 놓이는 작업이 존재할 때ETL 과정에서 Full Refresh 상황을 가정하면, 테이블 내용은 삭제되었는데 데이터가 정상적으로 저장되지 않을 때Atomic하게 실행되어야 하는 SQL들을 묶어 하나의 작업처럼 처리하는 방법BEGIN과 END 또는 BEGIN과..

학습 주제: 데이터 파이프라인, Airflow, ETL, ELT, DAG데이터 파이프라인 소개: 데이터 파이프 라인 혹은 ETL로 알려진 프로세스용어 설명: ETLETL: Extract, Transform and Load데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스보통 데이터 엔지니어들이 수행Data Pipeline, ETL, Data Workflow, DAGETL(Extract, Transform, and Load)Called DAG (Directied Acyclic Graph) in Airflow용어 설명: ELT데이터 웨어하우스 내부 데이터를 조작해서(보통은 더 추상화되고 요약된) 새로운 데이터를 만드는 프로세스보통 데이터 분석가들이 많이 수행이 경우 데이터 레이크 위에서 이런 작업이..