일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터파이프라인
- redshift
- docker-compose
- 웹 크롤링
- 데이터레이크
- Django
- dag
- 데이터 웨어하우스
- selenium
- Django Rest Framework(DRF)
- Kafka
- ELT
- Serializer
- ETL
- Hive
- airflow.cfg
- truncate
- 알고리즘
- 웹 스크래핑
- spark
- docker
- snowflake
- 컨테이너 삭제
- yarn
- airflow
- AWS
- docker hub
- dag 작성
- SQL
- 데이터마트
- Today
- Total
목록dag (2)
개발 기록장

학습 주제: SQL 트랜잭션, Airflow 설치, Airflow 기본 프로그램, DAGSQL 트랜잭션데이터 웨어하우스에서틔 테이블 업데이트 방법Full Refresh단순하지만 데이터가 커지만 사용 불가능데이터 업데이트 전 원래의 테이블 데이터를 전부 비우고 다시 저장Incremental Update데이터가 클 경우 효과적이나 복잡도 증가보통 타임스탬프 또는 일련 번호 등의 필드 필요execution_date 활용트랜잭션중간에 실패하면 불완전한 상황에 놓이는 작업이 존재할 때ETL 과정에서 Full Refresh 상황을 가정하면, 테이블 내용은 삭제되었는데 데이터가 정상적으로 저장되지 않을 때Atomic하게 실행되어야 하는 SQL들을 묶어 하나의 작업처럼 처리하는 방법BEGIN과 END 또는 BEGIN과..

학습 주제: 데이터 파이프라인, Airflow, ETL, ELT, DAG데이터 파이프라인 소개: 데이터 파이프 라인 혹은 ETL로 알려진 프로세스용어 설명: ETLETL: Extract, Transform and Load데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스보통 데이터 엔지니어들이 수행Data Pipeline, ETL, Data Workflow, DAGETL(Extract, Transform, and Load)Called DAG (Directied Acyclic Graph) in Airflow용어 설명: ELT데이터 웨어하우스 내부 데이터를 조작해서(보통은 더 추상화되고 요약된) 새로운 데이터를 만드는 프로세스보통 데이터 분석가들이 많이 수행이 경우 데이터 레이크 위에서 이런 작업이..