일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- ETL
- yarn
- docker-compose
- selenium
- SQL
- docker hub
- Serializer
- 웹 크롤링
- Django Rest Framework(DRF)
- truncate
- 컨테이너 삭제
- dag
- AWS
- Django
- 데이터 웨어하우스
- redshift
- 알고리즘
- Kafka
- 데이터파이프라인
- dag 작성
- Hive
- 데이터마트
- 웹 스크래핑
- airflow.cfg
- airflow
- docker
- spark
- 데이터레이크
- snowflake
- ELT
Archives
- Today
- Total
목록sourceconnector (1)
개발 기록장

기존에는 Kafka에서 Producer.py와 Consumer.py를 이용하여 데이터를 처리했다. 이 방식은 간단한 데이터를 처리할 경우에는 직관적으로 빠르게 코드를 작성하여 처리할 수 있다는 장점이 있지만, 확장성/ 모니터링의 측면에서는 적합하지 않다는 단점이 있었다.그래서 우리는 Kafka의 Connector의 사용을 고려하기 시작했다. 우리가 프로젝트에서 받아와야할 데이터는 서울 열린데이터 광장에서 지하철 데이터를 실시간으로 받아와야하고, API의 호출 횟수 제한이 있으므로 모니터링이 굉장히 중요한 부분이었다. 또 커넥터를 사용한다면 변경 사항이 있을 때, 따로 코드의 작성 없이 Kafka 상에서 커넥터 설정만을 수정해 사용할 수 있으므로 간편하다고 생각했다.Kafka ConnectorKafka C..
Kafka와 Kafka Streams
2024. 8. 3. 23:24