일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 데이터레이크
- dag 작성
- yarn
- snowflake
- spark
- docker-compose
- redshift
- 웹 스크래핑
- SQL
- 데이터파이프라인
- airflow
- 알고리즘
- dag
- airflow.cfg
- Serializer
- docker
- 웹 크롤링
- 데이터 웨어하우스
- docker hub
- ETL
- Hive
- ELT
- truncate
- Kafka
- Django Rest Framework(DRF)
- Django
- 데이터마트
- selenium
- AWS
- 컨테이너 삭제
Archives
- Today
- Total
목록spark 데이터 처리 및 데이터 구조 (1)
개발 기록장

학습 주제: Spark 데이터 처리 및 데이터 구조, 프로그램 구조, 개발/실습 환경Spark 데이터 처리Spark 데이터 시스템 아키텍처데이터 병렬처리데이터가 분산되어야 함하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB)hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정Spark에서는 이것을 파티션(Partition)이라고 함: 파티션의 기본 크기도 128MBspark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨나눠진 데이터를 각각 나누고, 동시 처리맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨과정:..
데브코스(DE)/하둡과 Spark
2024. 6. 19. 23:55