'spark 데이터 처리 및 데이터 구조' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

지원 깃허브🔥

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록spark 데이터 처리 및 데이터 구조 (1)

개발 기록장

02. Spark 프로그래밍: DataFrame

학습 주제: Spark 데이터 처리 및 데이터 구조, 프로그램 구조, 개발/실습 환경Spark 데이터 처리Spark 데이터 시스템 아키텍처데이터 병렬처리데이터가 분산되어야 함하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB)hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정Spark에서는 이것을 파티션(Partition)이라고 함: 파티션의 기본 크기도 128MBspark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨나눠진 데이터를 각각 나누고, 동시 처리맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨과정:..

데브코스(DE)/하둡과 Spark 2024. 6. 19. 23:55

이전 Prev 1 Next 다음

목록spark 데이터 처리 및 데이터 구조 (1)

개발 기록장

티스토리툴바