| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 컨테이너 삭제
- selenium
- SQL
- docker hub
- snowflake
- Django Rest Framework(DRF)
- spark
- truncate
- redshift
- 웹 스크래핑
- Serializer
- 데이터레이크
- airflow.cfg
- yarn
- AWS
- Kafka
- ELT
- docker
- Hive
- dag 작성
- 웹 크롤링
- docker-compose
- Django
- dag
- 알고리즘
- 데이터파이프라인
- 데이터 웨어하우스
- ETL
- 데이터마트
- airflow
- Today
- Total
목록spark (3)
개발 기록장
자신의 상황과 맞는 프레임워크 선택하기MPP 데이터베이스: 완성한 비정규화 테이블의 고속 집계에 적합구조화 데이터를 SQL로 집계하는 것뿐이라면 기존의 데이터 웨어하우스 제품과 클라우드 서비스를 이용하는 것이 가장 좋음기능적성능적시스템 안정성 측면MPP 데이터베이스는 스토리지 및 계산 노드가 일체화 되어 있어 처음에 ETL 포르세스 등으로 데이터를 가져오는 절차만 완성하면 SQL만으로 데이터 집계 가능확장성 및 유연성 등의 측면에서는 분산 시스템이 유리하므로 MPP 데이터베이스에 분산 시스템 프레임워크 결합대량의 텍스트 처리데이터 처리를 프로그래밍 하고 싶은 경우NoSQL 데이터베이스에 저장된 데이터를 집계하고 싶은 경우시각화 측면에서도 데이터 마트로 생각하면 MPP 데이터베이스는 유력한 대안임Hive:..
Hadoop과 Spark를 중심으로 분산 시스템의 구조를 살펴본다.구조화 데이터와 비구조화 데이터구조화 데이터(structuerd data): 스키마(Schema)가 명확하게 정의된 데이터비구조화 데이터(unstructured data): 자연언어로 작성된 텍스트 데이터, 이미지, 동영상 등의 미디어 데이터 대표적인 비구조화 데이터로는 로그(log) 데이터가 있다.스키마리스 데이터(schemaless data): CSV, JSON, XML 등 데이터 서식은 정해져 잇지만, 칼럼 수나 데이터 형은 명확하지 않은 데이터데이터 구조화의 파이프라인: 테이블 형식으로 열 지향 스토리지에 장기 보존비구조화 데이터/스키마리스 데이터는 분산 스토리지에 보존됨 -> 그러나 명확한 스키마가 없는 데이터들은 SQL로 집계가..
학습 주제: 빅데이터 정의와 특징, 하둡 소개, Yarn의 동작 방식, 맵리듀스 프로그래밍 소개, Spark 소개빅데이터빅데이터의 정의서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터대표적인 기존의 소프트웨어: 오라클이나 MySQL과 같은 관계형 데이터베이스분산환경을 염두에 두지 않음Scale-up 접근 방식: 메모리 추가, CPU 추가, 디스크 추가4V(Volume, Velocity, Variety, Varecity)Volume: 데이터 크기가 대용량인가?Velocity: 데이터ㅕ의 처리 속도가 중요한가?Variety: 구조화/비구조화 데이터 둘 다인가?Varacity: 데이터의 품질이 좋은가?빅데이터의 예디바이스 데이터모바일 디바이스위치정보스마트 TV각종 센..
