| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- ETL
- 데이터 웨어하우스
- docker-compose
- snowflake
- spark
- selenium
- AWS
- Django Rest Framework(DRF)
- Hive
- 데이터파이프라인
- 웹 크롤링
- docker hub
- redshift
- 데이터마트
- 알고리즘
- 웹 스크래핑
- Kafka
- docker
- Serializer
- Django
- yarn
- airflow
- SQL
- 데이터레이크
- dag 작성
- truncate
- 컨테이너 삭제
- dag
- airflow.cfg
- ELT
- Today
- Total
목록Hive (3)
개발 기록장
자신의 상황과 맞는 프레임워크 선택하기MPP 데이터베이스: 완성한 비정규화 테이블의 고속 집계에 적합구조화 데이터를 SQL로 집계하는 것뿐이라면 기존의 데이터 웨어하우스 제품과 클라우드 서비스를 이용하는 것이 가장 좋음기능적성능적시스템 안정성 측면MPP 데이터베이스는 스토리지 및 계산 노드가 일체화 되어 있어 처음에 ETL 포르세스 등으로 데이터를 가져오는 절차만 완성하면 SQL만으로 데이터 집계 가능확장성 및 유연성 등의 측면에서는 분산 시스템이 유리하므로 MPP 데이터베이스에 분산 시스템 프레임워크 결합대량의 텍스트 처리데이터 처리를 프로그래밍 하고 싶은 경우NoSQL 데이터베이스에 저장된 데이터를 집계하고 싶은 경우시각화 측면에서도 데이터 마트로 생각하면 MPP 데이터베이스는 유력한 대안임Hive:..
SQL-On-Hadoop의 예시: 'Hive'에 의한 구조화 데이터의 생성과 'Presto'에 의한 대화식 쿼리데이터 마트 구축의 파이프라인분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장다수의 텍스트 파일을 읽어 가공하므로 부하가 큰 작업이므로 Hive 사용완성된 구조화된 데이터를 결합, 집계하고 비정규화 테이블로 데이터 마트에 내보냄열 지향 스토리지를 이용한 쿼리 실행에는 실행 시간 단축을 위해 Presto 사용Hive 메타 스토어(Hive Metastore)Hive에서 만든 각 테이블의 정보를 저장하는 특별한 데이터베이스Hive뿐만 아니라 다른 쿼리 엔진에서도 공통의 테이블 정보로 참고됨(SQL-on-Hadoop 상황)Hive에 의한 구조화 데이터 작성외부 테이블(exter..
Hadoop과 Spark를 중심으로 분산 시스템의 구조를 살펴본다.구조화 데이터와 비구조화 데이터구조화 데이터(structuerd data): 스키마(Schema)가 명확하게 정의된 데이터비구조화 데이터(unstructured data): 자연언어로 작성된 텍스트 데이터, 이미지, 동영상 등의 미디어 데이터 대표적인 비구조화 데이터로는 로그(log) 데이터가 있다.스키마리스 데이터(schemaless data): CSV, JSON, XML 등 데이터 서식은 정해져 잇지만, 칼럼 수나 데이터 형은 명확하지 않은 데이터데이터 구조화의 파이프라인: 테이블 형식으로 열 지향 스토리지에 장기 보존비구조화 데이터/스키마리스 데이터는 분산 스토리지에 보존됨 -> 그러나 명확한 스키마가 없는 데이터들은 SQL로 집계가..