일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- selenium
- truncate
- spark
- Serializer
- airflow
- Django
- dag 작성
- 웹 스크래핑
- Django Rest Framework(DRF)
- ELT
- 데이터레이크
- 데이터 웨어하우스
- 컨테이너 삭제
- ETL
- SQL
- airflow.cfg
- docker hub
- AWS
- yarn
- docker
- 웹 크롤링
- Kafka
- dag
- 데이터파이프라인
- Hive
- docker-compose
- snowflake
- redshift
- 알고리즘
- 데이터마트
Archives
- Today
- Total
목록개념 정리 (1)
개발 기록장
01. Pandas 정리
Pandas파이썬으로 데이터 분석하는데 가장 기본적으로 사용되는 모듈 중 하나matplotlib(시각화)나 scikit-learn(머신러닝)과 같은 다른 파이썬 모듈과 같이 사용됨소규모의 구조화된 데이터 (테이블 형태의 데이터)를 다루는데 최적한 대의 서버에서 다룰 수 있는 데이터로 크기의 제약병렬 처리 지원 X 큰 데이터의 경우 Spark 사용 Pandas 사용 예구조화된 데이터 읽어오고 저장CSV, JSON 등 다양한 포맷 지원웹과 관계형 데이터베이스에서 읽어오는 것도 가능다양한 통계 도출컬럼 별 평균, 표준편차, percentile 등 계산컬럼 A와 컬럼 B간의 상관 관계 계산(correlation)데이터 전처리컬럼별로 값 존재하지 않는 경우 디폴트 값 지정컬럼별로 값의 범위 조정(normaliza..
개념 정리
2024. 6. 19. 23:55