일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- dag
- Serializer
- ETL
- truncate
- yarn
- AWS
- 데이터 웨어하우스
- docker
- Django Rest Framework(DRF)
- docker-compose
- airflow.cfg
- SQL
- 웹 스크래핑
- ELT
- spark
- Hive
- Kafka
- Django
- airflow
- dag 작성
- docker hub
- snowflake
- 알고리즘
- 웹 크롤링
- 컨테이너 삭제
- 데이터레이크
- 데이터마트
- selenium
- 데이터파이프라인
- redshift
- Today
- Total
목록분류 전체보기 (67)
개발 기록장

Superset을 Docker위에 설치하기 위해 공식문서, 블로그 등 다양한 것을 참고하였다. 설치 가이드는 많지만 내가 마주한 오류를 해결하는 방법에 대한 글은 찾지 못해 해결에 오랜 시간이 걸렸다. 나와 같은 오류 상황에 처한 사람에게 이 글이 조금이나마 도움이 되길 바란다:)1. Docker 설치운영체제에 맞는 Docker을 설치한다 Docker 설치Docker 설정Superset은 꽤 무거운 프로그램으로 사양 설정이 매우 중요한 것 같다.2. Superset repo clone터미널을 켜고, superset repo를 clone한다.나는 빈 폴더를 하나 만들고 그 안에 clone 했다.(ex. 빈 폴더/superset...) git clone https://github.com/apache/sup..
학습 주제: Redshift 고급 기능 실습, 권한과 보안, 백업과 테이블 복구, 기타 관련 서비스, Redshift Spectrum, Redshift MLRedshift 권한과 보안사용자별 테이블 권한 설정일반적으로 사용자별, 테이블별 권한 설정 하지 않음복잡하고 실수의 가능성이 높음역할(Role)/그룹(Group)별로 스키마 별 접근 권한을 부여하는 것이 일반적RBAC(Role Based Access Control)방식이 새로운 트렌드: 그룹(Group)보다 더 편리여러 역할에 속한 사용자의 경우, 각 역할의 권한을 모두 갖게 됨(Inclusive)개인정보와 관련된 테이블은 별도 스키마 설정극히 일부 사람만 속한 역할에 접근 권한 부여사용자 그룹 권한 설정 analytics_authorsanalyti..

학습 주제: Redshift 특징, 설치 및 초기 설정, S3, IAM, Redshift COPYRedshiftRedshift의 특징AWS에서 지원하는 데이터 웨어하우스 서비스2PB의 데이터까지 처리 가능최소 160GB로 시작해서 점진적으로 용량 증감 가능OLAP(OnLine Analytical Processing): 대규모 데이터 처리에 적합응답속도가 빠르지 않으므로 프로덕션 데이터베이스로는 사용불가컬럼 기반 스토리지레코드 별로 저장하는 것이 아니라 컬렴별로 저장컬럼별 압축이 가능하며 컬럼의 추가/삭제가 매우 빠름벌크 업데이트 지원레코드가 들어있는 파일을 S3로 복사 후 COPY 커맨드로 Redshift로 일괄 복사고정 용량/비용 SQL 엔진최근에는 가변 비용 옵션도 제공(Redshift Severle..

학습 주제: ETL/ELT, 데이터 조직, 데이터 웨어하우스/레이크, 데이터 다루는 기술데이터 조직데이터 조직의 비전신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성데이터 조직이 하는 일고품질 데이터를 기반으로 의사 결정권자에게 입력 제공결정 과학(Decision Science)라고도 부름데이터를 고려한 결정(Data Informed Decisions): 데이터를 참고하여 의사결정의 방향을 구체화(만약, 데이터와 의사결정권자가 원하는 방향이 안 맞아도 의사결정권자가 하고자 하는 방향으로 움직임)데이터 기반 결정(Data Driven Decisions): 데이터가 말하는 방향으로 움직인다(의사결정의 근거)과거의 기록이므로 새로운 혁신을 도모하기는 어려움 따라서, 데이터를 고려한 결정/데이터 기반 결정이 적..
학습 주제: AWS, DB, RDS, Document DB, Dynamo DB, Network, Route 53, Certification Manager, CloudFront, ELB, VPCDBSQL(Structured Query Language)관계형 데이터베이스 관리 시스템(RDBMS)에 사용됨데이터가 테이블 형식으로 저장되며, 각 테이블은 정의된 스키마에 따라 열(필드)을 포함데이터는 정확한 구조를 가비며, ACID (Atomicity, Consistency, Isolation, Durability) 트랜잭션 속성을 준수함SQL 쿼리를 사용하여 데이터 조작 및 관리대표적(RDBMS) 예시: MySQL, PostgreSQL, Oracle 등RDS(Relational Database Service)관..

학습 주제: 클라우드 서비스, AWS, EC2, Elasticbeanstalk클라우드 서비스 개요AWS (Amazon Web Services)아마존이 제공하는 클라우드 컴퓨팅 플랫폼으로, 전 세계적으로 분포한 데이터 센터에서 200개가 넘는 기능의 서비스를 제공 및 가장널리 채택 되고 있는 클라우드 플랫폼이다.스타트업, 대기업, 정부 주요 기관을 포함하여 많은 고객이 AWS를 사용하여 비용 절감 및 민첩성을 향상해 빠르게 성장하고 있다.클라우드 컴퓨팅IT 리소스를 인터넷을 통해 On-demand로 제공하고 사용한 만큼 비용 지불하는 방식물리적으로 데이터 센터와 서버 구입, 소유 및 유지 관리하는 대신 AWS와 같은 클라우드 업체가 필요한 모든 것을 관리 및 제공하고 필요한 경우 서비스 확장 및 축소 가능..

학습 주제: SQL, 트랜잭션, 기타 고급 문법, WINDOW 함수트랜잭션정의Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법데이터베이스에서 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation), 지속성(Durability)을 보장하기 위한 작업의 단위DDL 또는 DML 중 레코드를 수정/추가/삭제한 것에만 의미 있음SELECT에는 트랜잭션을 사용할 이유 없음BEGIN과 END 또는 BEGIN과 COMMIT 사이에 해당 SQL들을 사용 ROLLBACK 특징원자성(Atomicity)모든 작업이 성공적으로 완료되거나 아무것도 수행되지 않은 것처럼 롤백될 수 있어야 한다.모든 작업은 일관된 상태로 유지되어야 하며, 중간에 작업이 실패하면 모든 변..

학습 주제: SQL, JOIN, 기타 SQL 문법 및 함수JOIN : 둘 이상의 테이블에서 데이터를 결합하여 하나의 결과 집합을 생성하는 SQL 구문 : 스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용JOIN시 고려해야할 점중복 레코드가 없고, Primary Key의 uniqueness가 보장됨을 확인조인하는 테이블들간의 관계를 명확하게 정의 - One to one(일대일): 한 테이블의 각 행이 다른 테이블의 한 행과 연결 - One to many(일대다): 한 테이블의 각 행이 다른 테이블의 여러 행과 연결 - Many to one(다대일): 다른 테이블의 여러 행이 한 테이블의 한 행과 연결(일대다) -..