일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 웹 크롤링
- 데이터파이프라인
- docker hub
- redshift
- Serializer
- spark
- yarn
- ELT
- Django Rest Framework(DRF)
- docker
- snowflake
- dag 작성
- Django
- 데이터마트
- Kafka
- 데이터 웨어하우스
- 데이터레이크
- SQL
- truncate
- docker-compose
- Hive
- 알고리즘
- 웹 스크래핑
- 컨테이너 삭제
- dag
- selenium
- AWS
- airflow
- airflow.cfg
- ETL
- Today
- Total
목록웹 스크래핑 (2)
개발 기록장
학습 주제: Selenium, Wait and Call, 마우스/키보드 이벤트 처리, Jupyter LabSelenium: 브라우저 자동화 Selenium 설치%pip install selenium Web Driver - 웹 브라우저를 제어할 수 있는 자동화 프레임워크.%pip install webdriver-manager Selenium 시작# selenium으로부터 webdriver 모듈 불러오기from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom webdriver_manager.chrome import ChromeDriverManager#크롬 실행 및 요청 보내기driver..

학습 주제: HTTP 통신, 웹페이지, HTML, 웹 스크래핑, 웹 크롤링HTTP(HyperText Transfer Protocol): 웹 상에서 정보를 주고 받기 위한 약속인터넷과 웹 - 인터넷(Internet): 여러 컴퓨터끼리 네트워크를 연결한 것 - 웹(Web): 인터넷에서 정보를 교환할 수 있는 시스템 웹에서 정보 주고 받기 - 클라이언트(Client): 정보를 요청하는 컴퓨터 - 서버(Server): 정보를 제공하는 컴퓨터 요청/응답 과정 1. 클라이언트가 서버에게 정보를 요청 2. 요청에 대해서 서버가 작업을 수행 3. 수행한 작업의 결과를 클라이언트에게 응답 HTTP 구조 - ..