일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- AWS
- ELT
- 알고리즘
- 데이터 웨어하우스
- truncate
- docker hub
- 컨테이너 삭제
- 데이터레이크
- ETL
- spark
- Serializer
- Django
- selenium
- SQL
- snowflake
- dag
- dag 작성
- airflow.cfg
- 웹 크롤링
- 웹 스크래핑
- docker
- redshift
- yarn
- docker-compose
- Hive
- Kafka
- Django Rest Framework(DRF)
- airflow
- 데이터파이프라인
- 데이터마트
- Today
- Total
목록데브코스(DE)/파이썬으로 웹 크롤링 및 분석 (5)
개발 기록장

학습 주제: Seaborn, 그래프, WordCloud, KoNLPySeaborn: matblotlib을 기반으로 하는 데이터 시각화 라이브러리: 다양한 그래프를 고수준(high-level)에서 쉽게 그릴 수 있다.: 스크래핑 결과 시각화Seaborn 설치%pip install seaborn Line Plot - 꺾은선 그래프: 두 변수의 값에 따른 추이를 선으로 이은 그래프# 값 x=[1, 3, 2, 4]# 값 y=[0.7,0.2,0.1,0.05]sns.lineplot(x=[1, 3, 2, 4],y=[0.7,0.2,0.1,0.05])Bar Plot - 막대 그래프: 범주형 데이터의 "값"과 그 크기를 직사각형으로 나타낸 그래프 # 범주 x=[1,2,3,4]# 값 ..
학습 주제: Selenium, Wait and Call, 마우스/키보드 이벤트 처리, Jupyter LabSelenium: 브라우저 자동화 Selenium 설치%pip install selenium Web Driver - 웹 브라우저를 제어할 수 있는 자동화 프레임워크.%pip install webdriver-manager Selenium 시작# selenium으로부터 webdriver 모듈 불러오기from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom webdriver_manager.chrome import ChromeDriverManager#크롬 실행 및 요청 보내기driver..

학습 주제: BeautifulSoup, 웹 크롤링, 동적 웹 페이지HTML을 분석해주는 BeautifulSoup: HTML 분석기 BeautifulSoup4 설치%pip install bs4 BeautifulSoup 객체 만들기#모듈 불러오기#www.example.com 사이트 요청한 후 응답 받아보기import requestsres = requests.get("http://www.example.com")res.text Html Parser# 첫번째 인자: response의 body를 텍스트로 전달.# 두번째 인자: "html"로 분석한다는 것 명시.from bs4 import BeautifulSoupsoup = BeautifulSoup(res.text,"html.parser")print(soup..

학습 주제: HTTP 통신, 웹페이지, HTML, 웹 스크래핑, 웹 크롤링HTTP(HyperText Transfer Protocol): 웹 상에서 정보를 주고 받기 위한 약속인터넷과 웹 - 인터넷(Internet): 여러 컴퓨터끼리 네트워크를 연결한 것 - 웹(Web): 인터넷에서 정보를 교환할 수 있는 시스템 웹에서 정보 주고 받기 - 클라이언트(Client): 정보를 요청하는 컴퓨터 - 서버(Server): 정보를 제공하는 컴퓨터 요청/응답 과정 1. 클라이언트가 서버에게 정보를 요청 2. 요청에 대해서 서버가 작업을 수행 3. 수행한 작업의 결과를 클라이언트에게 응답 HTTP 구조 - ..

학습 주제: HTML 태그HTML(Hypertext Markup Language) HTML 기본 문법 - 콘텐츠를 가지는 태그: 콘텐츠 - 콘텐츠를 가지지 않는 태그: 속성과 값 HTML 기본 문서 안녕하세요 부모 요소 - 자식요소 HTML 주석 : 개발자가 코드 내에 작성한 메모 - 기본 사용법 시작 태그: 종료 태그: --> * 주석 안에 주석은 불가 Head: 사람 눈에 보이지 않는 "문서의 정보"가 담기는 영역Head가 가질 수 있는 정보의 종류 1. 타이틀 2. 메타 데이터 ..