I T_Develope/python크롤링

[Python_크롤링] 파이썬 웹 크롤링 입문 (2) - 네이버 정보 가져오기(requests+beautifulsoup)

크롱롱크롱 2021. 5. 20. 16:14

1. BeautifulSoup 시작하기

요청한 HTML을 프린트 해보면 매우 길고 지저분하다. 그래서 결국 라이브러리의 힘을 빌려야 한다. HTML 문서를 탐색해서 원하는 부분만 쉽게 뽑아낼 수 있는 파이썬 라이브러리 BeautifulSoup를 사용해보자.

아래와 같이 코드를 추가해봤어요.

 

 

pip install beautifulsoup4

자 소스를 변경해볼까요?

import requests #모듈을 가져오기
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com/') #requests.get을 통해 naver에 있는 소스를 response 변수에 대입
a = BeautifulSoup(response.content, 'html.parser') #라이브러리 함수를 통해서 파서가 content를 정렬해주어 a에 대입

print(a) #a출력

결과 :

 

이쁘게 바뀌어 지네용 '-'ㅎ

반응형