본문 바로가기
파이썬 배우기

파이썬으로 웹크롤링 해 보기!!! 번외편 #2편 (진도 나가기 전 복습하기!!!)

by 북노마드 2022. 7. 26.
728x90
반응형

바로 저번 시간에 이어서 나가보겠습니다.

 

파이썬으로 웹크롤링 해 보기!!! 번외편 (진도 나가기 전 복습하기!!!)

웹크롤링 진도가 잘 나가고 있습니다. 이전에는 특정페이지에서 text만 가져오는 코딩을 했었습니다. 다시 한번 복습해 보겠습니다. 코딩을 하루 이틀 안 하다 보면, 또 잊어 버리니까요. 에빙하

booknomad.tistory.com

import requests
from bs4 import BeautifulSoup

x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text

z = BeautifulSoup(y, "html.parser")

print(z.title)
 

요거의 결과값은 요겁니다. 웹페이지 상단의 "테슬라: 네이버 뉴스검색" 보이시죠? 창의 제목, 이것만 가져온 겁니다.

 

import requests

from bs4 import BeautifulSoup
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
z = BeautifulSoup(y, "html.parser")
print(z)

이렇게 해 버리면 웹페이지에 있는 모든 정보를 가져오게 됩니다. 그래서 print를 하기 전에 특정 영역을 지정해 주는 걸 삽입하는 겁니다.

 

import requests
from bs4 import BeautifulSoup

 

x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
 
z = BeautifulSoup(y, "html.parser")
 
i = z.select(".news_tit")
 
print(i)
 
중간에 i = z.select(".news_tit")를 집어 놓은 게 보이시냐요?
 
F12를 누리고 html이 뜨면 왼쪽 상단의 화살표를 클릭하면서 테슬라 뉴스기사의 헤드라인을 클릭하면 해당 html이 나옵니다. 거기서 class 부분을 유심히 보세요.

테슬라, 비트코인으로 상반기에만 2200억원 손실

 

이라는 헤드라인 기사가 

 

class = "news_tit"

 

로 구성되어 있습니다. 이걸 고르겠다, 라는 의미로 select 함수를 씁니다.

 

import requests

 

from bs4 import BeautifulSoup
 
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
 
z = BeautifulSoup(y, "html.parser")
 
 
여기까지 쓰고 출력하면 해당 웹페이지의 거지같은 html 코딩 전체가 나오니까 거기서 골라낸다는 의미입니다. 뭘요? 헤드라인만요. 
 
select(".
 
여기까지 쓰고 방금 찾은 class 의 양 따옴표 안의 news_tit를 적고
") 
 
이렇게 닫아줍니다.
 
 
i = z.select(".news_tit")
 
print(i)

결과값 볼까요?

잘 보이죠?

 

이제 다음 시간에는 그래도 헤드라인 주의에 덕지덕지 남아 있는 이상한 영문자들 없애보겠습니다.

 

그럼 다음 시간 기대해 주세요^^

728x90
반응형

댓글