728x90
반응형
바로 저번 시간에 이어서 나가보겠습니다.
import requests
from bs4 import BeautifulSoup
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
z = BeautifulSoup(y, "html.parser")
print(z.title)
요거의 결과값은 요겁니다. 웹페이지 상단의 "테슬라: 네이버 뉴스검색" 보이시죠? 창의 제목, 이것만 가져온 겁니다.
import requests
from bs4 import BeautifulSoup
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
z = BeautifulSoup(y, "html.parser")
print(z)
이렇게 해 버리면 웹페이지에 있는 모든 정보를 가져오게 됩니다. 그래서 print를 하기 전에 특정 영역을 지정해 주는 걸 삽입하는 겁니다.
import requests
from bs4 import BeautifulSoup
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
z = BeautifulSoup(y, "html.parser")
i = z.select(".news_tit")
print(i)
중간에 i = z.select(".news_tit")를 집어 놓은 게 보이시냐요?
F12를 누리고 html이 뜨면 왼쪽 상단의 화살표를 클릭하면서 테슬라 뉴스기사의 헤드라인을 클릭하면 해당 html이 나옵니다. 거기서 class 부분을 유심히 보세요.
테슬라, 비트코인으로 상반기에만 2200억원 손실
이라는 헤드라인 기사가
class = "news_tit"
로 구성되어 있습니다. 이걸 고르겠다, 라는 의미로 select 함수를 씁니다.
import requests
from bs4 import BeautifulSoup
x = requests.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%ED%85%8C%EC%8A%AC%EB%9D%BC")
y = x.text
z = BeautifulSoup(y, "html.parser")
여기까지 쓰고 출력하면 해당 웹페이지의 거지같은 html 코딩 전체가 나오니까 거기서 골라낸다는 의미입니다. 뭘요? 헤드라인만요.
select(".
여기까지 쓰고 방금 찾은 class 의 양 따옴표 안의 news_tit를 적고
")
이렇게 닫아줍니다.
i = z.select(".news_tit")
print(i)
결과값 볼까요?
잘 보이죠?
이제 다음 시간에는 그래도 헤드라인 주의에 덕지덕지 남아 있는 이상한 영문자들 없애보겠습니다.
그럼 다음 시간 기대해 주세요^^
728x90
반응형
'파이썬 배우기' 카테고리의 다른 글
파이썬으로 웹크롤링한 정보를 엑셀로 저장하기 #1편 (0) | 2022.08.04 |
---|---|
파이썬으로 웹크롤링 해 보기!!! 번외편 #3편 (교보문고 베스트셀러 웹크롤링!!!) (0) | 2022.07.31 |
파이썬으로 웹크롤링 해 보기!!! 번외편 (진도 나가기 전 복습하기!!!) (0) | 2022.07.19 |
파이썬으로 웹크롤링 해 보기!!! 6편 (ft. 검색어 변경하기 - 이어서) (0) | 2022.07.05 |
파이썬으로 웹크롤링 해 보기!!! 5편 (ft. 검색어 변경하기) (0) | 2022.07.05 |
댓글