파이썬 강좌(초급)/(실습) 크롤링

(실습)파이썬 네이버에서 강아지로 검색 후 강아지 이미지를 자동으로 크롤링 하는 프로그램 만들기 - 5.가져온 소스에서 이미지 링크와 설명만 뽑아서 리스트에 담아두기

파기차차 2024. 3. 3. 13:53
728x90
반응형
SMALL

ㅁ 개요

 

O 프로그램 소개

 

 

 - 이번 글은 이전글(2024.03.02 - [분류 전체보기] - (실습)파이썬 네이버에서 강아지로 검색 후 강아지 이미지를 자동으로 크롤링 하는 프로그램 만들기 - 4.가져온 소스 필터링 테스트 하기)에 이은 6번째 글로 이전글에서 가져온 이미지 태크의 속성 중에서 'src' 와 'alt' 만 가져와서 리스트에 담는 방법에 대해 설명합니다

 

 

 

 

 

O 완성된 프로그램 실행 화면

 

 

 - 최종 완성된 프로그램의 결과화면은 아래와 같습니다.

 

 

1.소스코드를 실행하면 아래와 같이 나타납니다.

첫번째 보여주는 것은 src속성(url 링크)을 리스트로 반환하며

두첫번째 보여주는 것은 alt속성(이미지 설명)을 리스트로 반환합니다.

 

 

 

 


 

ㅁ 세부 내용

 

O 완성된 소스

 

 

소스 : 5.crawing_naver.py

 

 

 

 

 

 

O 소스 실행

 
 - 소스파일 다운로드 후 cmd, 파워쉘 또는 vscode 등에서 아래와 같이 실행하시기 바랍니다.
 
 > python 5.crawing_naver .py

 

 


 

O 주요 내용

 

 

5.아래 소스에 대해 간략히 설명하면 다음과 같습니다.

 

line 51~52 :이미지 태그 내 src(링크)와 alt(이미지 설명)을 담아둘 리스트를 정의합니다.

line 53~55 : for루프를 이용해 soup객체의 find_all함수를 이용하여 img태그의 클래스 속성이 ' _fe_image_tab_content_thumbnail_image ' 인 이미지 태그를 모두 가져와서 append 메소드로 하나씩 위에서 만든 리스트에 담습니다.

 

**참고

soup.find() : 소스내 일치하는 첫번째 내용물만 가져옵니다.

soup.find_all() : 소스내 일치하는 모든 내용물을 가져옵니다.

 

 

 

 

 

 

소스 실행결과는 위에서 설명드린 바와 같이 src(링크)로 이루어진 리스트와, alt(이미지 설명)로 이루어진 리스트 2개를 출력하고 있습니다.

 


 

ㅁ 정리

 

O 우리가 배운 내용

 
 - 오늘 우리는 이전글에서 가져온 소스내 이미지 태크의 속성 중에서 'src' 와 'alt' 만 가져와서 리스트에 담는 방법에 대해 알아보았습니다.

 

 - 오늘 우리가 배운 내용 중 가장 중요한 부분을 꼽으라면 아래와 같습니다.

for루프를 이용해 soup객체의 find_all함수를 이용하여 img태그의 클래스 속성이 ' _fe_image_tab_content_thumbnail_image ' 인 이미지 태그를 모두 가져와서 append 메소드로 하나씩 위에서 만들어둔 리스트에 담습니다.

image_links = []
image_alts = []
for img in soup.find_all('img', {'class': '_fe_image_tab_content_thumbnail_image'}):
    image_links.append(img['src'])
    image_alts.append(img['alt'])

 

 

- 다음 시간에는 가져올 이미지 개수를 지정하고, 이미지 링크와 이미지 설명을 zip()함수로 묶는 방법을 설명합니다. 

 
 
 
 

 

오늘은 여기까지이며, 댓글하트는 제가 이글을 지속할 수 있게 해주는 힘이 됩니다.

 

 

감사합니다.

728x90
반응형
LIST