프로그래밍

네이버/구글 이미지 자동 크롤링 프로그램 사용법 정리

개발독학 2021. 5. 13. 14:52

오픈소스를 활용해서 검색 키워드에 따른 이미지를 자동으로 크롤링하는 프로그램 활용법을 알려드리겠습니다.

Autocrawler (출처 : Autocrawler Github)

github.com/YoongiKim/AutoCrawler

위 사이트의 AutoCrawler 소스를 활용했습니다.
위의 사이트에서 다운로드하거나 git clone을 통해 본인 PC로 소스를 복사하시면 됩니다.
Python 3.6 또는 크롬 브라우저가 설치되어있지 않은 분들은 먼저 설치를 하고 진행해주세요.


위의 프로그램을 이용하면, 구글, 네이버에서 검색할 때 찾을 수 있는 이미지들의 썸네일과 원본 이미지를 모두 다운로드할 수 있습니다. 검색할 키워드가 뭔지만 지정하면 됩니다. 어떻게 할 수 있는지 알려드리겠습니다.

1. 나의 크롬 브라우저 버전 확인

크롬 브라우저 버전

크롬 브라우저의 버전은 여기서 확인할 수 있습니다. (chrome://settings/help)
브라우저에 URL을 입력하거나, [설정] - [Chrome 정보]로 들어가면 됩니다.
본인의 버전이 87이 아닌 경우 본인 버전에 맞는 chromedriver를 다운받아야 합니다.
다운로드 사이트 : chromedriver.chromium.org/downloads
chromedriver는 프로그래밍으로 브라우저 제어가 가능하도록 해주는 모듈이라고 보면 됩니다.

크롬드라이버 다운로드

버전을 선택하면 위와 같은 화면이 표시됩니다. 본인의 PC가 윈도우인 경우 win32, 맥인 경우 mac64 또는 mac64_m1(새로운 cpu인 m1이 탑재된 pc를 뜻하는 것 같습니다.), 우분투나 리눅스인 경우 linux64를 다운로드하면 됩니다.

다운로드를 받고 압축 해제 시 chromedriver 라는 이름의 파일이 생기고 이걸 Autocrawler 소스 안에 복사하면 됩니다.

크롬드라이버 파일

chromedriver 폴더 안에 본인의 OS에 맞도록 이름을 수정해서 복사합니다. (저의 경우는 우분투라 chromedriver_linux로 바꿨습니다.)

 

2. 파이썬 라이브러리 설치

저의 경우는 코드 에디터로 Pycharm을 사용하고 있습니다. 파이참에서는 [File] - [Settings]-[Project] 탭 - [Python Interpreter] 탭 으로 이동하면 가상환경을 추가할 수 있습니다. (Python Interpreter - Show All - 추가 버튼(+) 이용)

하단에 터미널을 열고 아래의 명령어를 입력하면 됩니다.
(가상 환경을 사용하지 않는 경우는 본인의 설정에 맞게 진행하면 됩니다.)

pip install -r requirements.txt

 

3. 키워드 설정


해당 오픈소스 개발자 분이 친절하게 설정해놓으신 덕분에 키워드 설정도 간편합니다.
keywords.txt 파일에 검색할 키워드를 넣고 저장하면 됩니다.
저는 "고양이" 라고 적었습니다.

 

4. 크롤러 실행

기본 설정으로 실행하는 경우는 아래의 명령을 입력해주세요.
(구글, 네이버 썸네일 이미지)

python main.py

원본 이미지를 다운로드하고 싶다면 아래의 명령을 입력해주세요. (썸네일 이미지보다는 시간이 좀 더 걸립니다.)

python main.py --full true

두 이미지를 비교해보면 원본과 해상도 차이가 많이 날 때도 있습니다.
필요에 따라 사용하시면 될 것 같습니다.

긴 글 읽어주셔서 감사합니다.