로딩로딩중

크롤링

최근 수정 시각:

분류

1. 개요2. 불법인가?

1. 개요[편집]

크롤링(crawling) 혹은 스크레이핑(scraping)은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위이다. 크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다.

Python이 이 분야의 선두주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리 들이 발달하면서 급격히 발전하고 있다. 대표적인 파이썬 라이브러리의 예로 beautifulsoup등이 있다.

나무위키리그베다 위키를 크롤링해서 시작된 위키이고, 나무위키 미러 등은 나무위키를 크롤링한 곳이다.

조금 유형은 다르지만, 검색 엔진에서도 유사한 것을 필수적으로 사용하는데, 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용한다. 이 때는 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다.

전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 툴로는 httrackwget-curl 정도가 있다. 인터넷이 느렸던 2000년대 초반에는 WebZip이라는 것이 인기를 모으기도 하였다.

크롤링을 기반으로 만든 서비스로는 유명 검색엔진 네이버, 구글 등이 있다.

2. 불법인가?[편집]

파일:나무위키상세내용.png   자세한 내용은 미러링 문서의 해당 부분을 참고하십시오.

KLDP의 모 유저는 모두까기와 함께 설명한다 [1]
결론부터 말하자면 아니다. 그렇다면 구글같은 경우에는 DMCA 테이크 다운이 걸려야 한다. 불펌 문서를 참조하면 알겠지만, 크롤링해서 데이터를 개인 하드[2]에 소장하는 것까지는 합법이다. 배포하면 그 순간부터 합법과 불법이 갈린다. 특히 박제목적의 경우에는... 임시조치가 내려질 수도 있다.

[1] 끝까지 내려보면 여기서 설명하는 모든 내용을 알 수 있다.[2] 웹하드는 아닐 수도 있다. 웹 공간에 저장하기 때문에 해킹되면 그것도 배포에 속할 수 있다.