스크립트의 유용성

Posted by Young Han Lee on December 10, 2015 · 2 mins read

웹 다운로드 필요

실험을 하는데 데이터가 필요했다. 뭐 이것저것 찾다보니 웹에 그 데이터 들이 있는 것을 확인했다!!!
웹 검색은 역시 잉여짓이 아니었
그런데 링크가 주르륵 나눠져 있고, 각 페이지도 하이라키 구조로 되어 있었다.
아…덴장..
귀찮다;;
받아야 하는 링크는 대략 봐도 300개
어떻게 하지 고민에 빠졌다.

수작업으로 할까, 스크립트로 할까 고민…

어쩌면 300이라는 숫자가 나에겐 아직 고민이 되는 숫자인가보다.
왠지 수작업으로 그냥 하더라도 크게 시간이 들어갈 것 같지 않고 1시간이면 다 받을 것 같기도 하고 말이다.
그런데 한시간 동안 반복작업을 할 생각을 하니 급 짜증이 나기 시작했다.

스크립트로 결정

으음.. 안되겠다. 스크립트 연습도 할 겸 그냥 스크립트로 만들어야지
사실 평상시라면 그냥 다운받았을 수 있지만, 난 오늘 반차를 내고
여유롭게 웹검색을 하다가 발견한 자료니
뭔가 이 시간을 더욱 가치 있게 써야할 것처럼 느껴졌다. 그래서 우선은 반복작업이 없는 쪽으로 결정

실제 작업을 해보니 스크립트를 짜는데 10분도 안걸린 것 같다. ;0
파이썬이 정말 쉽기도 하거니와,
몇번 크롤링 해본 적이 있다보니 대충 어떻게 할지도 감이 오고..
실제 작업을 해보니 300개라고 수작업 하려고 했던 내 자신이 우습게 느껴졌다.

첫번째 결과

스크립트를 걸어놓고 첫째를 데릴러 다녀왔다. 30분이니까 그 정도 시간이면 다운로드까지 다 끝나있겠지..
혹시 노트북이 중간에 슬립될 수 있으니 카페인 먹여놓고 자리를 나선다.

돌아와서 봤는데 300 개 중에 대충 보니 200여개만 다운받아졌다. 중간 중간 뭐 이리 지는거지?

예상하지 않은 문제


확인해보니 링크를 가지고 오는데 중간에 ‘(‘ 등과 같은 특수 기호가 있어서 다운을 받다가 깨졌다. 맨날 “를 쓰다가 ‘를 썼더니 바로 문제가 발생하네.

두번째 결과

그 사이에 키즈까페로 이동
음, 뭔가 불편함이 많다.
ssh에 서버에 연결해서 스크립트를 열어
다시 “로 변경한 다음에 돌렸다.

음.
잘 도는 것 같다.
키즈까페에 왔으니까 ssh 은 다시 끊고 나중에 결과만 확인

결론

차곡차곡 다 잘 받아졌다.
다만 중간에 확인하는 과정을 해봤더니 하나의 요령이 생겼다.
wget을 통해서 웹 크롤링을 해야할 때는 우선 다운받을 리스트를 미리 만들어 놓고 별도의 스크립트를 돌리는 것이 좋다.
그래야 중간에 끊겼을 때 다시 시작하기 편하다.
아니면 다시 처음부터 받거나 하는 불상사가 발생함.

확실히 귀차니즘이 발전시킨다는 것을 느낀느 시간이었다.