Last-modified: 2011-12-26 (月) 01:24:43
LinuxTips/スクレイピングコードを書かずにサイトからデータを抜きたい

概要

curlを利用して、スクレイピングコードを書かずに、サイトからデータを抜く方法です。
ただし、URLに連番が含まれるような構造のサイトにしか使えません。
抜いたあとに独自の処理を行わせたいときや、ページの情報の一部だけ欲しいときは、スクレイピングコードを書いた方がよいでしょう。


標準ではWindowsに入っていませんが、Linux系のなにかしらのパッケージを入れていれば、こっそり入っているかもしれません。私の環境では、msysgitの中に含まれていました。

方法

Everything is expanded.Everything is shortened.
  1
  2
  3
  4
  5
-
!
 
-
!
# 基本フォーマット
<curlパス> -O <ダウンロードするURL([0-100]のような記述が使える)>
 
# 例. http://hoge.com/0.jpghttp://hoge.com/100.jpgまでをダウンロード
curl -O http://hoge.com/[0-100].jpg
Everything is expanded.Everything is shortened.
  1
  2
  3
  4
  5
-
!
 
-
!
# リファラとユーザーエージェント付き
<curlパス> -e <リファラ> -A <ユーザーエージェント> -O <ダウンロードするURL>
 
# 例.
curl -e http://hoge.com -A "Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 GTB7.1" -O http://hoge.com/[0-100].jpg

検証時の環境