概要 †
curlを利用して、スクレイピングコードを書かずに、サイトからデータを抜く方法です。
ただし、URLに連番が含まれるような構造のサイトにしか使えません。
抜いたあとに独自の処理を行わせたいときや、ページの情報の一部だけ欲しいときは、スクレイピングコードを書いた方がよいでしょう。
標準ではWindowsに入っていませんが、Linux系のなにかしらのパッケージを入れていれば、こっそり入っているかもしれません。私の環境では、msysgitの中に含まれていました。
方法 †
1
2
3
4
5
| -
!
-
!
| <curlパス> -O <ダウンロードするURL([0-100]のような記述が使える)>
curl -O http://hoge.com/[0-100].jpg
|
1
2
3
4
5
| -
!
-
!
| <curlパス> -e <リファラ> -A <ユーザーエージェント> -O <ダウンロードするURL>
curl -e http://hoge.com -A "Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 GTB7.1" -O http://hoge.com/[0-100].jpg
|
検証時の環境 †
- CentOS 5.5 x86
- Windows 7 Professional x64
- Windows XP Professional SP 3 x86