副会長の報告書

日本キューティクル協会副会長のブログ

スクレイピングの悩み

困ってるなう

どうも副会長です

GoogleのコンテンツをスクレイピングするようなWebアプリを作りたい

過去にとあるコンテンツでやったことがあるんだけど、その時はIP制限食らった

IP制限ってこれのことですね

www.slideshare.net

(「Google スクレイピング ip制限」とかでググってもあんまり情報無いですね

あんまみんな困って無いのかな…?)

今解決策を考えてたんだけど、あんまりいい方法が浮かばない

AWSで都度インスタンス立てて都度破棄する

スクレイピングがリアルタイムではなく、定期的に行う && 計算コストが大体わかる

ならばこれでいいと思う

今回はユーザーアクションに応じてリアルタイムにスクレイピングを走らせたいのでぼつ

クライアント側でスクレイピングする

んーまあこれかなぁ

結局クライアント側で使いまくるとIP制限がかかるので根本解決ではない

ただIP分散しただけ

あとはIP制限じゃなくて、アクセス元のドメインで制限されると結局ダメな気がする

jsでhttpクライアントみたいなのを触ったことがないのでよくわからない

ぐぐってもあまり同じようなケースに遭遇しない

やろうとしてることが結構特殊な要件なのかね

んーjsでやってみるかなーー

ではでは

追記

これだーーーーーーー

いけるかもしれん

rubyのtor-privoxyを使って、IPを偽装しつつHTMLを取得する - webプログラマーのブログ

qiita.com

追記2

とりあえず動いた

nokogiriでプロキシ経由でスクレイピングしたメモ