スクレイピングの悩み
困ってるなう
どうも副会長です
GoogleのコンテンツをスクレイピングするようなWebアプリを作りたい
過去にとあるコンテンツでやったことがあるんだけど、その時はIP制限食らった
IP制限ってこれのことですね
www.slideshare.net
(「Google スクレイピング ip制限」とかでググってもあんまり情報無いですね
あんまみんな困って無いのかな…?)
今解決策を考えてたんだけど、あんまりいい方法が浮かばない
AWSで都度インスタンス立てて都度破棄する
スクレイピングがリアルタイムではなく、定期的に行う && 計算コストが大体わかる
ならばこれでいいと思う
今回はユーザーアクションに応じてリアルタイムにスクレイピングを走らせたいのでぼつ
クライアント側でスクレイピングする
んーまあこれかなぁ
結局クライアント側で使いまくるとIP制限がかかるので根本解決ではない
ただIP分散しただけ
あとはIP制限じゃなくて、アクセス元のドメインで制限されると結局ダメな気がする
jsでhttpクライアントみたいなのを触ったことがないのでよくわからない
ぐぐってもあまり同じようなケースに遭遇しない
やろうとしてることが結構特殊な要件なのかね
んーjsでやってみるかなーー
ではでは
追記
これだーーーーーーー
いけるかもしれん
rubyのtor-privoxyを使って、IPを偽装しつつHTMLを取得する - webプログラマーのブログ
追記2
とりあえず動いた