スクレイピングが特殊な行為だとか魔法だとか思ってる人が減らないので
ちょっと書いておこうか。
現時点でも岡崎市立中央図書館の新着情報ページは糞なわけですよ。
ためしに「ここ一週間で入荷した中の最も注目されている本をカテゴリ別に抽出」してみてください。
すぐにはできませんから。「最近の話題の本」すらわからない。
それをわかるようにしたら「おお,最近はこんなのが読まれてるのか。俺も読もう」という判断がつく。
わかるかなあ。要するに,現状不便なんだけど,このデータを毎日取得すると差分がわかるでしょ,つまり,今日入った本がわかる。ってことは,それを毎日続けると,毎日入った本がわかる。だから,「今日を基点に過去一週間」ってデータも取れる。さらに書誌詳細も取っておけば,「新着で人気」の本かどうかがわかる。
それをデータベースに入れてあれば,簡単に抽出できる。こんなイメージで。
「過去一週間で,予約が3件以上入った本を調べる」
「今日入った本で,予約の多い順にとりあえず10冊分のデータを取り出す」
いちいち手で操作してデータをコピペするのが面倒くさいから,プログラミングして自動化した。
そんだけ。
たったそんだけで逮捕されて一ヶ月近く拘束されたわけ。その挙句に「君は罪を犯したけれど反省しているから起訴しないであげる」とか言われたわけ。当然犯罪事実があったっていう扱いをされたわけ。公的には今でもそう。
わかる?
「使いにくいから便利にしよう」と考えて,そうしたら捕まったわけ。
だからみんな「そりゃおかしいだろ」ってツッコミ入れてるわけ。
Internet Explorer でクッキーオフにしてる人がたまたまオフラインコンテンツに登録しただけでサービスできなくなるようなクソシステムがクソだってことが露呈したときに利用者が捕まったのはどう考えてもおかしいでしょ。
焼き鳥屋で,注文を三つまでしか覚えられない店員に「ハイボールとねぎま串,あとココロと皮。皮は塩焼きでね」って注文したら店員が泣き出したので注文した客が捕まった。これ普通に考えておかしいでしょ。そんなもん店員がアホなだけやないかいと。
そしたらなんか知らんけど「店員がいくつ覚えられるか考えて注文しないほうが悪い」だの「一度に何種類も注文するほうがおかしい」だの挙句の果てには「つまみに皮とかキモっ」とか言い出す奴が後を絶たないわけさね。
それと同じことが「クロールするならサーバの性能を考慮しろ」だの「毎秒とか多い」だの「クローラキモイ」だのなわけさね。
で,後からこっそり「あの店員は皿洗いに回して,注文はメモをとるようにしました」とかしれっとやってるわけさね。警察は警察で「いや実際店員がパニクって店は注文取れなくなったわけだし」とか言っちゃってるし検察は検察で「たくさん注文したら覚えきれないかもって想像すればできたよね」みたいなこと言っちゃってるしお前ら全員頭割って中身チェックしろと。
まああれだ。自動化つってもそんな難しいことをしたわけじゃないんだよ。ブラウザでアクセスしてコピペするのを機械にやらせただけで。あとからコピペして溜まったデータを別途整理して使おうとしたら捕まったっつうこと。
言っておくけど,手動でも同じ結果出たからね。FirefoxでクッキーオフにしてCtrlキー押しながらリンクをガンガンクリックしていけば毎秒1〜2回くらいのスピードは出るだろ。以上終了。
そんなにショボイとは誰も想像できねーよ,ってのは過去日記で実験したりしているから読んでくだちい。
つことで。