カラクリスタ

『輝かしい青春』なんて失かったヒトのブログ

Plaggerで大量のHTMLサイトを巡回するにはどうしたらいいか

Plaggerで大量のFeed捌く場合はAggregator::XangoとかAggregator::Asyncとか使えるから問題はない。

問題は100とか200とかのHTMLを巡回する場合。

CustomFeed::DebugでダミーFeed作ってFilter::EntryFullTextとかでタイトルと本文ゲットとかするわけだけど、これを高速化する手順がなかなか見つからない。

Filter::EntryFullTextとXangoくっつけて高速化するパッチはあったけど、他にも似たようなことをしようとすると、似たようなことを繰り返すことになってしまう。

で、データとってくる部分を共通化できないかってことで、色々考えてた。ぶっちゃけFilter::EntryFullTextでタイトルと本文(HTMLのbody)と更新日時取ってくる代わりにCustomFeed::AntennaとかAggregator::Antennaとか作って高速化できないかなーと色々ソース見たものの、構造的になんかうまくできない感じだなーどうしたらいいんだ改造してしまえと言う結果が昨日と今日のPlagger関係のエントリだったりする。

いや、真剣にどうしよう。今の速度でレンタルの共用サーバでPlagger定期的に動かすのは数からいってちょっとやばいのでなんとかしたい、というかなんとかしないとアンテナが作れない。まあ、自分でサーバ用意してFTPで共用サーバに上げればば良いんじゃねとか思うけど、サーバが用意できない。だからレンタルサーバに突っ込んだんだけど、(ryっていうかループ。

うん。どうしたもんか。と言いつつもこういうの考えてるの結構好き。

遠出して疲れて眠いせいか妙にテンション高い。