PixivRSSのログを解析してみた

ちょっと気になったこともあったので、PixivRSSのログを見てみた。

解析内容

・ユーザーエージェント(何を使って見ているか)
・タグ検索(何を見ているか)

前提

内容ごとにバラバラにデータをとっているため、「誰が」「何を」「何を使って」見ているかという情報はわからない。

解析方法

grep | sed | sort | uniqで重複なしのソート済みテキストを作成して、流し見。

解析対象

2013年6月10日のPixivRSSのログ

ユーザーエージェント

685種類(内、GoogleReaderだけで642種類。GoogleReaderを除けば43種類。)
GoogleReaderは来月止まるから放っとくとして、それ以外にもHatenaやYahoo Pipe,livedoor,tinytinyrssなどWebサービスが多かった。(と言いつつ自分もtinytinyrssユーザー)
デスクトップ用としては、各種ブラウザとWindows-RSS-Platform/2.0があった。どっちかわからないのが「Ruby」。Webサービスなのかデスクトップアプリなのか…
Windows XP+IE6という組み合わせらしきアクセスも。大きなお世話になるが、更新した方がいいぞ…

タグ検索

2桁程度ならどんな割合か出そうかと思ったけど、809種類あるんで諦めた。
パッと見た感じ「○○users入り」が多い。あとはR-18系。
意外と英語も混じってる。かと言って外国人が使ってるとは限らないけど。そのへんはIPアドレスから引いてこないとわからんし。

感想

「これ、どうせ俺か多くても数人だろう」とか考えてログ見てみたら、ユーザーエージェント基準で40人以上。GoogleReaderのfeed-idの基準がよくわからないけど、一人1個なら600人ってところか…バグ修正ミスるとこの人達全員に迷惑がかかるのか…((((;゚Д゚))))ガクガクブルブル
これサーバーからダウンロードするのに30分かかったからもうやらない。次やるときはサーバーサイドで欲しいデータ全部作ってからダウンロードすることにする。
以下ログデータ。結構膨大かつ一部R-18データに注意。
続きを読む PixivRSSのログを解析してみた