ちょっと気になったこともあったので、PixivRSSのログを見てみた。
解析内容
・ユーザーエージェント(何を使って見ているか)
・タグ検索(何を見ているか)
前提
内容ごとにバラバラにデータをとっているため、「誰が」「何を」「何を使って」見ているかという情報はわからない。
解析方法
grep | sed | sort | uniqで重複なしのソート済みテキストを作成して、流し見。
解析対象
2013年6月10日のPixivRSSのログ
ユーザーエージェント
685種類(内、GoogleReaderだけで642種類。GoogleReaderを除けば43種類。)
GoogleReaderは来月止まるから放っとくとして、それ以外にもHatenaやYahoo Pipe,livedoor,tinytinyrssなどWebサービスが多かった。(と言いつつ自分もtinytinyrssユーザー)
デスクトップ用としては、各種ブラウザとWindows-RSS-Platform/2.0があった。どっちかわからないのが「Ruby」。Webサービスなのかデスクトップアプリなのか…
Windows XP+IE6という組み合わせらしきアクセスも。大きなお世話になるが、更新した方がいいぞ…
タグ検索
2桁程度ならどんな割合か出そうかと思ったけど、809種類あるんで諦めた。
パッと見た感じ「○○users入り」が多い。あとはR-18系。
意外と英語も混じってる。かと言って外国人が使ってるとは限らないけど。そのへんはIPアドレスから引いてこないとわからんし。
感想
「これ、どうせ俺か多くても数人だろう」とか考えてログ見てみたら、ユーザーエージェント基準で40人以上。GoogleReaderのfeed-idの基準がよくわからないけど、一人1個なら600人ってところか…バグ修正ミスるとこの人達全員に迷惑がかかるのか…((((;゚Д゚))))ガクガクブルブル
これサーバーからダウンロードするのに30分かかったからもうやらない。次やるときはサーバーサイドで欲しいデータ全部作ってからダウンロードすることにする。
以下ログデータ。結構膨大かつ一部R-18データに注意。
続きを読む PixivRSSのログを解析してみた