2010年4月21日水曜日

Twitter ログ分析 Web インタフェース

Twitter の Streaming API を用いて収集したデータを元に、StreamCloud, StreamDS, StreamAlgo プロジェクトの基礎統計データを集めたいと思います. Streaming API は間引かれているので、絶対的な値は利用できませんが、少なくとも以下の2点の統計情報が取れればと思います。
  • Bursty 度合い: 定常状態とバースト時のトラフィックの比(相対的な比が保たれていれば良いのだが。。。)
  • 時間的周期性:  定常状態において、時間によるトラフィックの周期性があるが、最もトラフィックが時間帯と最も低いときとの違い
  • (べき乗則 (Power Law) も確認できれば, Load Shedding の戦略に役立つと思いますが。。。)
 基礎統計データの取得が主眼なので可視化する必要性はありませんが、Streaming API を用いて時々刻々取得しているかどうか確認するためにも、以下のような グラフ化ツールを用いて Web 上で見れても面白いでしょう。

Open Flash Chart : Flash でグラフを生成するオープンソースのツール。PHP が必要。

 GUI の要件としては、いつからいつまでどのくらいの間隔で取得するかどうかをユーザーが設定し(例えば、2010年3月1日0時00分~2010年3月31日23時59分の間で1時間毎, もしくは2010年3月1日の00時から24時までで5分毎、など)、再描画ボタンでグラフの再処理リクエストをサーバー側に送信。
 サーバー側の PHP スクリプトでは、パラメータで設定された情報を元に、Twitter のログデータから件数を取得(または事前に件数をあるファイル又は DB に書き込んでおいてもよい)。X 軸を時間、Y 軸をデータ件数として、Open Flash Chart のオブジェクトにセットし、グラフを生成。

0 件のコメント:

コメントを投稿