2009年6月11日木曜日

DSMS におけるデータと処理の分類

以下、DSMS における対象データの分類と、処理の分類を行う。

[対象データの分類
]

構造化データの処理
- 株価データ (データ形式: 企業名、時刻、株価)
- 通信会社の通話記録 CDR (Call Data Record)(データ形式: Caller ID, Called ID, 通話時間 など)
- GPS データ (位置情報): 携帯電話、車等 (データ形式: デバイスID, 緯度、経度)
- DNA シ-ケンサーからの塩基配列 (データ形式: ATCG からなる 50~100の塩基配列)
- イベントデータ: 

非構造化データの処理
- テキスト(自然言語): ブログ
- 音声
- 画像 (非圧縮画像 TIFF など)


構造化データと非構造化データの上記組み合わせ

[分析処理の分類]

軽量処理
- 平均、最大値、最小値 (SPADE の built-in オペレータで OK) ; Window 処理
- 判定処理: 到着データがある閾値である場合 (Functor 処理)

重量処理 (UDOP で書かれる)
- 異常値スコアの計算 (行列計算など.ただし、Sliding Window のサイズによっては非常に小さな行列を計算する場合もあり、軽いこともある)
- 塩基配列の Sequence Matching

0 件のコメント:

コメントを投稿