以下、DSMS における対象データの分類と、処理の分類を行う。
[対象データの分類]
構造化データの処理
- 株価データ (データ形式: 企業名、時刻、株価)
- 通信会社の通話記録 CDR (Call Data Record)(データ形式: Caller ID, Called ID, 通話時間 など)
- GPS データ (位置情報): 携帯電話、車等 (データ形式: デバイスID, 緯度、経度)
- DNA シ-ケンサーからの塩基配列 (データ形式: ATCG からなる 50~100の塩基配列)
- イベントデータ:
非構造化データの処理
- テキスト(自然言語): ブログ
- 音声
- 画像 (非圧縮画像 TIFF など)
構造化データと非構造化データの上記組み合わせ
[分析処理の分類]
軽量処理
- 平均、最大値、最小値 (SPADE の built-in オペレータで OK) ; Window 処理
- 判定処理: 到着データがある閾値である場合 (Functor 処理)
重量処理 (UDOP で書かれる)
- 異常値スコアの計算 (行列計算など.ただし、Sliding Window のサイズによっては非常に小さな行列を計算する場合もあり、軽いこともある)
- 塩基配列の Sequence Matching
gnuplotでeps
12 年前
0 件のコメント:
コメントを投稿