2010年4月29日木曜日
Twitter: 1ヶ月で12億 Tweet
リンクマイニングに関する興味深い論文
Fast Dynamic Reranking in Large Graphs, WWW2009
2010年4月24日土曜日
[StreamGraph] IPDPS 2010
Parallel Graph Algorithms II
Chair: Padma Raghavan
Optimization of Linked List Prefix Computations on Multithreaded GPUs Using CUDA
Zheng Wei (University of Maryland, US); Joseph Jaja (University of Maryland, College Park, US)
Parallel External Memory Graph Algorithms
Lars Arge (Aarhus University, Denmark); Michael Goodrich (University of California, Irvine, US); Nodari Sitchinava (Aarhus University, Denmark)
http://www.ics.uci.edu/~nodari/graph_pem.pdf
Engineering a Scalable High Quality Graph Partitioner
Mauel HoltGrewe (University of Karlsruhe, Germany); Peter Sanders (University of Karlsruhe, Germany); Christian Schulz (University of Karlsruhe, Germany)
2010年4月23日金曜日
Recent Various Papers
Network-Speed XML Processing on GPGPU
2010年4月22日木曜日
2010年4月21日水曜日
Twitter ログ分析 Web インタフェース
- Bursty 度合い: 定常状態とバースト時のトラフィックの比(相対的な比が保たれていれば良いのだが。。。)
- 時間的周期性: 定常状態において、時間によるトラフィックの周期性があるが、最もトラフィックが時間帯と最も低いときとの違い
- (べき乗則 (Power Law) も確認できれば, Load Shedding の戦略に役立つと思いますが。。。)
2010年4月20日火曜日
[StreamCDR] インメモリデータベース関係
2010年4月19日月曜日
[StreamCloud] アーキテクチャ考察
- ホストとストリーム番号のマッピングテーブルの管理: UDOP の出力ストリームは物理ホストを指定することができないので、Job Scheduler (UDOP) では、内部で出力ストリーム番号(以下、ストリーム番号と省略する)とホスト名をマッピングするテーブルを持たせる。このテーブルには、その他にも、スケジューリングアルゴリズムのために必要な各ホストの属性情報(CPU,メモリ、OS,動的負荷情報、メモリ使用量, レイテンシの平均及び分散、クラウド環境のホストかどうか)を持たせる。
- バースト度合いの計算: Job Scheduler はデータ到着レートを見てバースト度合いを計算。LAN 内のクラスタで処理できる量かどうかを調べる。
- バーストでない場合: 2の計算にてバーストでないと判断された場合には、Cluster Load Management Component (Python などのスクリプト言語を用いた軽量実装) からストリームとして流れる各ホストのロード情報を用いて、データを投げるホストを決定。決定したホスト名に相当するストリーム番号を上記のテーブルから引いてきて、データとプロパティをセットし、ストリームをexport する。export のプロパティは、クラウド環境も含めた一意の ID とする。
- バーストな場合: 2の計算にてバーストと判断された場合に、Cloud Controller (こちらも 同じく Python などのスクリプト言語を用いた軽量実装とする)に指令を出す。Cloud Controller はあるポート番号にて Listen しており、Job Scheduler からの指令を待つ。クラウドに対する VMM の管理コマンドが Job Scheduler から発行された場合には、Amazon EC2 や Eucalyptus などのクラウド環境に対して REST API を用いてその管理コマンドを発行する。また、VM の resume 時には、その VM にて System S のジョブが実行されるように、ジョブをサブミットする。計算側でのジョブは、import でデータを取り込み、処理を開始する。VM の suspend の際にはジョブキャンセルを実行する。
電子情報通信学会 データ工学6月研究会
6月研究会
日時:2010年6月28日(月)
場所:名古屋大学(愛知県名古屋市)
議題:「センサ情報処理,ストリームデータベース,および一般」
申込締切:5月7日(金)(ただし,学会誌に暫定プログラムを掲載する関係上,4月14日(水)までに申込いただけますと助かります)
原稿締切:6月7日(月)
申込みは http://www.ieice.org/ken/program/index.php?tgid=IEICE-DE からお願いします.
詳細はこちらをご覧ください.
ICDE 2011
2010年4月18日日曜日
Continuous Subgraph Pattern Search over Graph Streams
http://portal.acm.org/citation.cfm?id=1546683.1547430
Burst Detection
- Adaptive Burst Detection in in a Stream Engine (PDF)
- Better burst detection, ICDE 2006
- Efficient Elastic Burst Detection in Data Streams, SIGKDD 2003
- Statistical monitoring of thousands of data streams in real time, VLDB2002
2010年4月15日木曜日
データストリーム処理システム実装に向けて
2010年4月14日水曜日
2010年4月10日土曜日
2010年4月8日木曜日
2010年4月7日水曜日
[StreamCloud] Amazon EC2
http://aws.amazon.com/ec2/
2010年4月2日金曜日
COLA: optimizing stream processing applications via graph partitioning
URL
System S などのデータストリーム処理では、オペレータ(頂点)とオペレータ間を流れるストリーム(エッジ)をデータフローグラフとしてアプリケーションを記述することが一般的になっている。このような論理的なフローを実際の物理的な計算機環境上で稼動させ、かつ最適なパフォーマンスを出すためには、ある単位でオペレータを一つのOSのプロセスとして Fusion (統合)することが不可欠となる。Fusion の仕方としては、各オペレータの処理時間とオペレータ間の通信時間のバランスを考えて、Fusion をさせるかしないかを判断するが、多くのオペレータが存在する場合には到底、人間が判断することができない。当論文では、この Fusion のアルゴリズムを最小カットのグラフ分割問題として定式化することで、最適な Fusion パターンを割り出す手法を提案している。