2011年11月20日日曜日

2011年11月19日土曜日

[Graph500] Graph500 on Amazon EC2

Graph500 on Amazon EC2 に関して

- Amazon EC2 のクラスタインスタンスの仕様
Amazon EC2 supports Cluster instance"
Xeon X5570 (2.95GHz), 23 GB of RAM, 1690 GB of local
storage, and 10 Gbps network, all for $1.60 per hour  recently GPU (Tesla Fermi) is available
(2010年後半の仕様なので変化があるはず)

- 研究内容
- 仮想化環境において Graph500 を実行し、bare metal の環境との性能特性を行う
- ベンチマークを完遂させることを目的としない。BFS を何回か、validation は実行しない。
- Scale は 1ノードにつき Scale 26でいけるので、TSUBAME で取った性能プロファイルと比較できる
- マイクロベンチマークを実行し、ネットワークトポロジー予測を行う(関連研究があるはずなので調査)
- CPU 課金が1時間単位なのでノード数を少なくできるか?
- 予測トポロジーに応じて、MPI のランク最適配置を計算し、性能を向上させる
- 128ノードを用いて12時間走らせて約20万円
- 上記研究内容をもとに、Amazon が Graph500 にサブミッションするかどうかは別の話し
- Target Conference: IEEE Cloud 2012 締め切りは 2012年1月後半

[参考文献]
http://www.stratosphere.eu/files/TopologyInferenceEnd2End_11.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5948654

http://dl.acm.org/citation.cfm?id=1833691
The impact of virtualization on network performance of amazon EC2 data center, InfoCOM 2010

Cloud computing services allow users to lease computing resources from large scale data centers operated by service providers. Using cloud services, users can deploy a wide variety of applications dynamically and on-demand. Most cloud service providers use machine virtualization to provide flexible and costeffective resource sharing. However, few studies have investigated the impact of machine virtualization in the cloud on networking performance.

In this paper, we present a measurement study to characterize the impact of virtualization on the networking performance of the Amazon Elastic Cloud Computing (EC2) data center. We measure the processor sharing, packet delay, TCP/UDP throughput and packet loss among Amazon EC2 virtual machines. Our results show that even though the data center network is lightly utilized, virtualization can still cause significant throughput instability and abnormal delay variations. We discuss the implications of our findings on several classes of applications.

Meeting w/ Andy Yoo (LLNL)

Here are the minutes of the meeting we had with Andy,

-------------------------------------

There is no MatLab code or MPI code. Miyuru need to create an MPI implementation of the graph generator.

The reason why current methods (e.g. RMAT) not good is there is a low level of clustering coefficient. We need a generator that creates data set with very high clustering coefficient of data points.

The proposed method starts with Quasi Cliques. There are non-zero elements in the Matrix.

Miyuru should read the look for Chung-Lu model. There is a paper published around 2001-2002.

The basic idea is given a degree distribution the implementation should extract the model out of it.
So the main activities are,

- Create a MatLab model of the generator
- Port MatLab code to MPI
- Do experiments of the graph generator with Tsubame

[Graph500] 住元さんとの議事録

SC2011 にて住元さんとミーティング。以下、上野君が取ってくれた議事録

通信性能は、1本あたり4.7GB/5GB。1ノード全部で14.7GB。
ジョブごとにセグメントを分けている
6次元なのでホップ数はx,y,zにそれぞれ+2したもの
K用のプロファイリングツールがある
6次元での位置や故障ノードのなどの情報はユーザに見せていない
3次元では遠いノードでも、6次元なのでショートカットが存在する
3次元で遠いノードほど、ショートカットがある
実行中にノードが故障したら割り当て範囲内で再配置して実行
キャッシュセグメント?(明示的にキャッシュを制御する?)
プログラムからはローカルディスクしか見えない
ローカルディスクは32ノードに対して1RAIDシステム
15000回転のHDD 16台のRAID 4+1
接続はFiberChannel
メモリのデータをすべてダンプするだけの容量くらいはもちろんある
キャッシュインジェクションにより低レイテンシ(Infinibandにはない)
RDMAなので、最終的にはメモリに書き込まれる
普通はDMAでメモリに書き込まれたらキャッシュはフラッシュされる
キャッシュラインに全部書き込めばメモリから読み込まれることはない
通信モジュールは入出力合わせて100GB/s
富士通のユーザフォーラム SSけん HPC forum おいなが

2011年11月15日火曜日

2011年11月8日火曜日

Rodinia: A Benchmark Suite for Heterogeneous Computing

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.147.8883

This paper presents and characterizes Rodinia, a benchmark suite for heterogeneous computing. To help architects study emerging platforms such as GPUs (Graphics Processing Units), Rodinia includes applications and kernels which target multi-core CPU and GPU platforms. The choice of applications is inspired by Berkeley’s dwarf taxonomy. Our characterization shows that the Rodinia benchmarks cover a wide range of parallel communication patterns, synchronization techniques and power consumption, and has led to some important architectural insight, such as the growing importance of memory-bandwidth limitations and the consequent importance of data layout. I.

2011年10月25日火曜日

2011年10月21日金曜日

GBASE: a scalable and general graph management system

GBASE: a scalable and general graph management system
http://dl.acm.org/citation.cfm?id=2020408.2020580&coll=DL&dl=ACM

Graphs appear in numerous applications including cyber-security, the Internet, social networks, protein networks, recommendation systems, and many more. Graphs with millions or even billions of nodes and edges are common-place. How to store such large graphs efficiently? What are the core operations/queries on those graph? How to answer the graph queries quickly? We propose GBASE, a scalable and general graph management and mining system. The key novelties lie in 1) our storage and compression scheme for a parallel setting and 2) the carefully chosen graph operations and their efficient implementation. We designed and implemented an instance of GBASE using MapReduce/Hadoop. GBASE provides a parallel indexing mechanism for graph mining operations that both saves storage space, as well as accelerates queries. We ran numerous experiments on real graphs, spanning billions of nodes and edges, and we show that our proposed GBASE is indeed fast, scalable and nimble, with significant savings in space and time.

Open Street Map (OSM)

世界の道路ネットワークデータ Open Street Map
http://www.openstreetmap.org/

データの形式は OSM (XML) か、以下の PBF 形式で提供
http://wiki.openstreetmap.org/wiki/PBF_Format

研究室には、/nfs/data0/roadnetwork/ にダウンロードしています。PBF フォーマットで 9GB ぐらいあります。

2011年10月10日月曜日

Solving Large, Irregular Graph Problems using Adaptive Work-stealing

X10 のワークスティーリングフレームワーク XWS。Sun Niagara 上で BFS/DFS を X10+XWS で実行し、Cilk に対する優位性を示す。

http://gee.cs.oswego.edu/dl/papers/icpp08.pdf

Solving large, irregular graph problems efficiently is challenging. Current software systems and commoditymultiprocessors do not support fine-grained, irregular parallelism well. We present XWS, the X10 Work Stealing framework, an open-source runtime for the parallel programming language X10 and a library to be used directly by application writers. XWS extends the Cilk work-stealing framework with several features necessary to efficiently implement graph algorithms, viz., support for improperly nested procedures, global termination detection, and phased computation. We also present a strategy to adaptively control the granularity of parallel tasks in the work-stealing scheme, depending on the instantaneous size of the work queue. We compare the performance of the XWS implementations of spanning tree algorithms with that of the hand-written C and Cilk
implementations using various graph inputs. We show that XWS programs (written in Java) scale and exhibit comparable or better performance.

HipG: parallel processing of large-scale graphs

汎用グラフ処理システム HipG. 強連結成分分解を実装し、PBGL (Parallel Boost Graph Library) と hand-written の C/MPI を用いて速度的な優位性を示す。

http://dl.acm.org/citation.cfm?id=2007185

Distributed processing of real-world graphs is challenging due to their size and the inherent irregular structure of graph computations. We present HipG, a distributed framework that facilitates programming parallel graph algorithms by composing the parallel application automatically from the user-defined pieces of sequential work on graph nodes. To make the user code high-level, the framework provides a unified interface to executing methods on local and non-local graph nodes and an abstraction of exclusive execution. The graph computations are managed by logical objects called synchronizers, which we used, for example, to implement distributed divide-and-conquer decomposition into strongly connected components. The code written in HipG is independent of a particular graph representation, to the point that the graph can be created on-the-fly, i.e. by the algorithm that computes on this graph, which we used to implement a distributed model checker. HipG programs are in general short and elegant; they achieve good portability, memory utilization, and performance.

大規模グラフストリーム処理系

graph crest のプロジェクトのスコープの一つとして、大規模グラフストリーム処理系があります。インクリメンタルな汎用グラフ処理モデルは、西井君・雁瀬君が追求してもらっていますし、今それぞれ案を出してもらっている graph database for stream computing のあるべき姿もこの範疇に入ってきます。上野君と Miyuru 君のStreamScale をベースにするかどうかも再度議論する必要がありますが、オープンソースとして公開可能な汎用的な「大規模グラフストリーム処理系」を構築する必要があります。また、雁瀬君、上野君、竹野君の動的二部グラフの関連解析処理も、この処理系の上で動く必要がありますし、その他のアプリケーションでも使用可能に成り得る機能は、処理系が提供すべきものです。また、当然、バッチ処理系とのインタフェースも必須となってくるでしょう。

2011年9月30日金曜日

MAGMA: LAPACK for HPC on Heterogeneous Architectures

MAGMA の 1.0 が先月末に公開されたようです。
http://icl.cs.utk.edu/magma/news/news.html?id=274

2011年8月21日日曜日

2011/08/22 Lab Meeting Agenda

明日の研究室ミーティングの Agenda
- Crest プロジェクトに関して(30分ほど)
- 物品購入など
- 個別の研究進捗(4年生は院試報告と今後の方向性)
- 全体ミーティング、個別ミーティングの日程
- 各自の後期授業日程 (10月以降)
- ソフトウェア科学会チュートリアル(沖縄)・チューター決め
- IT 管理者,引継ぎに向けて
- 工大祭コンテンツ決め:ポスター作り、デモ内容、昨年のフィードバック
- SuperComputing 2011
- New member に関して (10月から、来年4月から)
- その他

2011年8月11日木曜日

実時間・モバイル空間統計

以下のリンクの、モバイル空間統計はバッチで行われていると推測するが、Twitter データ (位置情報を含む。間引かれているので統計的な推定も必要) から、これをリアルタイムに3次元的に把握できるような可視化システムができると(デモ的には)良い。当然、リアルタイムに見せるだけでなく、時間軸を変更できるようなインタフェースも用意し、特定の日時、時間帯も見れると良い。

http://www.nttdocomo.co.jp/corporate/disclosure/mobile_spatial_statistics/

2011年8月8日月曜日

[論文] Erik Zeitler,Tore Rischなどによるストリーム処理系の研究

スウェーデンの研究者Erik Zeitler とTore Rischによるストリーム処理系に関する論文

Scalable Splitting of Massive Data Streams, DASFAA2010,
http://www.it.uu.se/research/group/udbl/publ/DASFAA2010.pdf

Processing high-volume stream queries on a supercomputer
http://user.it.uu.se/~torer/publ/zricde2006.pdf

Using stream queries to measure communication performance of a parallel computing environment
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDCSW.2007.88

2011年8月4日木曜日

2011年8月1日月曜日

Bagel: Pregel のオープンソース実装

汎用グラフ処理モデル Pregel オープンソース実装が出ているようです。グラフ関係者は要チェック。http://d.hatena.ne.jp/smly/20110730/1312022963
https://github.com/mesos/spark/pull/48

国際高等セミナーハウス

国立情報学研究所(NII) のセミナーハウス。Crest プロジェクト等、合同研究室のゼミ合宿には良さそうです。
http://www.nii.ac.jp/about/seminar-house/

2011年7月27日水曜日

研究テーマ

以下、新規の研究テーマ
- BC (Betweenness Centrality), PageRank 等のグラフ処理を 高生産性並列言語 X10 を用いて実現し、超並列分散計算機システム(TSUBAME等) 上での性能評価、性能最適化を行う
- 外部記憶装置を用いた超大規模グラフ処理の実現

2011年7月24日日曜日

[StreamWeb] StreamTwitter デモ(日本語版)

日本語版StreamTwitterのコア部分のソースのディレクトリ
/nfs/home/oiki/spade/uryu/japantwitter

起動の仕方. まずrootで
/nfs/home/oiki/web/webserverの
./core.py
でWebサーバーを起動

次に
/nfs/home/oiki/spade/uryu/japantwitterの
./start_streams_streamtwitter.sh ; ./submitjob_streamtwitter.sh
でSystemS部分を起動

終了は./stop_streams_streamtwitter.shを実行し, core.pyをkill

2011年7月13日水曜日

Multithreaded Asynchronous Graph Traversal for In-Memory and Semi-External Memory

Multithreaded Asynchronous Graph Traversal for In-Memory and Semi-External Memory, SC2010

2011年7月9日土曜日

STING: 動的グラフの可視化

Spatio-Temporal Interaction and Network Graphs - an open source dynamic graph package for Intel Platforms, David Bader

2011年7月8日金曜日

仮想化環境における HPC Challenge Benchmark の性能評価

仮想化環境における HPC Challenge Benchmark の性能評価
Evaluation of the HPC Challenge Benchmarks in Virtualized Environments, ICL, 2011
http://icl.cs.utk.edu/news_pub/submissions/vhpc2011_ehbve.pdf

[Papers] Other Papers on Data Deluge

2020 Computing: Science in an exponential world
Data management in the worldwide sensor web

Apache Hadoop Goes Realtime at Facebook (SIGMOD2011)

以下、今年の SIGMOD 2011 で注目されている論文。必見。
http://borthakur.com/ftp/RealtimeHadoopSigmod2011.pdf