2009年9月28日月曜日

System S の Discussion Forum

アクセスするには ID を登録する必要があります。
http://www.ibm.com/developerworks/forums/forum.jspa?forumID=1664

高速プロセス通信

老木君のインターンは明日で終了ですが、System S に関する様々な最適化ポイントが浮き彫りになってきました。一つはプロセス間通信(例:Linux KernelのIPC)の重さですが、その最適化として様々な手法が提案されています。

はてなのシステム内部

はてなブックマークのシステム内部アーキテクチャに関する解説
http://www.slideshare.net/naoya1977/ss-1983437

2009年9月27日日曜日

統計情報を用いた性能モデル

以下、StreamGPU プロジェクトで参照すべき性能モデルに関する論文(の一部)です。
  • 性能予測モデルの学習と実行時性能最適化機構を有する省電力化スケジューラ, 金井、Comsys 2007 (PDF)
  • 尾形 泰彦,遠藤 敏夫,丸山 直也,松岡 聡. 性能モデルに基づくCPU及びGPUを併用する効率的なFFTライブラリ. 情報処理学会論文誌コンピューティングシステム,Vol.1,No.1 (ACS 22), pp. 40-50,2008年6月.

2009年9月26日土曜日

2009年9月22日火曜日

Optimization Idea

GPGPU を DSMS にどのように活かすか、アイデアを以下に書いてみました。今度、説明します。
http://sites.google.com/site/suzumuralab/streamgpu/StreamGPU-suzumura-20090922.ppt?attredirects=0

WikiCFP

WikiCFP(http://www.wikicfp.com/cfp/home): CFP (Call For Paper) をコミュニティベースで集めたサイト. 鈴村研究室の CFP を suzumuralab というユーザーで作成しました。

2009年9月20日日曜日

Eucalyptus

Amazon EC2 互換の Eucalyptus を調査中。
参考サイト: http://blog.kirie.net/date/2009/05

2009年9月19日土曜日

Google App Engine

先日のクラウド研究会で聞き逃したので、「Google App Engine for Java [実践]クラウドシステム構築 (WEB+DB PRESS plus) (Amazon)」を読んだ。

 Google の巨大なインフラを用いたアプリケーションホスティングで、Jetty (オープンソースのサーブレットエンジン)上で稼動する。既存のホスティングと異なるのは以下の点。
  • データストアとして、RDB (MySQL など) ではなく、BigTable ( Key-value ストア)を用いること. Memcache API として、高速キャッシュ機構が使えること
  • 認証としては、Google の認証フレームワーク (Google アカウントが必要)を用いること
  • Google の様々なサービス (Google Calender, Google Docs, ... etc) が GData 経由で使えること
  • 指定された時間に実行される Cron ジョブが設定できること
そして、決定的に異なる点は以下の点
  • ある一定量のトラフィックまでは無料
  • それを越えると、従量課金性に設定することにより、自動的にスケールすること
非常に面白いが、印象としては、データセンターなどで既に稼動しているウェブアプリケーションを、GAE (Google App Engine) にポーティングするコストが高いため、スクラッチから書くものの他に、どのくらいこれから出てくるのかは疑問。既存のアプリケーションがそのまま動く、または、部分的にでも改変すれば動くぐらいのスタンスだったら、移行が進むのではないかと思われる。

 PHP も実験的のようだが使えるらしく、実行系としてはQuercus (Java VM 上で稼動する PHP 実行処理系) を使っているらしい。PHP は Web アプリケーションの実装言語として広く使われており、資産も多い。今後、シームレスに GAE に移行するツールまたは実行基盤を作ることが、GAE を爆発的にはやらす鍵となるかもしれない。。(いや、G社は広告モデルで十分に食べていけるので、そこまでこの GAE の収益のことは考えていないのだろう)

Twitter

後期の大規模知識特論の演習課題を考えています。何か学生が楽しんで取り組める課題がありそうでしたら、教えてください。

- Twitter の "public timeline" を用いて、リアルタイムにキーワードランキングを表示する (例: Google Trends)
- Twitter の "public timeline" を用いて、人間グラフをリアルタイムに表示する
- このエントリにも書いたが、ボストン市街のセンサーデータを用いて街の状況 (CO2 濃度、騒音など)をリアルタイム表示する

System S クラスタ構築

HP ML115 のクラスタ(8台構成)へSystem S のインストール作業が完了しました。松浦君、森田君、お疲れ様です。NIS/NFS の設定は松浦君にお願いしていますが、それが済んだらいよいよ研究環境が整います。

2009年9月18日金曜日

CULA Programming Guide

CULA Programming Guide : http://www.culatools.com/html_guide/index.html
CUDA Visual Profiler :(URL)
CUDA on Fedora (URL)

SST (Single Spectrum Transformation)

行列の圧縮による変化点検出の高速化 (URL)

2009年9月17日木曜日

Meeting with IBM高橋さん

森田君が TRL に来てくれて、TRL の高橋さんと StreamGPU プロジェクトのミーティングをしました。GPU は、一定のドメインにおいては、スループットを向上することが明らかになっていますが、我々の興味としては、スループットも重要ですが、レイテンシも重要です。GPU を”適切”に用いることによって、この両者をうまい具合に引き出せるようにしていきたいですね。そして、この”適切”にというのが、定式化モデルを用いて、自動的に導き出せればベストです。

2009年9月14日月曜日

SVD on CULA

StreamGPU プロジェクトですが、CULA を使った SVD (特異値分解)が動き出したようです。大きな一歩ですね。

GSIC 佐藤さん輪講

今日は、GSIC の佐藤さんがいらっしゃって、Borealis の論文を紹介していただきました。ありがとうございます!

今度は、System S Hands-on 講習会をやりましょう、ということになりました。サンプルアプリケーションをみんなで作りましょう。

HPCS 2010

2010年1月14日~15日で都内で開催。論文登録受付は 9月25日。
http://www.hpcc.jp/hpcs/

GPU コンピューティング研究会

GPU コンピューティング研究会に入会してください
http://gpu-computing.gsic.titech.ac.jp/index-j.html

SIGMOD 2009 の論文

以下の論文必見。至る所に、Michael Stonebraker (Postgres の生みの親)が出てくる

- Query Processing Techniques for Solid State Drives
Dimitris Tsirogiannis (University of Toronto)
Stavros Harizopoulos (Hewlett-Packard Laboratories)
Mehul A. Shah (Hewlett-Packard Laboratories)
Janet L. Wiener (Hewlett-Packard Laboratories)
Goetz Graefe (Hewlett-Packard Laboratories)

- A Comparison of Approaches to Large-Scale Data Analysis (PDF)
Andrew Pavlo (Brown University)
Erik Paulson (University of Wisconsin)
Alexander Rasin (Brown University)
Daniel J. Abadi (Yale University)
David J. DeWitt (Microsoft Inc.)
Samuel Madden (Massachusetts Institute of Technology)
Michael Stonebraker (Massachusetts Institute of Technology)

2009年9月13日日曜日

パフォーマンス解析

卒論生二人とも、性能特性、性能最適化が主なテーマであるので、パフォーマンス解析に関する便利なツールを覚えていってもらいたい。以下、思いつくものを列挙。

CPU使用率、メモリ使用量、ネットワーク解析
Disk I/O の解析
  • systat に含まれる iostat
プロファイル
  • oprofile
    ライブラリレベル、関数レベルで、どのくらい CPU を消費しているかがわかる。必要であればコールグラフも. カーネルの中も見る必要がある場合が多いが、その場合にはデバッグのシンボル情報をインストールする必要あり. また、イベントタイプを指定することにより、Instruction Cache miss, Data Cache Miss などが観察できる
ネットワークバンド幅計測

James Hamilton

IBM (DB2のアーキテクト)--> Microsoft --> Amazon と job hopping する James Hamilton 氏

CIDR 2009での講演(PDF)
2008年の講演 "Internet Scale Service Efficiency" (PDF)

Cooperative Expendable Micro-slice servers (CEMS) プロジェクト
http://perspectives.mvdirona.com/2009/01/23/MicrosliceServers.aspx

2009年9月12日土曜日

HadoopDB

HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads http://db.cs.yale.edu/hadoopdb/hadoopdb.pdf

VLDB 2009 (8月開催)で発表された Yale 大学のグループの論文。以前のエントリにも書いたが、SIGMOD 2009 に書かれた先行研究を基にしている。

テクニカルな肝は 5.2.4 を見ればすぐにわかるが、SQL クエリを MapReduce のプログラムに自動変換し、並列に実行。Vertix や DBMS-X といった並列データベースと比較して優位性を示している。

この論文では、1章の Introduction が面白い. Facebook など商用の世界においても、ペタバイト級のデータ量になってきており、データ分析の高速化が益々重要になってきていることを述べている。


ICDE 2009 報告

ICDE 2009 の国際会議報告 (PDF)。今、一番ホットなキーワードは「ストリーム」

以下がストリーム関係の論文(後半は short paper を含む)。ストリームアルゴリズムのネタが多く、ランタイムはあまりない。我々にとっては、大きなチャンスと言える。

A Framework for Clustering Massive-Domain Data Streams
Charu Aggarwal, IBM

Sequence Pattern Query Processing over Out-of-Order Event Streams
Mo Liu, Worcester Polytechnic Institute; Ming Li, Worcester Polytechnic Institute; Denis Golovnya, Worcester Polytechnic Institute; Elke Rundensteiner, Worcester Polytechnic Institute; Kajal Claypool, Lincoln Labs, Massachusetts Institute of Technology

On Efficient Query Processing of Stream Counts on the Cell Processor
Dina Thomas, Stanford University; Rajesh Bordawekar, IBM Watson Research Center; Charu Aggarwal, IBM; Philip Yu

Access Methods for Markovian Streams
Julie Letchner, University of Washington; Christopher Re, University of Washington; Magdalena Balazinska, University of Washington; Matthai Philipose, Intel Research Seattle

Continuous Subgraph Pattern Search over Graph Streams
Changliang Wang, HKUST; Lei Chen, HKUST

Sketching Sampled Data Streams
Florin Rusu, University of Florida; Alin Dobra, university of Florida

Probabilistic Inference over RFID Streams in Mobile Environments
Thanh Tran, UMass Amherst; Charles Sutton, UC Berkeley; Richard Cocci, UMass Amherst; Yanming Nie, UMass Amherst; Yanlei Diao, Umass; Prashant Shenoy, UMass Amherst

Sketch-based Summarization of Ordered XML Streams
Veronica Mayorga, UCSC; Neoklis Polyzotis, UCSC

Self-Tuning, Bandwidth-Aware Monitoring for Dynamic Data Streams
NAVENDU JAIN, Univ. of Texas, Austin; Praveen Yalagandula, HP Labs; Mike Dahlin, Univ. of Texas at Austin; Yin Zhang, Univ. of Texas at Austin

Supporting Generic Cost Models for Wide-Area Stream Processing
Olga Papaemmanouil, Brandeis University; Ugur Cetintemel, Brown University; John Jannotti, Brown University

Forward Decay: A Practical Time Decay Model for Streaming Systems
Graham Cormode, AT&T Labs--Research; Vladislav Shkapenyuk, AT&T Labs - Research; Divesh Srivastava, AT&T Research; Bojian Xu, Iowa State

On High Dimensional Projected Clustering of Uncertain Data Streams
Charu Aggarwal, IBM

Scalable Keyword Search on Large Data Streams
Lu Qin, CUHK; Jeffrey Yu, Chinese University of Hong Kong; Lijun Chang, CUHK; Yufei Tao, Chinese Univ. of Hong Kong

Scheduling Updates in a Real-time Stream Warehouse
Lukasz Golab, AT&T Labs - Research; Theodore Johnson, AT&T Labs - Research; Vladislav Shkapenyuk, AT&T Labs - Research

Web Monitoring 2.0: Crossing Streams to Satisfy Complex Data Needs
Louiqa Raschid, University of Maryland; Avigdor Gal, Technion; Haggai Roitman, IBM Haifa Research Labs and Technion

Efficient Query Evaluation over Temporally Correlated Probabilistic Streams
Bhargav Kanagal, University of Maryland; Amol Deshpande, University of Maryland

CoTS: A Scalable Framework for Parallelizing Frequency Counting over Data Streams
Sudipto Das, UCSB; Shyam Antony, UCSB; Divyakant Agrawal, U. of California - Santa Barbara; Amr Abbadi, UC Santa Barbara

Oracle Streams: a High Performance Implementation for Near Real Time Asynchronous Replication
Lik Wong, Oracle; Nimar Arora, Oracle; Thuvan Hoang, Oracle; Lei Gao, Oracle; Jingwei Wu, Oracle

Scale-up Strategies for Processing High-Rate Data Streams in System S
Henrique Andrade, IBM; Bugra Gedik, IBM; Kun-Lung Wu, IBM; Philip Yu, UIC

2009年9月10日木曜日

大規模センサーデータの活用

最近、多くのお客様にストリームコンピューティングのお話しをしますが、益々、今取り組んでいるこのテーマの面白さと可能性を感じています。

GPS などの位置情報を利用したLocation-Based Service、携帯電話の加速度センサーを利用した人間行動の把握、通信携帯会社が持つ 通話記録データ (CDR), SUICA / Pasmo のデータ、など巨大な数のセンサーから出る爆発的なデータをどう活用していくか。これが、現在、産業界が抱えている課題のひとつです。アカデミックな研究では、科学技術計算にばかり目がいきがちですが、このような産業界が抱えている問題にも目を向けていくべきでしょう。

われわれとしては、是非、そのような世の中で現実に欲されている課題に挑戦していき、現実世界へのインパクトを出しつつ、かつリサーチ的なインパクトも出していきたいと思います。

セカイカメラ

注目を浴びているセカイカメラ
http://support.sekaicamera.com/