ラベル StreamDNA の投稿を表示しています。 すべての投稿を表示
ラベル StreamDNA の投稿を表示しています。 すべての投稿を表示

2010年2月5日金曜日

Harvard Medical School 来訪

Harvard Medical School, FDA, 横浜市立大学病院の方たちのミーティングがありました。




2009年10月13日火曜日

Dolly+の特徴

Dolly+ の特徴は以下の通り。高速化の要点は以下の3つ。

(1) コピー対象ホストをマスターホスト(コピーされるイメージを持つホスト) を先頭としたリング状に接続し、パイプライン転送をおこなう。

(2) マスターホストでのボトルネック発生を回避し、 送信と受信を同時に行える 全2重通信 (Full Duplex) のネットワークスイッチの性能を最大限に活かす (** 我々の Linux クラスタで Full duplex 通信可能なように設定する必要あり)

(3) ネットワークからデータを受け取るスレッド、データをディスクに書き込むスレッド、データをネットワークに書き出すスレッドの3スレッドを同時に実行し、かつ、巨大なファイルを 4MB ずつのチャンクに分けてコピーすることによって、高速化。
(詳細は http://matsu-www.is.titech.ac.jp/paper/takamiya/sacsis2003.pdf の3.3.1 章参照)

データ配信最適化

松浦君に関係するものです。

- 以下の論文、要チェックです。
  • A Stable Broadcast Algorithm, Kei Takahashi, CCGrid
  • A pipeline technique for dynamic data transfer on a multiprocessor grid
  • トポロジを考慮しソース選択を行うデータ転送スケジュラー(PDF)
  • FastReplica: Efficient Large File Distribution with Content Delivery Network , USENIX, 2003
  • A Fast Topology Inference - A building block for network-aware parallel computing, HPDC 2007
  • Exploiting Hiearchy in Parallel Computer Networks to Optimize Collective Operation Performance, 200
  • Modeling and Performance Analysis of BitTorrent-Like Peer-to-Peer Networks, SIGCOMM 2004
  • An approach to communication-efficient data redistribution, 1994,
  • グリッド環境におけるクラスタ間データ転送の評価 (松岡研 小倉)
  • Spring-8 からの画像転送。2003年のスライドだが、我々と少し関係がある
    http://www.biogrid.jp/project/j/event/seminor/inoue/pdf/biogrid2003Telescience.pdf
- ネットワークのチューニングに関してはもちろん、いろいろあります。

2009年10月9日金曜日

高速データ転送システム

高速データ転送システム Dolly+
http://corvus.kek.jp/~manabe/pcf/dolly/index_J.htm

松岡研究室の滝澤さんの研究
http://matsu-www.is.titech.ac.jp/slides/takizawa/swopp04slides_takizawa.pdfMHg

データストリーム処理における大規模データ配信技術

 松浦君のテーマは 「データストリーム処理における大規模データ配信技術に関する研究」という技術的なコアを基盤にして、たんぱく質の立体構造解析、次世代 DNA シーケンサー, 電波天文学、そして街中の監視カメラなどから出力される大量(画像)データへの高速処理に寄与する、といった研究のまとまりができつつある。

 ただ、これに関しては、グリッドやネットワーク、画像配信, CDR (Contents Delivery Network) などでの豊富な研究があるので、如何にデータストリーム処理ならではの問題を掲げ、それに対する解決策を提案しないと ”情報科学”としての 新規性や進歩性にかける。今考えている、「リレー方式によるデータ配信」、「UDP によるマルチキャスト配信」などがあるがこれらは既知の技術であるので、我々としての技術的な貢献を考えていきましょう。

まず既知の技術の性能評価をするのが First Step ですが、その次に以下のことを考えていきましょう。
(1) ゼロコピー通信
(2) 実行環境に応じて、最適な配信方式、トポロジーを(プロファイルデータなどから)自動的に決定する仕組み

2009年10月3日土曜日

Personal Genome Project (PGP)

Personal Genome Project (http://www.personalgenomes.org/)
パーソナルゲノム医療を加速化するために10万人の個人のゲノム情報を収集するプロジェクト

以下の YouTube のビデオが興味深いです。
GENOME : The Future is NOW WEBISODE 1

2009年9月26日土曜日

2009年8月24日月曜日

Next-generation DNA sequencing, Nature

Nature で発表された昨年の論文。必見。

Jay Shendure (Univ. of Washington), et.al, "Next-generation DNA sequencing", Nature biotechnology, 2008/10 (PDF)

2009年7月15日水曜日

東大森下先生

東京大学の森下真一先生。元 TRL。高速シーケンサーを使った研究をしているらしい。柏キャンパスのようだが、一度お話しを伺いに行きましょう
http://mlab.cb.k.u-tokyo.ac.jp/

2009年7月14日火曜日

可視化ツール

IBM 小澤さんから教えてもらった複雑ネットワークの可視化ソフトウェア Cytoscape http://cytoscape.seesaa.net/
- StreamDNA の可視化ツールとして使えるかもしれない

2009年7月9日木曜日

Moore's Law for Genetics

シーケンサーの性能向上を定量的に示す資料。5枚目、6枚目注目。
”Moore’s Law, Genomics and the
Future of Animal Breeding” David MacHugh, Animal Genomics Lab., UCD, (閲覧

Prepare for the Deluge

Prepare for the deluge (PDF) という 2008年の Nature の論文に次世代シーケンサーのデータ爆発のことが書かれている。論文の最後は以下のように締めくくられている。

If the data problem is not addressed, ABI’s SOLiD, 454’s GS FLX, Illumina’s GAII or any of the other deep sequencing platforms will be destined to sit in their air-conditioned rooms like a Stradivarius without a bow.

StreamDNA の論文を書くときには、これを reference すべき。

また、画像データの扱いだが、454シーケンサーの場合は、ソフトウェアの更新により生画像からの塩基変換をより高精度に行うことができるので、画像データ(圧縮してもよし)を取っておく意味もあるということが書かれている。

その他、次次世代シーケンサについて書かれた記事。
http://www.wired.com/wiredscience/2008/07/british-institu/

Smith Waterman法の CUDA 実装

Smith Waterman 法の CUDA 実装として CUDASW++ というものがあるそうですhttp://www.biomedcentral.com/1756-0500/2/73 に論文があります。松浦君、読んでみてください。性能評価もしっかりとされているようです。

ソースコードは、SourceForge(http://cudasw.sourceforge.net/) にオープンソースとして公開されているので、我々も利用できますね。とりあえず、我々の研究室でも動かしてみましょう。まあ、今は、院試に集中しましょう。

2009年7月8日水曜日

ミーティング@慶応矢上キャンパス

 今月締め切りの公募にStreamDNA のネタを出すべく、慶応の宮本先生とミーティング。初顔合わせということで、お互いの技術紹介をした。それなりにこちらのやりたいことを理解してもらえたのではないでしょうか。次のステップとしては、まずは机上で計算できる定量的な効果を示せるといいのでしょうね。黒川研の東君からの返答を楽しみに待ちましょう。

2009年6月30日火曜日

ストリームコンピューティングのすごさを伝えるデモ

 昨日も松浦くんと森田くんと雑談したが、ストリームコンピューティングの凄さを伝える Visual なデモがあると良い。ストリームコンピューティングという計算パラダイムのシフトによって、今の世界がこんなにも変わる、というようなことが伝えられたらいい。以下は候補。アイデア募集。

- ストリームコンピューティングの概念的なデモ
- 大量データを実時間でオンメモリ上で処理する様子を写し、ストレージ容量の削減とリアルタイム性
  を削減する様子を視覚的に見せる
- (一般向け&うけねらい) 回転寿司

- ストリームコンピューティングの応用のデモ
 - StreamDNA: パーソナル医療への応用など。(もっと深める)
- StreamWeb:
    - SNAzzy で見せたような、CDR (Call Data Record) のグラフを
    リアルタイムに行う様子を見せる
- 数百万の人の群れの動きを可視化し、自分があるストリートを歩いていたら、自分の嗜好に合う
    イベント広告が配信される

2009年6月27日土曜日

StreamDNA 関連いろいろ

次世代シーケンサー関連プロジェクト
http://www.jba.or.jp/report/technology/mirai-bio/0812.html

SOLiD トレーニング
http://www.appliedbiosystems.co.jp/website/jp/event/eventpage.jsp?EVENTCD=131318

CBRC (産総研生命情報工学研究センター)のバイオインフォマティクス速習コース
http://training.cbrc.jp/modules/tinyd2/index.php?#c1
バイオインフォマティクス速習コース I 2009年 6月 4日~ 7月16日のうちの全10日(夜間)
創薬インフォマティクス技術者養成コース 2009年 8月 3日~ 7日・9月 7日~11日の10日間
バイオインフォマティクス速習コース II 2009年10月 1日~11月27日のうちの全10日

次世代シーケンサーの世界展開と日本の進む道 (イルミナ社 David Bentley)
http://www.yodosha.co.jp/jikkenigaku/podcast/9784758100434/sp200901.pdf

分子蛍光イメージング
http://tlo.wul.waseda.ac.jp/files/seedspdf/557.pdf

1時間で1000億塩基 (100GB) 読める。ヒトゲノム(60塩基) はわずか4分。10倍
呼んでも1時間足らず。
http://blackshadow.seesaa.net/article/87280446.html
ペタバイト級のストレージが必要?

各IT ベンダーの動き
http://www.ntts.co.jp/SO/so14/pdf/P09.pdf
オラクル-> http://www.oracle.co.jp/news_owa/NEWS/news.NEWS_PRINTER_VIEW?p_news_code=612


Next-Generation Genome Sequencing: Edited by Michael Janitz
遺伝子医学の最前線と次世代シーケンス: http://www.aeplan.co.jp/adv/j-igaku7z.pdf

アセンブリなど

ショットガンアセンブラー(東大笠原先生講義)
http://mlab.cb.k.u-tokyo.ac.jp/~mkasa/upbsb2006/