2014年1月16日木曜日

渡部君・金刺君とのミーティングメモ

DEIM 2014の論文:Dropbox/SuzumuraLab/Projects/Social Analytics/watanabe/paper/DEIM2014/submit/draft_20140114.pdf 

引き継ぎ、研究の方向性
XAXIS(5章)の説明

頂点を追加、削除→オブジェクトを消さず、インアクティブにする
実行時のコスト(ガベージコレクションなど)は小さいが、メモリやノードの消費量が大きくなる
シミュレーションの基盤を成長させていく(成長シミュレーション)
今のプラットフォームのあるべき姿→研究テーマにする
解析:最初のシミュレーション:インアクティブの割合が大きいと効果が大きい
本来は1/10のノードでOK(6〜7千万/4億)

ハードウェア
ノードもダイナミックに追加する(X10ではできない?)
Amazon EC2 のインスタンスを確保して、ストリーム処理する(石井先輩の研究)
VMを必要に応じて予測、確保

ソフトウェア:
インスタンスの必要な量を予測して追加
X10の他に基盤が必要(Hadoopは難しいが、できなくはない→YARNを使用する)

グラフの処理系の上でgiraph上に、ノードを追加、Hadoopを実装
VMやYARNの起動、頂点の追加削除による実行速度が落ちないように、
成長モデルに応じた予測のアルゴリズムモデルを考える
バルク確保によるメモリ消費量とのトレードオフも考慮する
アダプティブなシミュレーション基盤を作る

オーバーヘッドを考えるとXAXISの方が速いと思われるが、渡部先輩の実験結果(参考値)と比較する
SocialMediaのデータ解析は、シミュレーションのモデルを作る上で重要
スキルトランスファーをしてもらう
確実な方法があるのか、試行錯誤する部分もあるのか

まずは、HadoopをTSUBAMEで動かして、使い方を学ぶ
解析をしたい時にRAがオーバーヘッドなく扱えるよう、ドキュメントを作っておく
何を調べたいか、やりたいことは色々あるが、データが大きいため扱いにくい

一部のデータ(属性情報)だけ取ってきて、それだけでフォローのモデルを作成する
データ同化にもつながる(シミュレーションしながらモデルを改良していく)
新規のユーザ追加のコストを削減
いきなり数十ノードを最初から確保するのは現実的でない
まずは小規模で実行し、ユーザ数が増えてきたら結果をダンプする
規模が大きくなったら途中結果を読み込んで、やり直す
スナップショットを少しずつ取りながら、ノードを確保していく
X10は動的なアロケーションができない
他の新規ノードが追加できるような基盤を作る

twitterの追加解析も行う
クラスタリング係数値、Connected Components
ScaleGraphのライブラリも使っていく
Webマイニングの話にもかかわる
既存研究のWebマイニングの論文を調べて、どうネットワーク解析をしていくか
デフォルトの(通常行われている)解析セットを調査する
そこから発展させて、分かっていないことを仮説を立てて検証する
「何次の隔たり」よりも、もう少しミクロ(詳細)な仮説の方が良い
tweet そのものの解析も行う
投稿した内容、頻度から、ユーザのプロパティを予想する
データ取得(クロール)の方法も教えてもらう

“What is twitter”で行われていないことは?
retweetの木構造も研究されていた
リアルタイムに変わるGraphは、PageRankを計算すると異なる
グラフの構造の変化はリアルタイムにある
グラフ分割、BC、PageRank、クラスタリングをグラフストリーム的に計算する
tweetも、テキスト処理をしてクラスタリング(類似度計算)できる

0 件のコメント:

コメントを投稿