桜、抹茶、白、日記

名古屋市在住のC++使いのcoderの日記だったもの。

大名古屋#07 に参加

d:id:youandi:20101003#p1
大規模分散技術勉強会 in 名古屋(略して大名古屋)の第7回勉強会に参加しました。

大名古屋#07
http://atnd.org/events/8810

イベント内容はオライリー社刊行のHadoopの読書会です。今回のHadoop本の範囲は下記リンク参照方。

Hadoop本読書会
http://w.livedoor.jp/dainagoya/d/Hadoop%cb%dc%c6%c9%bd%f1%b2%f1

Togetter - まとめ「大名古屋#07」
http://togetter.com/li/62424

開会

今回の参加者は9名。初参加の方が2名いらっしゃいました。
また今回も質問・コメントが[twitter:@terurou]さんしか書き込んでいなかったので軽くお説教から始まった。

第7章 MapReduceの型とフォーマット

やっぱりcombinerとpatitionerの実行タイミングが分かっていないなぁと。主にmapper〜reducer間において、どの順番で処理が呼び出されているのか整理しないと。ちゃんと動かして動作を理解しないとちょっと辛い。
やっぱり入力データの入力スプリットの実行タイミングが分かっていないなぁと。自分が気になったのは、入力スプリットの処理において、データ分割のタイミングはいつなのかについて。スプリットやレコードは論理的なものであるとの事でどのタイミングでファイルの切り出しはされるのか?と疑問を投げかけてみたら、HDFSなんでブロックに分かれているのでは?との回答が。うーん。自分としてはどこかのタイミングではファイルの切り出しはするものだと思うんですけどね。ちゃんと動かして動作を理解しないとちょっと辛い。
NLineInputFormatの使いどころの話はサラっと読んでいたのですが、シミュレーション用途向けに使ったりするのか。ふと思い浮かんだのはモンテカルロシミュレーションかな。

第8章 MapReduceの機能

reduceタスクを複数に設定した場合のreducerの実行結果は分割されたままなのか気になっていたんですが、Hadoopには一応結果を結合する為の機能はありそうですね。(ChainMapper/ChainReducer)

懇親会

近くの店でランチ。iPhoneアプリやおのおののお仕事の話で盛り上がるなどしていた。