第１回Hadoop関西勉強会に参加 - 桜、抹茶、白、日記

大阪まで[twitter:@munetika]さん主催の勉強会に行ってきました。

http://atnd.org/events/6153

日時：2010年07月31日(土) 18:00〜20:00

場所：株式会社ロックオン会議室

ホテルにチェックインしてまったりしていたら、結構ぎりぎりの時間になってしまいました。でも10分前に到着して３〜４番目位でした。
そういえば、[twitter:@nakaji](id:nakaji999)さんも参加していた。リアルでお会いするのはこれで２回目。メモ書きしているのをチラ見したら結構綺麗な字だったw
[twitter:@nakaji]さんの参加レポートも自分が当たり前だろ？と端折ってしまった部分についても言及されていたりと、色々と参考になりますので併せてどうぞ。

- d:id:nakaji999:20100801#1280659543 - 第１回Hadoop関西勉強会に参加

開会

会場の株式会社ロックオンさんの事務所は畳の会議スペースがあったりとか、もの凄く格好良かったです！
勉強会は30人以上集まってしまった？ようなので机なしで行う事に・・・。

玉川さん([twitter:@tamagawa_ryuji])

オープンソースのMapReduce/分散ストレージ実装、Hadoopの紹介

- 発表資料：http://www.slideshare.net/dragan10/hadoop1-hadoop

まずは、参加者にHadoopを業務で使っているか質問。3名程でした。
大名古屋でも読書会を行っている、オライリー社刊行のHadoop本の翻訳のきっかけはたまたまらしい。現在も進行形で色々とオライリー本の翻訳を行っている模様。

Hadoop

作者: Tom White,玉川竜司,兼田聖士
出版社/メーカー: オライリージャパン
発売日: 2010/01/25
メディア: 大型本
購入: 9人クリック: 449回
この商品を含むブログ (73件) を見る

- HadoopはToolkitと捉えると良い。
  - Hadoopがやってくれる部分は任せておいて、開発者はデータ処理にのみ注力。
  - つまりHadoopを利用したシステムの開発が必要である。
- Hadoopの構成
  - HadoopのJobTrackerはHDFSのデータ配置状況をみて、タスクの分配を行う。
  - でもHadoop本で解説しているデータ配分の流れは、現在の実装とは異なっており説明が古い。
- Hadoopについては、Hadoop Conference Japan 2009(資料はこちら)の資料が参考になる。
- 最近のIT技術者間のTwitterでの情報交換は重要。
- 象本で全体像をつかみ、各論は英語資料を参照せよ。
- Linuxで環境を作るならCloudera社のパッケージを利用すべき

山上さん([twitter:@karate405])

Hadoop上のデータを用いるBIシステムについて

Pentaho社(日本代理店)が開発しているBI(ビジネスインテリジェンス)ツールにHadoopが組み込まれ始めている事例について紹介。

- BIツールの方はOSSとして公開されており、SourceForge.netで公開されている。
  - http://sourceforge.net/projects/pentaho(GPL/LGPL/MPL 1.1)
- Pentaho社の取り組みは以下の通り。
  - Hadoop上のデータに対する入出力するETL(Extraction, Transformation and Loading)ツールを提供
  - Hadoop上でETLを実行する為のツールを提供
  - Hadoop Hiveユーザ向けにJDBCドライバーを提供

後は、HDFSのGUIツールのデモ。Eclipse プラグインとして提供されている？I/Fは日本語対応していた。
ツールは現在βテスト参加者向けに公開されており、一般公開は９月頃を予定しているらしい。

濱野さん(http://www.todo.ne.jp)

NTTデータにおけるHadoopへの取り組み

今まで扱う事が難しかった領域を切り開く。
プロセス指向からデータ指向へ。

- とりあえずデータを溜め込んで、どう使うかは後で考える流れ。
- POSデータ等の今まで溜め込めなかったデータの活用

NTTデータさんは、象さん好きの会社のようで、PostgreSQLをよく利用しており、今度はHadoop。
NTTデータはBizXaaS Hadoop構築・運用ソリューションの提供を開始。

http://bizxaas.net/

クラスタPCが故障して新しいPCを導入した場合、Hadoop環境を自動構築出来るようになっている。以下の技術を利用している。

- Puppet
- RedHat Kickstart
- ＋α
  - RPMのカスタマイズ
  - スイッチの接続ポート位置からのホスト名の自動生成

これらの自動構成ツールについてはいずれOSSとして公開したい。でもAdobeに先を越されてしまった。

InfoQ > Adobe が Hadoop のための Puppet レシピをリリース
http://www.infoq.com/jp/news/2010/07/adobe-released-puppet-recipes

HDFSにおいてSPOF(Single point of failure:単一障害点)となるNameNodeの冗長化はどうする？普通は・・・

- Heartbeat + DRBD(Distributed Replicated Block Device)

NTTデータさんでは・・・

- XenによるFT(フォールトトレランス)
  - 見かけ上は１台に見えるが、２台構成でメモリ状態等をsyncしている。

Hadoop Summit 2010の話

米国Yahoo!主催のイベント。
日本から参加していたのは、NTTデータさんだけだった模様。またアジアからの参加は大陸系の方々が多かった模様。
午前の部はビデオ公開されている。まあ当然全部英語ですが。

Hadoop Summit 2010 agenda
http://developer.yahoo.com/events/hadoopsummit2010/agenda.html

午前の部の要約

Yahoo!でのHadoopの利用
- Mass Technology, Mass Scale, Cloud Computing
- クリック解析
  - 個人の嗜好を分析
- spamフィルタリング
  - GmailやHotmailよりもフィルタリング性能は良い(Yahoo!談)
  - ※あくまで米国向けサービスの話です。日本国内は別物であるとお考え下さい。
Yahoo!のHadoopへの貢献
- セキュリティ対策としてKerberos認証の実装
- Oozie(濱野さんはウジーと表記。ウージーって聞こえました。)
Facebookの事例
- 80-90TB/day
- Hadoopのジョブの95%はHadoop Hiveを利用。
  - HiPalというHiveラッパーというかHiveQLの作成ツールを利用。
  - こういったツールは、RubyベースでHadoopを利用しているCookpadさんでも構築してますねー。

午後の部で気になったもの

天体画像処理へのHadoop適用
- 画像のモザイク処理(複数画像を重ね合わせてパノラマ画像を生成する)にHadoopを利用。
- FITS(The Flexible Image Transport System)ファイル形式をHadoopのSequenceFile形式に変換して利用しているらしい。
- Parallel Distributed Image Stacking and Mosaicing with Hadoop__Hadoop…

Yahoo!色が強いイベントだったらしい。

杉田さん([twitter:@sugipooh])

いったいなんぼならHadoopできるねん？

- aftercare：http://lxs.jp/wordpress/?p=221
- 発表資料：http://www.slideshare.net/sugipooh/pdf-4898997

HadoopのHDFSのクラスタを構築する場合に備えて、Cloudera社が提唱しているH/Wスペックを参考に各種ブレードサーバーの見積を行ったお話。

Cloudera’s Support Team Shares Some Basic Hardware Recommendations
http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

x4 1TB hard disks in a JBOD (Just a Bunch Of Disks) configuration

x2 quad core CPUs, running at least 2-2.5GHz

16-24GBs of RAM (24-32GBs if you’re considering HBase)

Gigabit Ethernet

10台構成での各種サーバーの見積。一番安くて100万円〜。高いのだと4,000万円とかもありました。

Hadoopでは、1CPUにつき1HDD、1CPUあたり2GBメモリーを割り当てると良いらしい。またHBaseを利用する場合、16〜24GBメモリーが必要となる模様。

大谷さん([twitter:@shot6])

Hadoopソースリーディングの会の紹介

コミュニティ活動の紹介。

- イベント後にビアバスト(beer bust)を実施。
- 毎回参加者数が大変な事になっている。(第２回の時は実参加者数が少なかったらしい)
- 最近はベンチャーキャピタルにHadoopって言うだけでお金が入ってくるらしい(※冗談です)
- 毎回登壇者の熱の入ったお話で予定時間を超過しまくり。今回の関西勉強会でもそうでしたがw
- 色々と分科会が立ち上がってきている。内容がマニアック過ぎて参加者が静まりかえってしまい微妙な空気になる事も・・・。

今後としては少し内容を絞って、連載ものと単発ものの組み合わせで活動。
現在の連載もの。

- Cloudera社のHadoopトレーニングに参加([twitter:@okachimachiorz1]さん)
- HBase入門

今後予定している連載もの。

- Data-Intensive Text Processing with MapReduce本を読み解く
  - オンライン版(PDF)：http://www.morganclaypool.com/doi/abs/10.2200/S00274ED1V01Y201006HLT007
  - 書籍版：Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies)
- Pig入門
- Oozie入門

近々発売のクラウドムック本にHadoopの記事を寄稿したので、みんな買ってね！(d:id:shot6:20100802#1280713701)との事。

G-CLOUD Magazine

作者: G-CLOUD Magazine 編集部
出版社/メーカー: 技術評論社
発売日: 2010/08/06
メディア: 大型本
購入: 12人クリック: 77回
この商品を含むブログ (9件) を見る

懇親会

自分が人見知りする人間だって事はすっかり忘れていたんですが、玉川さんに一度ご挨拶はしたいなという事で参加。[twitter:@nakaji]さんもいらっしゃったのでちょっと気が楽だった。玉川さんとは席が離れてしまい全くお話をする事は出来なかったのですが、玉川さんが早く帰られるタイミングで自分の名刺を渡す事には成功。
濱野さん、杉田さん、さくらインターネットの田中さん([twitter:@kunihirotanaka])の３名によるデータセンターの話がもの凄かった！もうね今日のHadoopの話はどこかに飛んでいってしまうかの勢いでした。HDDのエージングの話とかRAIDを組む際には異なるロットを組み合わせるとか、RAID5はないわーRAID10でしょ的な話は色々と興味深いお話でした。
あ、あとは同じテーブルに今度の土曜日のOSC 2010 Nagoyaでサーバ２台でも構築できる分散キーバリューストア「okuyama」のご紹介と活用事例を担当される方がいらっしゃいました。
懇親会会場からの帰り道がよく分からなかったのですが、目の前すぐに四つ橋線の駅があって助かりました。四つ橋線に乗ってきたので。危うく[twitter:@nakaji]さんにだまされる所でした。

参加しての感想

関西のHadoop熱も凄いものだなというのを感じた。中部地方でここまでHadoopを語れる人はあまりいないのではないかと思いました。Hadoopソースリーディングの会の情報も今までスルーしていたのですが、色々と興味深い事をやられている事を知る事が出来て良かったですね。
あと、玉川さんのセッションを拝聴して、以前自分が行ったセッション(d:id:youandi:20100628#p1)の問題点が見えたり。

それから、前回[twitter:@nakaji]さんにお会いした時に、お仕事名刺下さいよ〜とお願いしていたのに、Twitter名刺を渡されてしまい完全スルーされてしまいました。