CDH4.1
機械学習 | 分析 | クラウド - Cloudera
CDH4.1がリリースされたようです。
・クオラムベースのストレージ – HDFSのクオラムベースストレージにはネームノードの編集ログを保存でき、これにより外部ストレージやカスタムフェンシングの必要なく高可用性ネームノードを起動できるようになります。
SAN/NASが不要、カスタムフェンシングが不要になったのは大きいですね。
・DataFuのサポート – LinkedInのデータサイエンスチームは親切なことに、アクセスログからのセッション化(sessionization)や集合演算などの一般的な ジョブを実行するのをより簡単にするPig UDFライブラリをオープンソース化してくれました。LinkedInのチームに大感謝!
Pig UDFライブラリが入ったのは興味深いです。今までPigは使っていなかったのですが、使い始めるキッカケになるかもしれないですね。