2014年10月30日木曜日

Hue Hue だよ

Hueはかっこいい。しかもDjango(ver1.4だけど)でできてる。
(tomcatじゃないよ!!!)
画面はBootstrap, Knockout.js, jQuery

GitHub
https://github.com/cloudera/hue

Hue
http://gethue.com/

Hadoopの標準GUI HUEの最新情報
http://www.slideshare.net/Cloudera_jp/hadoopgui-hue

Hue SDK
http://cloudera.github.io/hue/docs-3.6.0/sdk/sdk.html

Hue関連のニュース
http://gethue-jp.tumblr.com/


インストール、設定
Install Hue without Cloudera
http://stackoverflow.com/questions/20579357/install-hue-without-cloudera

config
http://docs.hortonworks.com/HDPDocuments/HDP1/HDP-1.3.3/bk_installing_manually_book/content/rpm-chap-hue-5.html


2014年10月24日金曜日

hdfsで利用できる列指向フォーマット


現状ではRCFile だけが現実的。
 ORCはHive専用状態。
 Parquet は利用できるデータ型が中途半端。
(たぶん、半年後にはparquetがくるぞー)

Parquet,ORCFile  についてのまとめページ
しかも日本語。
http://ozalog.blogspot.jp/2013/03/rcfileparquetorcfile.html

2014年10月23日木曜日

rails のSECRET_KEY_BASE でエラー


railsをproductionモードで起動したらエラー

Internal Server Error 
Missing `secret_key_base` for 'production' environment, set this value in `config/secrets.yml`

config/secrets.yml
productionモード以外は固定値が入っている。
rails4.1から?

とりあえずこれで動く。
# export SECRET_KEY_BASE=`bundle exec rake secret`
# rails s -e production

実際の運用ではどう設定しようか?

2014年10月21日火曜日

シリアライズ

これらのシリアライズ、デシリアライズは、どの分野でも使える汎用的な物だけど
hadoop (hive)で使うことに絞って書いてます。

JSON (テキスト)
avro, protocol buffer, thrift (バイナリ)
msgpackも良さげだけど、あまり使われていない感じ。

avroなどバイナリ系の規格は、データサイズを押さえる以外にも
データ型を指定できる点が便利。
特に、hive, javaなどとの利用を考えると。

JSONは便利なようで不便な気がする。
(hadoopの世界では)
5 Reasons to Use Protocol Buffers Instead of JSON For Your Next Service

thriftはRPCの機能でもhadoopで便利に使われているので、もっと調べる。
avroはjsonでスキーマ定義できる(テキストエディターでは見れないけど扱いはJSONと同じ感じか?)。

Hive で利用できるSerDe
JSON SerDe
https://github.com/rcongiu/Hive-JSON-Serde
protocol buffer
https://github.com/twitter/elephant-bird

パフォーマンス比較
https://gist.github.com/joshsz/11299196

2014年10月9日木曜日

rbenv のちりぬるを


本家
https://github.com/sstephenson/rbenv
https://github.com/sstephenson/ruby-build
https://github.com/sstephenson/rbenv-default-gems

インストール

# rbenv
$ git clone https://github.com/sstephenson/rbenv.git ~/.rbenv
$ echo 'export PATH="$HOME/.rbenv/bin:$PATH"' >> ~/.bash_profile
$ echo 'eval "$(rbenv init -)"' >> ~/.bash_profile

# ruby-build
$ git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build

# default gems
$ git clone https://github.com/sstephenson/rbenv-default-gems.git ~/.rbenv/plugins/rbenv-default-gems
# すべてのバージョンでbundler を自動インストール
$ echo 'bundler' > ~/.rbenv/default-gems

コマンド

rbenv install --list
rbenv install 2.1.2

# 利用可能なversion (未インストールも含めて)
$ rbenv install --list

# インストールされているversion
$ rbenv versions


■ Todo
user 用とsystem全体
rbenv local と .ruby-version

2014年10月4日土曜日

rspecの新しい記事 rails4



RailsテストフレームワークRSpecのインストールと基本的な使い方、基礎文法 (1/3)

docker イメージ作成


自分でイメージを作って管理できたら、いろいろと使えるはず


Dockerfileとdocker buildコマンドでDockerイメージの作成 (1/2)

docker用にCentOS 6.5のbase imageを自作する

Docker向けのコンテナをゼロから作ってみよう

Dockerイメージのレイヤー構造について

Dockerを使って開発イメージを作成し、公開します


Dockerクイックツアー

Hadoop 設定、開発環境


Standaloneで作るのがオススメ。 Eclipseで。

■ MapReduce
mapreduce 開発  Eclipse, standalone  2013年2月
Hadoop & Eclipse: Part 1: Basics – Possible options for running Hadoop from Eclipse
Hadoop & Eclipse: Part 2: Running Hadoop in the stand-alone (local) mode in Eclipse (Building Hadoop source in Eclipse)
Hadoop & Eclipse: Part 3: Installing Hadoop in stand-alone or pseudo-distributed mode


Eclipse, JUnit  2014年6月
JUnit入門その1[Eclipse4.4のJUnitプラグインの基本的な使い方]


■ 生Hadoop のインストール (CDHじゃない)
Apache Hadoop のインストール
Apache Hadoop 2.2.0 を Debian 7にインストールする

■ HBase
CentOS 6.5でHBaseのスタンドアロンモードを動かす

■ Spark
SparkをStandalone Modeで実行してみる

Spark を試す
Spark & YARNを試してみる(前半)
Spark & YARNを試してみる(後半)