こびとさんのメモ: 10月 2014

2014年10月30日木曜日

Hue Hue だよ

Hueはかっこいい。しかもDjango(ver1.4だけど)でできてる。
(tomcatじゃないよ！！！)
画面はBootstrap, Knockout.js, jQuery

GitHub
https://github.com/cloudera/hue

Hue
http://gethue.com/

Hadoopの標準GUI HUEの最新情報
http://www.slideshare.net/Cloudera_jp/hadoopgui-hue

Hue SDK
http://cloudera.github.io/hue/docs-3.6.0/sdk/sdk.html

Hue関連のニュース
http://gethue-jp.tumblr.com/

インストール、設定
Install Hue without Cloudera
http://stackoverflow.com/questions/20579357/install-hue-without-cloudera

config
http://docs.hortonworks.com/HDPDocuments/HDP1/HDP-1.3.3/bk_installing_manually_book/content/rpm-chap-hue-5.html

2014年10月24日金曜日

hdfsで利用できる列指向フォーマット

現状ではRCFile だけが現実的。
ORCはHive専用状態。
Parquet は利用できるデータ型が中途半端。
(たぶん、半年後にはparquetがくるぞー)

Parquet，ORCFile についてのまとめページ
しかも日本語。
http://ozalog.blogspot.jp/2013/03/rcfileparquetorcfile.html

2014年10月23日木曜日

rails のSECRET_KEY_BASE でエラー

railsをproductionモードで起動したらエラー

Internal Server Error
Missing `secret_key_base` for 'production' environment, set this value in `config/secrets.yml`

config/secrets.yml

productionモード以外は固定値が入っている。
rails4.1から？

とりあえずこれで動く。
# export SECRET_KEY_BASE=`bundle exec rake secret`
# rails s -e production

実際の運用ではどう設定しようか？

2014年10月21日火曜日

これらのシリアライズ、デシリアライズは、どの分野でも使える汎用的な物だけど
hadoop (hive)で使うことに絞って書いてます。

JSON (テキスト)
avro, protocol buffer, thrift (バイナリ)
msgpackも良さげだけど、あまり使われていない感じ。

avroなどバイナリ系の規格は、データサイズを押さえる以外にも
データ型を指定できる点が便利。
特に、hive, javaなどとの利用を考えると。

JSONは便利なようで不便な気がする。
(hadoopの世界では)
5 Reasons to Use Protocol Buffers Instead of JSON For Your Next Service

thriftはRPCの機能でもhadoopで便利に使われているので、もっと調べる。
avroはjsonでスキーマ定義できる(テキストエディターでは見れないけど扱いはJSONと同じ感じか？)。

Hive で利用できるSerDe
JSON SerDe
https://github.com/rcongiu/Hive-JSON-Serde
protocol buffer
https://github.com/twitter/elephant-bird

パフォーマンス比較
https://gist.github.com/joshsz/11299196

2014年10月9日木曜日

rbenv のちりぬるを

本家
https://github.com/sstephenson/rbenv
https://github.com/sstephenson/ruby-build
https://github.com/sstephenson/rbenv-default-gems

インストール


# rbenv
$ git clone https://github.com/sstephenson/rbenv.git ~/.rbenv
$ echo 'export PATH="$HOME/.rbenv/bin:$PATH"' >> ~/.bash_profile
$ echo 'eval "$(rbenv init -)"' >> ~/.bash_profile

# ruby-build
$ git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build

# default gems
$ git clone https://github.com/sstephenson/rbenv-default-gems.git ~/.rbenv/plugins/rbenv-default-gems
# すべてのバージョンでbundler を自動インストール
$ echo 'bundler' > ~/.rbenv/default-gems

コマンド

rbenv install --list

rbenv install 2.1.2

# 利用可能なversion (未インストールも含めて)
$ rbenv install --list

# インストールされているversion
$ rbenv versions

■ Todo
user 用とsystem全体
rbenv local と .ruby-version

2014年10月8日水曜日

あらためて、MySQLのインデックス

MySQLのインデックスについて。

Where狙いのキー、order by狙いのキー

2014年10月7日火曜日

rails console から、実行環境について

rails console の流れを追う

Standaloneで作るのがオススメ。 Eclipseで。

■ MapReduce
mapreduce 開発 Eclipse, standalone 2013年2月
Hadoop & Eclipse: Part 1: Basics – Possible options for running Hadoop from Eclipse
Hadoop & Eclipse: Part 2: Running Hadoop in the stand-alone (local) mode in Eclipse (Building Hadoop source in Eclipse)
Hadoop & Eclipse: Part 3: Installing Hadoop in stand-alone or pseudo-distributed mode

Eclipse, JUnit 2014年6月
JUnit入門その１[Eclipse4.4のJUnitプラグインの基本的な使い方]

■ 生Hadoop のインストール (CDHじゃない)
Apache Hadoop のインストール
Apache Hadoop 2.2.0 を Debian 7にインストールする

■ HBase
CentOS 6.5でHBaseのスタンドアロンモードを動かす

■ Spark
SparkをStandalone Modeで実行してみる

Spark を試す
Spark & YARNを試してみる（前半）
Spark & YARNを試してみる（後半）

こびとさんのメモ