Hueはかっこいい。しかもDjango(ver1.4だけど)でできてる。
(tomcatじゃないよ!!!)
画面はBootstrap, Knockout.js, jQuery
GitHub
https://github.com/cloudera/hue
Hue
http://gethue.com/
Hadoopの標準GUI HUEの最新情報
http://www.slideshare.net/Cloudera_jp/hadoopgui-hue
Hue SDK
http://cloudera.github.io/hue/docs-3.6.0/sdk/sdk.html
Hue関連のニュース
http://gethue-jp.tumblr.com/
インストール、設定
Install Hue without Cloudera
http://stackoverflow.com/questions/20579357/install-hue-without-cloudera
config
http://docs.hortonworks.com/HDPDocuments/HDP1/HDP-1.3.3/bk_installing_manually_book/content/rpm-chap-hue-5.html
2014年10月30日木曜日
2014年10月24日金曜日
hdfsで利用できる列指向フォーマット
現状ではRCFile だけが現実的。
ORCはHive専用状態。
Parquet は利用できるデータ型が中途半端。
(たぶん、半年後にはparquetがくるぞー)
Parquet,ORCFile についてのまとめページ
しかも日本語。
http://ozalog.blogspot.jp/2013/03/rcfileparquetorcfile.html
2014年10月23日木曜日
rails のSECRET_KEY_BASE でエラー
railsをproductionモードで起動したらエラー
Internal Server Error
Missing `secret_key_base` for 'production' environment, set this value in `config/secrets.yml`
config/secrets.yml
productionモード以外は固定値が入っている。rails4.1から?
とりあえずこれで動く。
# export SECRET_KEY_BASE=`bundle exec rake secret`
# rails s -e production
実際の運用ではどう設定しようか?
2014年10月21日火曜日
シリアライズ
これらのシリアライズ、デシリアライズは、どの分野でも使える汎用的な物だけど
hadoop (hive)で使うことに絞って書いてます。
JSON (テキスト)
avro, protocol buffer, thrift (バイナリ)
msgpackも良さげだけど、あまり使われていない感じ。
avroなどバイナリ系の規格は、データサイズを押さえる以外にも
データ型を指定できる点が便利。
特に、hive, javaなどとの利用を考えると。
JSONは便利なようで不便な気がする。
(hadoopの世界では)
5 Reasons to Use Protocol Buffers Instead of JSON For Your Next Service
thriftはRPCの機能でもhadoopで便利に使われているので、もっと調べる。
avroはjsonでスキーマ定義できる(テキストエディターでは見れないけど扱いはJSONと同じ感じか?)。
Hive で利用できるSerDe
JSON SerDe
https://github.com/rcongiu/Hive-JSON-Serde
protocol buffer
https://github.com/twitter/elephant-bird
パフォーマンス比較
https://gist.github.com/joshsz/11299196
hadoop (hive)で使うことに絞って書いてます。
JSON (テキスト)
avro, protocol buffer, thrift (バイナリ)
msgpackも良さげだけど、あまり使われていない感じ。
avroなどバイナリ系の規格は、データサイズを押さえる以外にも
データ型を指定できる点が便利。
特に、hive, javaなどとの利用を考えると。
JSONは便利なようで不便な気がする。
(hadoopの世界では)
5 Reasons to Use Protocol Buffers Instead of JSON For Your Next Service
thriftはRPCの機能でもhadoopで便利に使われているので、もっと調べる。
avroはjsonでスキーマ定義できる(テキストエディターでは見れないけど扱いはJSONと同じ感じか?)。
Hive で利用できるSerDe
JSON SerDe
https://github.com/rcongiu/Hive-JSON-Serde
protocol buffer
https://github.com/twitter/elephant-bird
パフォーマンス比較
https://gist.github.com/joshsz/11299196
2014年10月9日木曜日
rbenv のちりぬるを
本家
https://github.com/sstephenson/rbenv
https://github.com/sstephenson/ruby-build
https://github.com/sstephenson/rbenv-default-gems
インストール
# rbenv
$ git clone https://github.com/sstephenson/rbenv.git ~/.rbenv
$ echo 'export PATH="$HOME/.rbenv/bin:$PATH"' >> ~/.bash_profile
$ echo 'eval "$(rbenv init -)"' >> ~/.bash_profile
# ruby-build
$ git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build
# default gems
$ git clone https://github.com/sstephenson/rbenv-default-gems.git ~/.rbenv/plugins/rbenv-default-gems
# すべてのバージョンでbundler を自動インストール
$ echo 'bundler' > ~/.rbenv/default-gems
コマンド
rbenv install --list
rbenv install 2.1.2
# 利用可能なversion (未インストールも含めて)$ rbenv install --list
# インストールされているversion
$ rbenv versions
■ Todo
user 用とsystem全体
rbenv local と .ruby-version
2014年10月8日水曜日
2014年10月7日火曜日
2014年10月4日土曜日
Hadoop 設定、開発環境
Standaloneで作るのがオススメ。 Eclipseで。
■ MapReduce
mapreduce 開発 Eclipse, standalone 2013年2月
Hadoop & Eclipse: Part 1: Basics – Possible options for running Hadoop from Eclipse
Hadoop & Eclipse: Part 2: Running Hadoop in the stand-alone (local) mode in Eclipse (Building Hadoop source in Eclipse)
Hadoop & Eclipse: Part 3: Installing Hadoop in stand-alone or pseudo-distributed mode
Eclipse, JUnit 2014年6月
JUnit入門その1[Eclipse4.4のJUnitプラグインの基本的な使い方]
■ 生Hadoop のインストール (CDHじゃない)
Apache Hadoop のインストール
Apache Hadoop 2.2.0 を Debian 7にインストールする
■ HBase
CentOS 6.5でHBaseのスタンドアロンモードを動かす
■ Spark
SparkをStandalone Modeで実行してみる
Spark を試す
Spark & YARNを試してみる(前半)
Spark & YARNを試してみる(後半)
登録:
投稿 (Atom)