Fenriswolf 程式筆記

奮利斯狼的地盤,小綿羊勿入

用 Offline Image Viewer 分析 Hadoop Namespace

Hadoop 用 fsimage 來儲存整個 namespace,但 fsimage 是 binary 格式,很難讓系統管理者分析這個檔案。Offline Image Viewer 是 Hadoop 0.21 新增的功能,可以幫使用者把 fsimage 轉成不同的文字格式以方便做分析。如同字面所顯示,這個工具是離線操作的,也就是不需要啟動 Hadoop cluster。
繼續閱讀

廣告

2012/12/10 Posted by | Hadoop | , , | 發表留言

Cloudera Manager Free Edition 4.1 和 CDH 4.1.2 簡易安裝教學

安裝及管理一個大的 Hadoop cluster 並不是只要下載 tar files 解壓縮並啟動 services 這麼簡單。後續有非常多設定、監控等麻煩的事要處理。Cloudera Manager 就整合了一系列的功能讓系統管理者能更方便的維護 Hadoop。Free Edition 的限制如下

  • 只支援 50 個 nodes
  • 沒有設定的版本控管
  • 沒有支援 LDAP/Kerberos Authentication
  • 沒有進階的 services 監控選項,如 health check
  • 沒有 Logs 搜尋功能

更多說明在 How to Upgrade the Free Edition to Cloudera Manager 可以找到。但是對小型的 cluster 或是新手想試試怎麼裝 Hadoop 很有幫助。
繼續閱讀

2012/12/06 Posted by | Hadoop | , , | 2 則迴響

Hadoop 參數設定 – mapred-site.xml

本篇是介紹 mapred-site.xml 的相關設定及說明
繼續閱讀

2012/08/06 Posted by | Hadoop | , , | 發表留言

Hadoop 參數設定 – hdfs-site.xml

本篇是介紹 hdfs-site.xml 的相關設定及說明
繼續閱讀

2012/05/25 Posted by | Hadoop | , , | 發表留言

Hadoop 參數設定 – core-site.xml

Hadoop 相關的參數非常的多,要怎麼設定才能達到最好的效能是一件令人頭痛的事
本篇是 core-site.xml 的設定及說明
繼續閱讀

2012/04/05 Posted by | Hadoop | , | 發表留言

HDFS quota 設定

在多人共用的狀況下,quota 的設定非常重要。尤其是在 Hadoop 處理大量資料的環境,不小心就容易把所有的空間用完造成別人無法存取
繼續閱讀

2012/04/04 Posted by | Hadoop | , , | 發表留言

自訂 Pig Eval Function – 型別檢查

直接繼承 EvalFunc 預設並沒有強制開發者 override 型別檢查的 functions,這會造成誤用別人所寫的 UDFs。尤其是當讀入 100 萬筆資料卻發生 100 萬次 ClassCastException 後才知道自己傳入錯的型別
繼續閱讀

2012/04/01 Posted by | Pig | , | 發表留言

自訂 Pig Eval Function – 基礎篇

Pig 預設提供的 functions 很少,一般常見的 utility functions 都沒有包含在內
使用自訂的 UDF 有兩種方式

  1. 利用 Pig 內建的 Dynamic Invoke function
  2. 自己寫 UDF

繼續閱讀

2012/03/26 Posted by | Pig | , | 發表留言

Pig Latin / SQL 對照表

很多人都是從 RDB 的程式開始寫起,在學習 Pig 的過程一定會想「SQL 裡的 xxx 功能用 Pig 應該要怎麼寫」
以下的對照表應該會對想學 Pig 的人有所幫助
繼續閱讀

2012/03/22 Posted by | Pig | , | 1 則迴響

Apache Pig 簡介

Hadoop 這個名詞已經越來越熱門了,但是難寫的 Mapper/Reducer 也造成很多人的進入障礙。
Pig 提供了一個 high level 的語言並轉換成 Map/Reduce 幫助大家執行大量的資料分析。
繼續閱讀

2012/03/22 Posted by | Pig | , | 2 則迴響