簡介:E-MapReduce 推出面向開源大數據集群的智能運維診斷系統 E-MapReduce Doctor,有效提升大數據集群運維效率,輔助 EMR 用戶完善集群監控體系。
大數據運維的挑戰—如何保證集群穩定與運行效率
企業級大數據集群通常擁有海量的數據存儲、日常運算成干上萬的計算任務,需要滿足各類上層業務的計算需求。對于這類集群的運維往往充滿著挑戰:海量的數據、龐雜的組件以及組件之間復雜的依賴關系、對于時效要求的的運算任務,都會提升運維難度。作為支撐平臺,大數據集群的穩定性和運行效率,會直接影響到公司業務的正常運作和發展。

集群管理員往往對整體集群做好了監控運維體系,對于大數據集群,簡單的監控運維體系能夠幫助管理員在遇到故障的時候定位問題。但對于整體集群的運行效率,集群的狀態,通過單純的監控指標很難給出一個全面的解答。
對于大數據集群,管理員以及 CIO 等更關注以下的內容:
● 集群內的節點的運行狀態和資源使用狀況;
● 運行在集群上的服務組件的狀態監控和異常處理,包括 YARN、HDFS、Hive 和 Spark 等;
● 計算任務運行情況和執行效率;
● 整體集群的健康程度和如何改進。
面對運維挑戰,EMR重磅推出:智能運維診斷系統(EMR Doctor)
為了提升大數據集群運維效率,輔助 EMR 用戶完善集群監控體系。E-MapReduce 推出面向開源大數據集群的智能運維診斷系統 E-MapReduce Doctor(簡稱EMR Doctor)。 EMR Doctor 作為開源大數據集群的管家,會自動每日巡檢集群。集群管理員只需要定期查看健康檢查報告,并且根據報告中的建議對集群做相應的優化調整,即可全局了解集群的健康狀況和動態走勢,并保持集群的健康度。
如何使用 EMR Doctor
進入 EMR 控制臺健康檢查頁面。
? 登錄 EMR on ECS 控制臺。
? 在頂部菜單欄處,根據實際情況選擇地域和資源組。
? 在集群管理頁面,單擊目標集群的集群ID。
? 單擊上方的健康檢查頁簽。
在健康檢查頁面,您可以看到當前集群的健康檢查報告(T+1)。健康狀態列顯示了該集群的健康度,您可以點擊查看報告進入檢查報告頁面。

健康檢查報告中包含集群計算資源的總體分析

健康檢查報告中包含計算任務從各個維度的排名并給出任務調優建議

健康檢查報告中包含對集群存儲的總體分析,以及大小文件和冷熱數據的詳細分析

健康檢查報告主要分析內容如下,更詳細說明請參見查看健康檢查狀態和報告
| 計算資源分析 | 概述 | 狀態概述 |
| 需要關注的問題 | ||
| 計算基礎信息 | 集群計算評分 | |
| 集群算力內存時 | ||
| 集群算力CPU時 | ||
| 計算引擎內存算力時 | ||
| 計算任務信息 | 計算任務算力內存時分析 | |
| 計算任務評分排行榜 | ||
| Spark | Spark任務算力分析及調優建議 | |
| Tez | Tez任務算力分析及調優建議 | |
| MapReduce | MapReduce任務算力分析及調優建議 | |
| HDFS存儲資源分析
(需開啟存儲資源信息采集開關) | 概述 | 狀態概述 |
| 需要關注的問題 | ||
| HDFS基礎信息 | HDFS存儲資源使用趨勢 | |
| 文件總數隨時間變化趨勢 | ||
| 評分趨勢 | ||
| HDFS文件大小分布 | HDFS文件大小比例 | |
| 一級目錄空文件個數Top10 | ||
| 一級目錄極小文件個數Top10 | ||
| 一級目錄小文件個數Top10 | ||
| 一級目錄中等文件個數Top10 | ||
| 一級目錄大文件個數Top10 | ||
| HDFS冷熱數據分布 | HDFS冷熱數據 | |
| 一級目錄極冷數據大小Top10 | ||
| 一級目錄冷數據大小Top10 | ||
| 一級目錄溫數據大小Top10 | ||
| 一級目錄熱數據大小Top10 | ||
| HIVE存儲資源分析
(需開啟存儲資源信息采集開關) |
概述 | 狀態概述 |
| 需要關注的問題 | ||
| Hive基礎信息 | 存儲趨勢 | |
| 文件數量趨勢 | ||
| 評分趨勢 | ||
| Hive庫信息 | 庫存儲排名 | |
| 庫文件總數排名 | ||
| 庫評分 | ||
| Hive表文件大小分布 | Hive表文件大小分布比例 | |
| Hive表空文件個數Top10 | ||
| Hive表極小文件個數Top10 | ||
| Hive表小文件個數Top10 | ||
| Hive中等文件個數Top10 | ||
| Hive大文件個數Top10 | ||
| Hive冷熱數據分布 | Hive冷熱數據分布 | |
| Hive表極冷數據大小Top10 | ||
| Hive表冷數據大小Top10 | ||
| Hive表溫數據大小Top10 | ||
| Hive表熱數據大小Top10 | ||
| Hive表存儲格式分布 | Hive表存儲格式分布 | |
| Hive表TextFile/Parquet/ORC格式文件分析 |