課程介紹
華為大數(shù)據(jù)專家(HCIE-Big Data)證定位華為大數(shù)據(jù)分析領域中大型分布式并行處理數(shù)據(jù)倉庫平臺的架構原理、優(yōu)化設計、應用開發(fā)和大數(shù)據(jù)挖掘領域的基礎理論、常用挖掘算法、應用設計以及開發(fā)、旨在推動業(yè)界大數(shù)據(jù)行業(yè)的專家型人才培養(yǎng)。主要內(nèi)容包括華為企業(yè)級的大型并行處理分布式數(shù)據(jù)倉庫平臺FusionInsight LibrA的架構、功能特性、數(shù)據(jù)庫設計開發(fā);數(shù)據(jù)挖掘理論以及使用華為企業(yè)級大數(shù)據(jù)挖掘平臺FusionInsight Miner和基于華為云的企業(yè)智能平臺EI的基礎服務- MLS機器學習服務進行數(shù)據(jù)深度分析和挖掘、通過華為HCIE-Big Data的學習、您將對大數(shù)據(jù)技術有更加深入的理解、具備運用大數(shù)據(jù)技術進行大數(shù)據(jù)分析應用、大數(shù)據(jù)挖掘應用的專家能力。
標題圖標學員基礎
學員應了解大數(shù)據(jù)技術原理和Hadoop的基礎知識,具備華為大數(shù)據(jù)HCNA水平,熟悉Linux的管理和操作、具有數(shù)據(jù)庫的基本知識,有數(shù)據(jù)庫的使用經(jīng)驗,了解 SQL 語言。具備一定軟件開發(fā)能力,熟悉Java、Python, C++等至少一種開發(fā)語言。
標題圖標課程目標
理解并掌握大型并行處理數(shù)據(jù)倉庫平臺的架構原理、分布式關系型數(shù)據(jù)庫的設計和優(yōu)化及應用開發(fā);掌握大數(shù)據(jù)挖掘的基本原理,常用算法、常用挖掘方法、對華為大數(shù)據(jù)挖掘解決方案FusionInsight Miner和華為云機器學習服務MLS的熟練使用,勝任數(shù)據(jù)倉庫開發(fā)、大數(shù)據(jù)分析、大數(shù)據(jù)數(shù)據(jù)挖掘和人工智能的相關崗位。
課程大綱
第一章 數(shù)據(jù)倉庫平臺FusionInsight LibrA
理論
第一節(jié) 分布式數(shù)據(jù)庫架構
體系架構基本知識
熟悉MPP架構及優(yōu)勢
業(yè)界產(chǎn)品說明
第二節(jié) FusionInsight LibrA 基本組件簡介
LibrA邏輯架構
LibrA物理架構
LibrA數(shù)據(jù)庫對象
第三節(jié) FusionInsight LibrA 產(chǎn)品特性和關鍵技術
架構和支持的操作系統(tǒng)
面向應用開發(fā)的基本功能
數(shù)據(jù)庫安全
圖形化工具
高級特性
第四節(jié) FusionInsight LibrA 配套工具集
Database Manager概念與架構
Database Manager的安裝
Database Manager的使用
Data Studio概念與架構
Data Studio的安裝與FusionInsight LibrA服務器的配置
Data Studio工具支持的特性
Data Studio的使用
第五節(jié) FusionInsight LibrA 安全管理
訪問控制
用戶管理
權限管理模型
對象權限
安全審計
第六節(jié) FusionInsight LibrA 數(shù)據(jù)庫管理系統(tǒng)并發(fā)控制
配置負載均衡
事務與隔離
LibrA鎖機制介紹
第七節(jié) FusionInsight LibrA 數(shù)據(jù)庫性能監(jiān)控
系統(tǒng)資源監(jiān)控方式
性能相關視圖
使用命令行監(jiān)控集群性能
使用DM工具監(jiān)控集群性能
第八節(jié) FusionInsight LibrA 數(shù)據(jù)遷移
數(shù)據(jù)遷移場景劃分
GDS工具適用場景和使用方法
copy from/to適用場景和使用方法
開源ELT工具適用場景和使用方法
gs_dump/gs_restore適用場景和使用方法
gsql工具適用場景和使用方法
Roach工具適用場景和使用方法
從其他數(shù)據(jù)庫中遷移數(shù)據(jù)
第九節(jié) FusionInsight LibrA SQL介紹
SQL相關機制和原理
利用EXPLAIN進行SQL調(diào)優(yōu)
第十節(jié) FusionInsight LibrA 數(shù)據(jù)庫設計
數(shù)據(jù)庫邏輯設計
存儲模式
數(shù)據(jù)分布
表分區(qū)
索引
第十一節(jié) FusionInsight LibrA 應用程序開發(fā)指導
FusionInsight LibrA驅(qū)動介紹
ODBC應用程序開發(fā)
JDBC應用程序開發(fā)
基礎開發(fā)規(guī)范
第二章 FusionInsight LibrA實驗
FusionInsight LibrA基本操作、語法
FusionInsight LibrA性能優(yōu)化
網(wǎng)絡KPI數(shù)據(jù)柵格化處理
重點區(qū)域數(shù)據(jù)分析
流動人口常駐地分析
第三章 大數(shù)據(jù)挖掘理論
第一節(jié) 預備知識和數(shù)據(jù)介紹
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘的流程
數(shù)據(jù)挖掘的應用
數(shù)據(jù)和屬性類型
數(shù)據(jù)的統(tǒng)計描述
數(shù)據(jù)的鄰近性度量
第二節(jié) 數(shù)據(jù)預處理
為什么要預處理數(shù)據(jù)
數(shù)據(jù)清理
數(shù)據(jù)集成
數(shù)據(jù)歸約
數(shù)據(jù)變換
第三節(jié) 數(shù)據(jù)倉庫介紹
數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫的體系結構與模型
多維數(shù)據(jù)模型
概念分層
OLAP與OLTP
方體物化
第四節(jié) 分類
分類和回歸的概念
決策樹分類
樸素貝葉斯分類
組合分類
后向傳播分類
支持向量機分類
模型評估與選擇
第五節(jié) 聚類
聚類的定義
K-均值算法
k-中心點算法
第六節(jié) 離群點檢測
離群點的概念
離群點檢測的方法
第七節(jié) 關聯(lián)規(guī)則(Association Rule)
關聯(lián)規(guī)則的定義
關聯(lián)規(guī)則挖掘步驟及相關概念
關聯(lián)規(guī)則挖掘方法分類
Apriori算法
第八節(jié) FusionInsight Miner 和華為云機器學習服務MLS
FusionInsight Miner整體介紹
關系分析
標簽管理
華為云機器學習服務
第四章 大數(shù)據(jù)挖掘?qū)崙?zhàn)
銀行定期存款業(yè)務預測
客戶分群
鮑魚生長年齡預測