请询价
適合對象:對大數(shù)據(jù)挖掘培訓,大數(shù)據(jù)分析培訓,大數(shù)據(jù)培訓等有興趣學習的學員
開設課程校區(qū):上地十街,高粱橋斜街59號,廠洼街校區(qū)
課程亮點:
朝九晚九全程跟班答疑、一對一督學、定期直播串講、五分鐘內有問必答、出勤率和進度監(jiān)督、作業(yè)與測試
學習目標:
1.零基礎脫產學習,5個月學會大數(shù)據(jù)技術
2.計算機、統(tǒng)計、數(shù)學等專業(yè)學習更佳
3.包學會,成為大數(shù)據(jù)稀缺人才,高薪就業(yè)
4.*DA大數(shù)據(jù)就業(yè)幫,助你前程似錦
5.大數(shù)據(jù)未來已來,只等你改變自己
課程內容:
1章業(yè)務分析基礎技能
1-1數(shù)據(jù)分析概述
1-2常用高階函數(shù)
1-3條件格式應用
1-4數(shù)據(jù)透視表高階應用
1-5圖表進階
1-6項目排期管理
1-7案例背景介紹
1-8動態(tài)考勤表制作
1-9每月考勤統(tǒng)計
1-10考勤匯總統(tǒng)計
1-11常用指標概述
1-12基礎指標統(tǒng)計
1-13人力資源指標體系概述
1-14案例背景介紹
1-15員工績效評定思路解析
1-16實操績效統(tǒng)計及可視化
1-17案例背景介紹
1-18活動評估報表思路解析
1-19實操活動評估指標統(tǒng)計
1-20指導撰寫報表結論
1-21圖表應用
1-22零碎需求分析方法
1-23案例應用-核心產品分析
1-24案例應用-零售業(yè)商業(yè)智能看板
1-25RFM基礎模型及拓展
1-26案例應用-用戶畫像
1-27樹狀結構分析方法概述
1-28案例應用-汽車行業(yè)分析報告
2章數(shù)據(jù)庫應用技能
2-1數(shù)據(jù)庫簡介
2-2表結構的特點
2-3數(shù)據(jù)庫分類
2-4MySQL簡介
2-5數(shù)據(jù)庫基本結構
2-6SQL語言分類
2-7SQL書寫要求
2-8創(chuàng)建、使用及刪除數(shù)據(jù)庫
2-9創(chuàng)建表
2-10數(shù)據(jù)類型
2-11約束條件
2-12修改及刪除表
2-13插入數(shù)據(jù)
2-14批量導入數(shù)據(jù)
2-15更新數(shù)據(jù)
2-16刪除數(shù)據(jù)
2-17查詢指定列
2-18查詢不重復記錄
2-19條件查詢
2-20常用運算符
2-21空值查詢
2-22設置別名
2-23模糊查詢
2-24查詢結果排序
2-25限制查詢
2-26聚合運算
2-27分組查詢
2-28分組后篩選
2-29內連接
2-30左連接
2-31右連接
2-32合并查詢
2-33標量子查詢
2-34行子查詢
2-35列子查詢
2-36表子查詢
2-37字符串函數(shù)
2-38數(shù)學函數(shù)
2-39日期和時間函數(shù)
2-40分組合并函數(shù)
2-41邏輯函數(shù)
2-42開窗函數(shù)
2-43進階練習
2-44數(shù)據(jù)來源及業(yè)務背景
2-45表關系梳理
2-46數(shù)據(jù)導入及字段處理
2-47數(shù)據(jù)查詢
3章商業(yè)智能分析技能
3-1數(shù)據(jù)倉庫結構說明
3-2基于數(shù)據(jù)倉庫的數(shù)據(jù)處理方法
3-3數(shù)據(jù)倉庫數(shù)據(jù)處理進階
3-4數(shù)據(jù)倉庫應用案例
3-5創(chuàng)建多維數(shù)據(jù)模型
3-6理解多維模型表連接規(guī)則
3-7業(yè)務數(shù)據(jù)分析指標介紹
3-8業(yè)務數(shù)據(jù)匯總分析進階
3-9時間維度分析方法說明
3-10業(yè)務背景介紹
3-11理解及加工處理數(shù)據(jù)
3-12可視化界面創(chuàng)建方法介紹
3-13制作零售業(yè)銷售情況分析儀
3-14業(yè)務背景介紹
3-15客戶價值模型說明
3-16數(shù)據(jù)加工處理
3-17制作電商客戶行為分析儀
3-18業(yè)務背景介紹
3-19理解餐飲業(yè)關鍵運營指標
3-20數(shù)據(jù)加工處理
3-21制作餐飲業(yè)日銷售情況監(jiān)控儀
3-22電商業(yè)務背景介紹
3-23電商流量指標體系說明
3-24數(shù)據(jù)加工處理
3-25制作電商流量分析儀
3-26業(yè)務背景介紹
3-27進銷存關鍵指標說明
3-28數(shù)據(jù)加工處理
3-29制作經銷商經營情況分析儀
3-30業(yè)務背景介紹
3-31數(shù)據(jù)說明
3-32制作車企銷售情況分析儀
3-33由講師介紹業(yè)務背景
3-34由講師提供數(shù)據(jù)
3-35由學員獨立完成業(yè)務分析儀的制作過程
3-36由學員分組發(fā)表制作成果并由講師點評
4章數(shù)據(jù)挖掘數(shù)學基礎
4-1函數(shù)
4-2極限
4-3微分及應用
4-4定積分
4-5向量
4-6線性方程組
4-7線性變化與矩陣
4-8矩陣乘法
4-9行列式
4-10矩陣的秩
4-11逆矩陣
4-12點乘與內積
4-13外積
4-14特征值與特征向量
4-15集中趨勢的度量
4-16離散程度的度量
4-17偏態(tài)與峰態(tài)的度量
4-18統(tǒng)計量概念與常用統(tǒng)計量
4-19抽樣分布
4-20樣本均值的分布與中心極限定理
4-21樣本比例的抽樣分布
4-22兩個樣本平均值之差的分布
4-23樣本方差的分布
4-24假設檢驗的基本概念
4-25一個總體參數(shù)的檢驗
4-26兩個總體參數(shù)的檢驗
4-27分類數(shù)據(jù)與X2統(tǒng)計量
4-28擬合優(yōu)度檢驗
4-29列聯(lián)分析:獨立性檢驗
4-30線性關系的方向和強度
4-31協(xié)方差
4-32相關系數(shù)
4-33一元線性回歸模型
4-34多元線性回歸模型
4-35邏輯回歸模型
5章Python編程基礎
5-1Python簡介
5-2Python安裝環(huán)境介紹
5-3Python常用IDE及Jupyter介紹
5-4Python第三方庫安裝
5-5編碼與標識符
5-6Python保留字
5-7注釋和縮進
5-8輸入和輸出
5-9變量及賦值
5-10數(shù)值
5-11字符串
5-12布爾值
5-13列表
5-14元組
5-15集合
5-16字典
5-17條件語句: If
5-18循環(huán)語句For和While
5-19Break語句
5-20Continue語句
5-21Pass語句
5-22錯誤和異常捕捉語句
5-23異常和錯誤處理
5-24邏輯判斷函數(shù)
5-25數(shù)值運算函數(shù)
5-26序列函數(shù)
5-27類型轉換函數(shù)
5-28函數(shù)定義
5-29函數(shù)參數(shù)
5-30默認參數(shù)
5-31變量作用域
5-32全局變量和局部變量
5-33匿名函數(shù)
5-34列表生成式
5-35高級函數(shù): map、Reduce、 filter等
5-36模塊概念介紹
5-37import模塊導入
5-38自定義模塊
5-39文件讀寫
5-40利用Python操作文件和目錄
5-41類的定義
5-42類對象
5-43類方法
5-44Python連接數(shù)據(jù)庫方法
5-45利用Python操作數(shù)據(jù)庫
6章Python數(shù)據(jù)清洗
6-1NumPy基本介紹
6-2NumPy基本數(shù)據(jù)結構: Ndarray
6-3數(shù)組的索引與切片
6-4數(shù)組其他常用函數(shù)與方法
6-5Pandas基本數(shù)據(jù)結構: Series與DataFrame
6-6索引、切片與過濾
6-7排序與匯總
6-8DataFrame簡單處理缺失值方法
6-9數(shù)據(jù)集的合并與連接
6-10重復值的處理
6-11數(shù)據(jù)集映射轉化方法
6-12異常值查找與替換
6-13排序和隨機抽樣
6-14DataFrame字符串常用操作
6-15DataFrame分組操作
6-16
6-17 DataFrame聚合操作
6-18DataFrame透視表的創(chuàng)建方法
6-19數(shù)據(jù)的獲取與存儲
6-20數(shù)據(jù)探索
6-21數(shù)據(jù)清洗實戰(zhàn)案例一
6-22數(shù)據(jù)清洗實戰(zhàn)案例二
7章Python數(shù)據(jù)可視化
7-1數(shù)據(jù)可視化入門
7-2常用可視化第三方庫介紹: matplotlib、seaborn、PyEcharts
7-3常用可視化圖形介紹,如餅圖、柱圖、條形圖、線圖散點圖等
7-4圖形選擇
7-5Pandas繪圖方法
7-6圖例配置方法和常用參數(shù)
7-7顏色條配置方法和常用參數(shù)
7-8subplot多子圖繪制方法
7-9文字與注釋、自定義坐標軸方法
7-10Seaborn入門介紹
7-11Seaborn API介紹
7-12Seaborn繪圖示例
7-13Echarts介紹
7-14PyEcharts API介紹
7-15PyEcharts繪圖示例
8章Python統(tǒng)計分析
8-1數(shù)據(jù)描述
8-2數(shù)據(jù)分布與統(tǒng)計信息
8-3數(shù)據(jù)角色定義
8-4大數(shù)據(jù)存儲
8-5最小二乘估計
8-6線性回歸與相關
8-7線性回歸與方差分析
8-8數(shù)據(jù)分析流程
8-9多元線性回歸的假設
8-10正態(tài)分布問題
8-11異方差問題與處理
8-12異常值問題與處理
8-13共線性問題與處理
8-14內生性問題與處理
8-15logistic回歸與卡方
8-16大似然估計
8-17logistic回歸解析
8-18評分與預測
8-19分類比例平衡問題
8-20工具變量的使用
8-21啞變量處理
8-22變量篩選
9章機器學習快速入門
9-1機器學習入門介紹:機器學習基本思想、常用算法分類、算法庫等
9-2Python機器學習算法庫Scikit-Learn入門介紹
9-3超參數(shù)與模型驗證:學習曲線、網(wǎng)格搜索
9-4特征工程概念介紹
9-5分類特征、文本特征
9-6圖像特征、特征衍生
9-7缺失值填充、特征管道
9-8KNN基本原理
9-9KNN函數(shù)詳解
9-10KNN高級數(shù)據(jù)結構實現(xiàn)
9-11原理補充:歸一化方法、學習曲線、交叉驗證
9-12KNN-最近鄰分類器
9-13KNN算法示例
9-14無監(jiān)督學習與聚類算法
9-15聚類分析概述與簇的概念
9-16距離衡量方法
9-17聚類目標函數(shù)和質心計算方法
9-18Scikit-Learn實現(xiàn)K-Means及主要參數(shù)解
9-19決策樹工作原理
9-20構建決策樹(ID3算法構建決策樹及局限性)
9-****.5與CART算法
9-22決策樹的Scikit-Learn實現(xiàn):八個參數(shù)、一個屬性、四個接口解析
9-23分類模型的評估指標(混淆矩陣原理)
9-24實例:泰坦尼克號幸存者的預測
9-25過擬合與欠擬合
9-26決策樹算法評價(優(yōu)點與缺點)
9-27決策樹在保險行業(yè)中的應用
10章機器學習進階
10-1線性回歸概述
10-2多元線性回歸基本原理
10-3模型參數(shù)求解方法
10-4回歸類模型評價標準:精準性、擬合度
10-5多重共線性與嶺回歸、Lasso
10-6非線性問題及其處理方法
10-7多項式回歸
10-8MSE
10-9R^2
10-10最小二乘法
10-11梯度下降
10-12名為“回歸\"的分類器
10-13二元邏輯回歸的損失函數(shù)
10-14邏輯回歸的重要參數(shù)
10-15梯度下降求解邏輯回歸最小損失函數(shù)
10-16概率分類器概述
10-17樸素貝葉斯概述
10-18不同分布下的樸素貝葉斯
10-19高斯貝葉斯下的擬合效果與運算速度
10-20多項式樸素貝葉斯及其優(yōu)化
10-21AUC
10-22ROC
10-23關聯(lián)規(guī)則概述:頻繁項集的產生與
10-24關聯(lián)發(fā)現(xiàn)
10-25Apriori算法原理:先驗原理
10-26使用Apriori算法來發(fā)現(xiàn)頻繁項集(生成候選項集(函數(shù)的構建與封裝)、項集迭代函數(shù))
10-27協(xié)同概率概述
10-28協(xié)同過濾算法分類
10-29基于商品的協(xié)同過濾
10-30基于協(xié)同過濾的商品個性化推薦
10-31集成算法概述Bagging Vs Boosting、集成算法的認識
10-32隨機森林分類器的實現(xiàn):重要參數(shù)、重要屬性和接口
10-33隨機森林回歸器的實現(xiàn):重要參數(shù)、屬性與接口
10-34機器學習中調參的基本思想(泛化誤差)
10-35調參應用:隨機森林在乳腺癌數(shù)據(jù)上的調參
10-36MSE
10-37R^2
10-38最小二乘法
10-39梯度下降
10-40數(shù)據(jù)處理概述
10-41數(shù)據(jù)量綱處理:歸一化、標準化
10-42缺失值處理
10-43分類型數(shù)據(jù)處理:數(shù)據(jù)編碼與啞變量
10-44連續(xù)性數(shù)據(jù)處理:二值化與分箱
10-45特征選擇:過濾法、嵌入法、包裝法
10-46SVM概述: SVM工作原理
10-47SVM模型構建
10-48線性SVM:線性SVM的損失函數(shù)、函數(shù)間隔有幾何間隔、SVM決策邊界
10-49非線性SVM: SVC模型概述、重要參數(shù)、核函數(shù)、SVC重要參數(shù)(C、class weight)
10-50感知機
10-51多層感知機
10-52初識神經網(wǎng)絡
10-53梯度提升樹概述
10-54XGBoost選擇若分類器
10-55求解目標函數(shù)
10-56參數(shù)化決策樹
10-57建立目標函數(shù)與樹結構的直接關系
10-58貪婪算法與求解優(yōu)樹
10-59XGBoost的剪枝參數(shù):減輕過擬合
10-60XGBoost分類中的樣本不均衡問題處
10-61基于XGboost的航空預測
11章評分卡案例
11-1評分卡業(yè)務邏輯介紹
11-2案例業(yè)務背景介紹
11-3基本分析工具與環(huán)境準備
11-4數(shù)據(jù)準備
11-5數(shù)據(jù)預處理
11-6數(shù)據(jù)比例調節(jié):過度抽樣
11-7構造訓練集和測試集
11-8變量相關性分析
11-9數(shù)據(jù)的缺失值與異常值
11-10變量數(shù)據(jù)類型重編碼
11-11Logistic模型原理回顧
11-12Logistic建模
11-13利用Logistic模型進行變量篩選
11-14分類模型評估指標回顧
11-15過度抽樣調整
11-16收益矩陣
11-17模型轉化評分卡
11-18Python模型部署方法
11-19構建機器學習流
11-20模型效果監(jiān)測與更新
12章電商零售
12-1項目商業(yè)問題簡述
12-2項目策略與方法
12-3項目推薦計劃
12-4項目時間規(guī)劃
12-5購買傾向模型
12-6方法原理介紹
12-7目標以及數(shù)據(jù)介紹
12-8Python算法實現(xiàn)(Gradient Boosting)
12-9建模結果解讀
12-10購買傾向模型
12-11目標以及數(shù)據(jù)介紹
12-12Python算法實現(xiàn)
12-13建模結果解讀
12-14活動設計
12-15結果評價
13章Python網(wǎng)絡爬蟲(錄播)
13-1網(wǎng)絡爬蟲定義
13-2網(wǎng)絡爬蟲用途
13-3通用搜索引擎工作的原理和局限性
13-4爬蟲基本原理與流程
13-5常見網(wǎng)絡爬蟲分類
13-6基于IP地址搜索策略
13-7廣度優(yōu)先搜索策略
13-8深度優(yōu)先搜索策略
13-9優(yōu)先搜索策略
13-10http基本原理介紹
13-11http請求過程
13-12網(wǎng)頁組成
13-13HTML:超文本標記語言
13-14CSS:層疊樣式表
13-15網(wǎng)頁樣式
13-16JavaScript(JS)
13-17網(wǎng)頁的結構
13-18爬蟲基本流程
13-19抓取數(shù)據(jù)的數(shù)據(jù)類型解析
13-20JavaScript渲染頁面
13-21cookies介紹
13-22爬蟲代理
13-23Robots協(xié)議介紹
13-24爬蟲攻防入門
14章Tableau數(shù)據(jù)分析 (錄播)
14-1Tableau產品介紹
14-2Tableau操作界面介紹
14-3Tableau常用功能介紹
14-4Tableau連接數(shù)據(jù)源方法
14-5層級與下鉆
14-6排序和分組
14-7創(chuàng)建和使用集
14-8篩選方法:篩選欄和篩選器
14-9數(shù)據(jù)處理常用參數(shù)
14-10參考線與趨勢線
14-11常用預測方法
14-12可視化基本方法
14-13初級圖表繪制方法:條形圖、折線圖、餅圖、文字云、散點圖、地圖、樹形圖、氣泡圖等
14-14高級圖表:子彈圖、環(huán)形圖、瀑布圖、Bump Chart、Table Formatting
14-15使用Tableau制作儀表板
14-16邏輯運算
14-17數(shù)值運算
14-18字符串處理函數(shù)
14-19日期函數(shù)
14-20聚合函數(shù)
14-21數(shù)據(jù)背景和需求分析
14-22數(shù)據(jù)讀取與預處理
14-23Top N客戶匯總分析
14-24Top N客戶銷售額分析
15章分布式集群架構
15-1大數(shù)據(jù)概念介紹
15-2Hadoop入門與分布式集群基本概念
15-3Hadoop生態(tài)和及其技術棧
15-4Linux生態(tài)介紹
15-5常用虛擬化工具介紹
15-6常用Linux操作系統(tǒng)
15-7Vmware與VirtualBox
15-8Ubuntu操作系統(tǒng)與CentOS
15-9Ubuntu安裝與常用命令
15-10JDK的安裝與使用
15-11Hadoop安裝與使用
15-12Hadoop單機運行方法
15-13Hadoop偽分布式運行方法
15-14利用多節(jié)點安裝Hadoop集群
15-15Hadoop生態(tài)其他常用組件基本介紹
15-16數(shù)據(jù)倉庫Hive安裝方法
15-17分布式數(shù)據(jù)庫Hbase安裝方法
15-18ETL工具Sqoop安裝方法
15-19Scala與Spark安裝方法
16章Hadoop基礎
16-1HDFS概念及設計原理
16-2HDFS體系結構和運行機制
16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法
16-4HDFS備份機制和文件管理機制
16-5NameNode、DataNode、SecondaryNameNode作用及運行機制
16-6HDFS的常用操作方法介紹
16-7HDFS Java API介紹
16-8HDFS Shell命令格式
16-9HDFS創(chuàng)建文件目錄命令
16-10HDFS文件復制、重命名命令
16-11HDFS文件移動、刪除命令
16-12HDFS其他常用命令
16-13YARN基本概念
16-14YARN相關進程介紹
16-15YARN核心組件及其功能
16-16YARN運行原理
16-17MapReduce概念及設計原理
16-18MapReduce運行過程類的調用過程
16-19Mapper類和Reducer類的繼承機制
16-20Job生命周期
16-21MapReduce中block的調度及作業(yè)分配機制
16-22Mapreduce程序格式介紹
16-23MapReduce程序執(zhí)行流程介紹
16-24MapReduce程序在瀏覽器中查看
16-25Mappre類和Reducer類的主要編寫內容和模式
16-26Job的編寫和實現(xiàn)
16-27MapReduce程序編寫實操
16-28Jar包打包方法和集群運行
17章Sqoop安裝與使用
17-1Sqoop組件介紹與發(fā)展歷史
17-2Sqoop組件特性及核心功能
17-3ETL基本概念
17-4Hadoop生態(tài)中的數(shù)據(jù)轉化方法
17-5Linux中安裝Sqoop方法
17-6Sqoop集成MySQL方法
17-7Sqoop集成Hbase方法
17-8Sqoop集成Hive方法
17-9Sqoop功能測試
17-10Sqoop導入功能介紹
17-11Sqoop數(shù)據(jù)導入import命令基本格式
17-12Sqoop數(shù)據(jù)導入import命令常用參數(shù)
17-13利用Sqoop從MySQL中導入數(shù)據(jù)至HDFS
17-14Sqoop生成相應Java代碼方法codegen
17-15利用Sqoop導入數(shù)據(jù)至Hive
17-16利用Sqoop導入數(shù)據(jù)至Hbase
17-17Sqoop導出功能介紹
17-18Sqoop數(shù)據(jù)導入export命令基本格式
17-19Sqoop數(shù)據(jù)導入export命令常用參數(shù)
17-20從HDFS中導出數(shù)據(jù)到MySQL
17-21從Hive導出數(shù)據(jù)到MySQL
17-22從Hbase導出數(shù)據(jù)到MySQL
18章分布式數(shù)據(jù)倉庫Hbase
18-1分布式數(shù)據(jù)庫和關系型數(shù)據(jù)庫
18-2No-SQL數(shù)據(jù)庫與面向列數(shù)據(jù)庫特性講解
18-3Hbase發(fā)展歷史
18-4Hbase核心特性
18-5Hbase在Linux中的安裝方法
18-6Hbase配置文件與修改方法
18-7Hbase與Zookeeper集成
18-8Hbase完全分布式安裝與運行
18-9簡單備份模式
18-10Hbase邏輯模型
18-11Hbase物理模型
18-12paxos算法與運行機制
18-13靜態(tài)遷移與動態(tài)遷移
18-14Hbase基本操作方法
18-15Hbase Shell通用命令General
18-16表格創(chuàng)建命令Create
18-17常用查看命令list、describe
18-18使用put命令添加數(shù)據(jù)
18-19刪除數(shù)據(jù)delete、delete all命令
18-20查看數(shù)據(jù)scan、get命令
18-21修改數(shù)據(jù)命令alter
18-22表格刪除方法
18-23其他統(tǒng)計方法
18-24Hbase和Hive集成概述
18-25Hbase和Hive集成方法
18-26使用HQL操作Hbase中數(shù)據(jù)
18-27Hbase和Spark集成概述
18-28Hbase和Spark集成方法
18-29利用Spark編程讀取Hbase中數(shù)據(jù)
19章數(shù)據(jù)倉庫工具Hive
19-1數(shù)據(jù)倉庫誕生背景與概念介紹
19-2常用數(shù)據(jù)倉庫工具介紹
19-3分布式數(shù)據(jù)倉庫工具介紹
19-4Hive核心特性
19-5Hive部署與訪問
19-6Hive常用元數(shù)據(jù)服務與訪問接口
19-7Hive數(shù)據(jù)模型
19-8數(shù)據(jù)存儲結構
19-9Hive API distinct
19-10Hive API multi insert
19-11Hive API union all
19-12Hive API union all
19-13Hive API group by&order by
19-14Hive基本數(shù)據(jù)類型
19-15Hive復雜數(shù)據(jù)類型
19-16Hive數(shù)據(jù)定義方法
19-17創(chuàng)建、修改和刪除表方法
19-18視圖和索引的創(chuàng)建、修改和刪除
19-19表中加載數(shù)據(jù)的方法
19-20表中導出數(shù)據(jù)方法
19-21查詢操作
19-22連接操作
19-23子查詢
19-24數(shù)據(jù)倉庫企業(yè)開發(fā)平臺
19-25數(shù)據(jù)倉庫模型設計
19-26自助查詢系統(tǒng)設計
19-27寬表設計與用戶畫像
19-28利用Hive進行網(wǎng)站流量分析
20章Spark基本原理與核心組件
20-1分布式計算框架介紹
20-2Spark誕生背景與發(fā)展歷程
20-3Spark基本定位與核心特性
20-4Scala語言介紹:基礎語法、編譯環(huán)境、常用類型、聲明;行、字符、二進制與文本文件的讀取與寫入
20-5Scala 函數(shù):控制結構(賦值、條件、循環(huán)、輸入輸出)與函數(shù)(參數(shù)與過程);數(shù)組操作(定義、遍歷、轉換)及常用算法
20-6Scala對象操作:的類和對象構造與繼承、重寫、抽象、轉換;類與對象中特質的屬性與使用,包的使用與引入
20-7Spark運行架構
20-8Spark運行基本流程
20-9RDD設計背景與基本概念
20-10RDD特性
20-11RDD之間依賴關系
20-12RDD運行過程
20-13Spark三種部署方式
20-14Spark與Hadoop統(tǒng)一部署
20-15Spark結構化數(shù)據(jù)模塊Spark SQL
20-16Spark機器學習算法庫Spark MLlib
20-17Spark流式計算框架Spark Streaming
20-18新一代Spark流式計算框架Structured Streaming
20-19Spark圖計算框架GraphX
21章PySpark編程
21-1RDD創(chuàng)建方法
21-2RDD轉換操作
21-3RDD行動操作
21-4RDD惰性機制
21-5RDD持久化操作
21-6打印元素方法
21-7鍵值對RDD創(chuàng)建方法
21-8常用鍵值對轉換操作:reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作
21-9鍵值對RDD編程案例
21-10廣播變量
21-11累加器
21-*********.sql模塊
21-***************ming模塊
21-********k.ml模塊
21-***********llib模塊
21-***************Conf類
21-******************text類
21-****************iles類
21-*********.RDD類
21-*****************ator類
21-***************cast類
22章Spark SQL
22-1Spark SQL與shark
22-2Spark SQL基本設計結構
22-3Spark SQL高級數(shù)據(jù)結構
22-4高級數(shù)據(jù)結構DataFrame概念介紹
22-5DataFrame與RDD
22-6DataFrame創(chuàng)建方法
22-7DataFrame常用操作
22-8利用RDD轉化生成DataFrame
22-9利用反射機制推斷RDD模式方法
22-10使用編程方式定義RDD模式
22-11常用外部數(shù)據(jù)源
22-12Parquet基本介紹
22-13讀寫Parquet方法
22-14讀取MySQL中數(shù)據(jù)方法
22-15連接Hive讀寫數(shù)據(jù)方法
23章Spark ML
23-1機器學習入門介紹:機器學習基本思想、常用算法分類、算法庫等
23-2Spark機器學習包ML和MLlib介紹
23-3特征矩陣與標簽數(shù)組
23-4評估器與解釋器
23-5特征工程概念介紹
23-6機器學習流概念介紹
23-7MLlib入門介紹
23-8MLlib向量的創(chuàng)建與使用,包括密集向量、稀疏向量、標簽向量等
23-9MLlib矩陣的創(chuàng)建與使用,包括行矩陣、坐標矩陣、本地矩陣等
23-10MLlib基本統(tǒng)計方法:概括統(tǒng)計、相關性、抽樣方法、假設檢驗、核密度估計等
23-11降維操作:PCA主成分分析與SVD奇異值分解
23-12線性回歸分析
23-13邏輯歸回
23-14決策樹和隨機森林
23-15支持向量機SVM
23-16ML機器學習流創(chuàng)建方法
23-17特征抽取、轉化和選擇:TF-IDF、CountVectorizer、Word2Vec
23-18快速聚類算法
23-19協(xié)同過濾算法
23-20集成算法
23-21反向傳播神經網(wǎng)絡
23-22SVM支持向量機分類和支持向量機回歸
24章Spark Streaming
24-1流式計算簡介
24-2流式計算核心概念
24-3常用流式計算框架介紹
24-4Spark流式計算框架:Spark Streaming與Structured Streaming
24-5流式計算數(shù)據(jù)源介紹
24-6常用高級數(shù)據(jù)源
24-7分布式日志系統(tǒng)Flume介紹與安裝
24-8Flume使用方法
24-9分布式消息系統(tǒng)Kafka介紹與安裝
24-10Kafka使用方法
24-11Kafka和Flume集成
24-12Spark Streaming簡介
24-13Spark Streaming計算框架基本架構
24-14Dstream隊列流基本概念
24-15Spark Streaming與基本數(shù)據(jù)源集成:文件流、套接字流、RDD隊列流
24-16Spark Streaming與高級數(shù)據(jù)源集成:Kafka、Flume
24-17 Dstream轉化操作與輸出操作
24-18Structured Streaming簡介
24-19Structured Streaming基本架構與計算流程
24-20DatazFrame創(chuàng)建與轉換
24-21利用Structured Streaming進行流查詢
24-22通過編寫獨立應用使用Structured Streaming
25章GraphX
25-1圖計算基本概念
25-2圖概念
25-3圖處理技術,如圖數(shù)據(jù)庫、圖數(shù)據(jù)查詢、圖數(shù)據(jù)分析、圖數(shù)據(jù)可視化等
25-4圖計算軟件
25-5屬性圖概念
25-6屬性圖實例
25-7創(chuàng)建屬性圖方法
25-8graphx類介紹
25-9使用RDD構建圖
25-10查看操作列表
25-11屬性操作
25-12結構操作
25-13關聯(lián)操作
25-14聚合操作
25-15緩存操作
25-16PageRank算法
25-17連通分支算法
25-18三角形計算算法
26章Flink流處理框架
26-1Flink的重要特點
26-2IDEA 集成開發(fā)環(huán)境
26-3Java基礎及應用:基礎語法、面向對象、異常處理、IO流、注解、反射等
26-4Flink部署
26-5Flink運行架構
26-6Flink 流處理API
26-7Flink中的Window
26-8時間語義與Wartermark
26-9ProcessFunction API
26-10狀態(tài)編程和容錯機制
26-11Table API 與SQL
26-12Flink CEP
27章大數(shù)據(jù)分析案例(三選二)
27-1數(shù)據(jù)采集平臺、數(shù)倉、離線\\實時分析平臺設計、框架選型、搭建流程及常見問題總結
27-2數(shù)據(jù)挖掘方法回顧
27-3CRISP-DM方法和SEMMA方法
27-4數(shù)據(jù)挖掘方法在大數(shù)據(jù)分析中的實踐應用方法
27-5利用HDFS和Hbase進行簡單數(shù)據(jù)處理
27-6利用Sqoop完成數(shù)據(jù)ETL過程
27-7利用數(shù)據(jù)倉庫工具和Spark SQL進行數(shù)據(jù)清洗
27-8利用Spark MLlib構建機器學習流進行建模分析
27-9利用PyEcharts進行結果可視化展示
27-10流量:用戶畫像與精細化營銷
27-11產品:產品生命周期管理
27-12活動:KPI檢測體系構建
27-13品牌:品類管理與多位能力模型構建
27-14客戶:客戶細分與用戶畫像
27-15產品:產品生命周期與用戶關系管理
27-16營銷:精準營銷、網(wǎng)絡獲客、客戶維護與客戶生命周期管理
27-17用戶離網(wǎng)分析
27-18客戶價值評估
27-19用戶細分
27-20電信反欺詐模型的構建1章業(yè)務分析基礎技能
1-1數(shù)據(jù)分析概述
1-2常用高階函數(shù)
1-3條件格式應用
1-4數(shù)據(jù)透視表高階應用
1-5圖表進階
1-6項目排期管理
1-7案例背景介紹
1-8動態(tài)考勤表制作
1-9每月考勤統(tǒng)計
1-10考勤匯總統(tǒng)計
1-11常用指標概述
1-12基礎指標統(tǒng)計
1-13人力資源指標體系概述
1-14案例背景介紹
1-15員工績效評定思路解析
1-16實操績效統(tǒng)計及可視化
1-17案例背景介紹
1-18活動評估報表思路解析
1-19實操活動評估指標統(tǒng)計
1-20指導撰寫報表結論
1-21圖表應用
1-22零碎需求分析方法
1-23案例應用-核心產品分析
1-24案例應用-零售業(yè)商業(yè)智能看板
1-25RFM基礎模型及拓展
1-26案例應用-用戶畫像
1-27樹狀結構分析方法概述
1-28案例應用-汽車行業(yè)分析報告
2章數(shù)據(jù)庫應用技能
2-1數(shù)據(jù)庫簡介
2-2表結構的特點
2-3數(shù)據(jù)庫分類
2-4MySQL簡介
2-5數(shù)據(jù)庫基本結構
2-6SQL語言分類
2-7SQL書寫要求
2-8創(chuàng)建、使用及刪除數(shù)據(jù)庫
2-9創(chuàng)建表
2-10數(shù)據(jù)類型
2-11約束條件
2-12修改及刪除表
2-13插入數(shù)據(jù)
2-14批量導入數(shù)據(jù)
2-15更新數(shù)據(jù)
2-16刪除數(shù)據(jù)
2-17查詢指定列
2-18查詢不重復記錄
2-19條件查詢
2-20常用運算符
2-21空值查詢
2-22設置別名
2-23模糊查詢
2-24查詢結果排序
2-25限制查詢
2-26聚合運算
2-27分組查詢
2-28分組后篩選
2-29內連接
2-30左連接
2-31右連接
2-32合并查詢
2-33標量子查詢
2-34行子查詢
2-35列子查詢
2-36表子查詢
2-37字符串函數(shù)
2-38數(shù)學函數(shù)
2-39日期和時間函數(shù)
2-40分組合并函數(shù)
2-41邏輯函數(shù)
2-42開窗函數(shù)
2-43進階練習
2-44數(shù)據(jù)來源及業(yè)務背景
2-45表關系梳理
2-46數(shù)據(jù)導入及字段處理
2-47數(shù)據(jù)查詢
3章商業(yè)智能分析技能
3-1數(shù)據(jù)倉庫結構說明
3-2基于數(shù)據(jù)倉庫的數(shù)據(jù)處理方法
3-3數(shù)據(jù)倉庫數(shù)據(jù)處理進階
3-4數(shù)據(jù)倉庫應用案例
3-5創(chuàng)建多維數(shù)據(jù)模型
3-6理解多維模型表連接規(guī)則
3-7業(yè)務數(shù)據(jù)分析指標介紹
3-8業(yè)務數(shù)據(jù)匯總分析進階
3-9時間維度分析方法說明
3-10業(yè)務背景介紹
3-11理解及加工處理數(shù)據(jù)
3-12可視化界面創(chuàng)建方法介紹
3-13制作零售業(yè)銷售情況分析儀
3-14業(yè)務背景介紹
3-15客戶價值模型說明
3-16數(shù)據(jù)加工處理
3-17制作電商客戶行為分析儀
3-18業(yè)務背景介紹
3-19理解餐飲業(yè)關鍵運營指標
3-20數(shù)據(jù)加工處理
3-21制作餐飲業(yè)日銷售情況監(jiān)控儀
3-22電商業(yè)務背景介紹
3-23電商流量指標體系說明
3-24數(shù)據(jù)加工處理
3-25制作電商流量分析儀
3-26業(yè)務背景介紹
3-27進銷存關鍵指標說明
3-28數(shù)據(jù)加工處理
3-29制作經銷商經營情況分析儀
3-30業(yè)務背景介紹
3-31數(shù)據(jù)說明
3-32制作車企銷售情況分析儀
3-33由講師介紹業(yè)務背景
3-34由講師提供數(shù)據(jù)
3-35由學員獨立完成業(yè)務分析儀的制作過程
3-36由學員分組發(fā)表制作成果并由講師點評
4章數(shù)據(jù)挖掘數(shù)學基礎
4-1函數(shù)
4-2極限
4-3微分及應用
4-4定積分
4-5向量
4-6線性方程組
4-7線性變化與矩陣
4-8矩陣乘法
4-9行列式
4-10矩陣的秩
4-11逆矩陣
4-12點乘與內積
4-13外積
4-14特征值與特征向量
4-15集中趨勢的度量
4-16離散程度的度量
4-17偏態(tài)與峰態(tài)的度量
4-18統(tǒng)計量概念與常用統(tǒng)計量
4-19抽樣分布
4-20樣本均值的分布與中心極限定理
4-21樣本比例的抽樣分布
4-22兩個樣本平均值之差的分布
4-23樣本方差的分布
4-24假設檢驗的基本概念
4-25一個總體參數(shù)的檢驗
4-26兩個總體參數(shù)的檢驗
4-27分類數(shù)據(jù)與X2統(tǒng)計量
4-28擬合優(yōu)度檢驗
4-29列聯(lián)分析:獨立性檢驗
4-30線性關系的方向和強度
4-31協(xié)方差
4-32相關系數(shù)
4-33一元線性回歸模型
4-34多元線性回歸模型
4-35邏輯回歸模型
5章Python編程基礎
5-1Python簡介
5-2Python安裝環(huán)境介紹
5-3Python常用IDE及Jupyter介紹
5-4Python第三方庫安裝
5-5編碼與標識符
5-6Python保留字
5-7注釋和縮進
5-8輸入和輸出
5-9變量及賦值
5-10數(shù)值
5-11字符串
5-12布爾值
5-13列表
5-14元組
5-15集合
5-16字典
5-17條件語句: If
5-18循環(huán)語句For和While
5-19Break語句
5-20Continue語句
5-21Pass語句
5-22錯誤和異常捕捉語句
5-23異常和錯誤處理
5-24邏輯判斷函數(shù)
5-25數(shù)值運算函數(shù)
5-26序列函數(shù)
5-27類型轉換函數(shù)
5-28函數(shù)定義
5-29函數(shù)參數(shù)
5-30默認參數(shù)
5-31變量作用域
5-32全局變量和局部變量
5-33匿名函數(shù)
5-34列表生成式
5-35高級函數(shù): map、Reduce、 filter等
5-36模塊概念介紹
5-37import模塊導入
5-38自定義模塊
5-39文件讀寫
5-40利用Python操作文件和目錄
5-41類的定義
5-42類對象
5-43類方法
5-44Python連接數(shù)據(jù)庫方法
5-45利用Python操作數(shù)據(jù)庫
6章Python數(shù)據(jù)清洗
6-1NumPy基本介紹
6-2NumPy基本數(shù)據(jù)結構: Ndarray
6-3數(shù)組的索引與切片
6-4數(shù)組其他常用函數(shù)與方法
6-5Pandas基本數(shù)據(jù)結構: Series與DataFrame
6-6索引、切片與過濾
6-7排序與匯總
6-8DataFrame簡單處理缺失值方法
6-9數(shù)據(jù)集的合并與連接
6-10重復值的處理
6-11數(shù)據(jù)集映射轉化方法
6-12異常值查找與替換
6-13排序和隨機抽樣
6-14DataFrame字符串常用操作
6-15DataFrame分組操作
6-16
6-17 DataFrame聚合操作
6-18DataFrame透視表的創(chuàng)建方法
6-19數(shù)據(jù)的獲取與存儲
6-20數(shù)據(jù)探索
6-21數(shù)據(jù)清洗實戰(zhàn)案例一
6-22數(shù)據(jù)清洗實戰(zhàn)案例二
7章Python數(shù)據(jù)可視化
7-1數(shù)據(jù)可視化入門
7-2常用可視化第三方庫介紹: matplotlib、seaborn、PyEcharts
7-3常用可視化圖形介紹,如餅圖、柱圖、條形圖、線圖散點圖等
7-4圖形選擇
7-5Pandas繪圖方法
7-6圖例配置方法和常用參數(shù)
7-7顏色條配置方法和常用參數(shù)
7-8subplot多子圖繪制方法
7-9文字與注釋、自定義坐標軸方法
7-10Seaborn入門介紹
7-11Seaborn API介紹
7-12Seaborn繪圖示例
7-13Echarts介紹
7-14PyEcharts API介紹
7-15PyEcharts繪圖示例
8章Python統(tǒng)計分析
8-1數(shù)據(jù)描述
8-2數(shù)據(jù)分布與統(tǒng)計信息
8-3數(shù)據(jù)角色定義
8-4大數(shù)據(jù)存儲
8-5最小二乘估計
8-6線性回歸與相關
8-7線性回歸與方差分析
8-8數(shù)據(jù)分析流程
8-9多元線性回歸的假設
8-10正態(tài)分布問題
8-11異方差問題與處理
8-12異常值問題與處理
8-13共線性問題與處理
8-14內生性問題與處理
8-15logistic回歸與卡方
8-16似然估計
8-17logistic回歸解析
8-18評分與預測
8-19分類比例平衡問題
8-20工具變量的使用
8-21啞變量處理
8-22變量篩選
9章機器學習快速入門
9-1機器學習入門介紹:機器學習基本思想、常用算法分類、算法庫等
9-2Python機器學習算法庫Scikit-Learn入門介紹
9-3超參數(shù)與模型驗證:學習曲線、網(wǎng)格搜索
9-4特征工程概念介紹
9-5分類特征、文本特征
9-6圖像特征、特征衍生
9-7缺失值填充、特征管道
9-8KNN基本原理
9-9KNN函數(shù)詳解
9-10KNN高級數(shù)據(jù)結構實現(xiàn)
9-11原理補充:歸一化方法、學習曲線、交叉驗證
9-12KNN-最近鄰分類器
9-13KNN算法示例
9-14無監(jiān)督學習與聚類算法
9-15聚類分析概述與簇的概念
9-16距離衡量方法
9-17聚類目標函數(shù)和質心計算方法
9-18Scikit-Learn實現(xiàn)K-Means及主要參數(shù)解
9-19決策樹工作原理
9-20構建決策樹(ID3算法構建決策樹及局限性)
9-****.5與CART算法
9-22決策樹的Scikit-Learn實現(xiàn):八個參數(shù)、一個屬性、四個接口解析
9-23分類模型的評估指標(混淆矩陣原理)
9-24實例:泰坦尼克號幸存者的預測
9-25過擬合與欠擬合
9-26決策樹算法評價(優(yōu)點與缺點)
9-27決策樹在保險行業(yè)中的應用
10章機器學習進階
10-1線性回歸概述
10-2多元線性回歸基本原理
10-3模型參數(shù)求解方法
10-4回歸類模型評價標準:精準性、擬合度
10-5多重共線性與嶺回歸、Lasso
10-6非線性問題及其處理方法
10-7多項式回歸
10-8MSE
10-9R^2
10-10最小二乘法
10-11梯度下降
10-12名為“回歸\"的分類器
10-13二元邏輯回歸的損失函數(shù)
10-14邏輯回歸的重要參數(shù)
10-15梯度下降求解邏輯回歸最小損失函數(shù)
10-16概率分類器概述
10-17樸素貝葉斯概述
10-18不同分布下的樸素貝葉斯
10-19高斯貝葉斯下的擬合效果與運算速度
10-20多項式樸素貝葉斯及其優(yōu)化
10-21AUC
10-22ROC
10-23關聯(lián)規(guī)則概述:頻繁項集的產生與
10-24關聯(lián)發(fā)現(xiàn)
10-25Apriori算法原理:先驗原理
10-26使用Apriori算法來發(fā)現(xiàn)頻繁項集(生成候選項集(函數(shù)的構建與封裝)、項集迭代函數(shù))
10-27協(xié)同概率概述
10-28協(xié)同過濾算法分類
10-29基于商品的協(xié)同過濾
10-30基于協(xié)同過濾的商品個性化推薦
10-31集成算法概述Bagging Vs Boosting、集成算法的認識
10-32隨機森林分類器的實現(xiàn):重要參數(shù)、重要屬性和接口
10-33隨機森林回歸器的實現(xiàn):重要參數(shù)、屬性與接口
10-34機器學習中調參的基本思想(泛化誤差)
10-35調參應用:隨機森林在乳腺癌數(shù)據(jù)上的調參
10-36MSE
10-37R^2
10-38最小二乘法
10-39梯度下降
10-40數(shù)據(jù)處理概述
10-41數(shù)據(jù)量綱處理:歸一化、標準化
10-42缺失值處理
10-43分類型數(shù)據(jù)處理:數(shù)據(jù)編碼與啞變量
10-44連續(xù)性數(shù)據(jù)處理:二值化與分箱
10-45特征選擇:過濾法、嵌入法、包裝法
10-46SVM概述: SVM工作原理
10-47SVM模型構建
10-48線性SVM:線性SVM的損失函數(shù)、函數(shù)間隔有幾何間隔、SVM決策邊界
10-49非線性SVM: SVC模型概述、重要參數(shù)、核函數(shù)、SVC重要參數(shù)(C、class weight)
10-50感知機
10-51多層感知機
10-52初識神經網(wǎng)絡
10-53梯度提升樹概述
10-54XGBoost選擇若分類器
10-55求解目標函數(shù)
10-56參數(shù)化決策樹
10-57建立目標函數(shù)與樹結構的直接關系
10-58貪婪算法與求解優(yōu)樹
10-59XGBoost的剪枝參數(shù):減輕過擬合
10-60XGBoost分類中的樣本不均衡問題處
10-61基于XGboost的航空預測
11章評分卡案例
11-1評分卡業(yè)務邏輯介紹
11-2案例業(yè)務背景介紹
11-3基本分析工具與環(huán)境準備
11-4數(shù)據(jù)準備
11-5數(shù)據(jù)預處理
11-6數(shù)據(jù)比例調節(jié):過度抽樣
11-7構造訓練集和測試集
11-8變量相關性分析
11-9數(shù)據(jù)的缺失值與異常值
11-10變量數(shù)據(jù)類型重編碼
11-11Logistic模型原理回顧
11-12Logistic建模
11-13利用Logistic模型進行變量篩選
11-14分類模型評估指標回顧
11-15過度抽樣調整
11-16收益矩陣
11-17模型轉化評分卡
11-18Python模型部署方法
11-19構建機器學習流
11-20模型效果監(jiān)測與更新
12章電商零售
12-1項目商業(yè)問題簡述
12-2項目策略與方法
12-3項目推薦計劃
12-4項目時間規(guī)劃
12-5購買傾向模型
12-6方法原理介紹
12-7目標以及數(shù)據(jù)介紹
12-8Python算法實現(xiàn)(Gradient Boosting)
12-9建模結果解讀
12-10購買傾向模型
12-11目標以及數(shù)據(jù)介紹
12-12Python算法實現(xiàn)
12-13建模結果解讀
12-14活動設計
12-15結果評價
13章Python網(wǎng)絡爬蟲(錄播)
13-1網(wǎng)絡爬蟲定義
13-2網(wǎng)絡爬蟲用途
13-3通用搜索引擎工作的原理和局限性
13-4爬蟲基本原理與流程
13-5常見網(wǎng)絡爬蟲分類
13-6基于IP地址搜索策略
13-7廣度優(yōu)先搜索策略
13-8深度優(yōu)先搜索策略
13-9優(yōu)先搜索策略
13-10http基本原理介紹
13-11http請求過程
13-12網(wǎng)頁組成
13-13HTML:超文本標記語言
13-14CSS:層疊樣式表
13-15網(wǎng)頁樣式
13-16JavaScript(JS)
13-17網(wǎng)頁的結構
13-18爬蟲基本流程
13-19抓取數(shù)據(jù)的數(shù)據(jù)類型解析
13-20JavaScript渲染頁面
13-21cookies介紹
13-22爬蟲代理
13-23Robots協(xié)議介紹
13-24爬蟲攻防入門
14章Tableau數(shù)據(jù)分析 (錄播)
14-1Tableau產品介紹
14-2Tableau操作界面介紹
14-3Tableau常用功能介紹
14-4Tableau連接數(shù)據(jù)源方法
14-5層級與下鉆
14-6排序和分組
14-7創(chuàng)建和使用集
14-8篩選方法:篩選欄和篩選器
14-9數(shù)據(jù)處理常用參數(shù)
14-10參考線與趨勢線
14-11常用預測方法
14-12可視化基本方法
14-13初級圖表繪制方法:條形圖、折線圖、餅圖、文字云、散點圖、地圖、樹形圖、氣泡圖等
14-14高級圖表:子彈圖、環(huán)形圖、瀑布圖、Bump Chart、Table Formatting
14-15使用Tableau制作儀表板
14-16邏輯運算
14-17數(shù)值運算
14-18字符串處理函數(shù)
14-19日期函數(shù)
14-20聚合函數(shù)
14-21數(shù)據(jù)背景和需求分析
14-22數(shù)據(jù)讀取與預處理
14-23Top N客戶匯總分析
14-24Top N客戶銷售額分析
15章分布式集群架構
15-1大數(shù)據(jù)概念介紹
15-2Hadoop入門與分布式集群基本概念
15-3Hadoop生態(tài)和及其技術棧
15-4Linux生態(tài)介紹
15-5常用虛擬化工具介紹
15-6常用Linux操作系統(tǒng)
15-7Vmware與VirtualBox
15-8Ubuntu操作系統(tǒng)與CentOS
15-9Ubuntu安裝與常用命令
15-10JDK的安裝與使用
15-11Hadoop安裝與使用
15-12Hadoop單機運行方法
15-13Hadoop偽分布式運行方法
15-14利用多節(jié)點安裝Hadoop集群
15-15Hadoop生態(tài)其他常用組件基本介紹
15-16數(shù)據(jù)倉庫Hive安裝方法
15-17分布式數(shù)據(jù)庫Hbase安裝方法
15-18ETL工具Sqoop安裝方法
15-19Scala與Spark安裝方法
16章Hadoop基礎
16-1HDFS概念及設計原理
16-2HDFS體系結構和運行機制
16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法
16-4HDFS備份機制和文件管理機制
16-5NameNode、DataNode、SecondaryNameNode作用及運行機制
16-6HDFS的常用操作方法介紹
16-7HDFS Java API介紹
16-8HDFS Shell命令格式
16-9HDFS創(chuàng)建文件目錄命令
16-10HDFS文件復制、重命名命令
16-11HDFS文件移動、刪除命令
16-12HDFS其他常用命令
16-13YARN基本概念
16-14YARN相關進程介紹
16-15YARN核心組件及其功能
16-16YARN運行原理
16-17MapReduce概念及設計原理
16-18MapReduce運行過程類的調用過程
16-19Mapper類和Reducer類的繼承機制
16-20Job生命周期
16-21MapReduce中block的調度及作業(yè)分配機制
16-22Mapreduce程序格式介紹
16-23MapReduce程序執(zhí)行流程介紹
16-24MapReduce程序在瀏覽器中查看
16-25Mappre類和Reducer類的主要編寫內容和模式
16-26Job的編寫和實現(xiàn)
16-27MapReduce程序編寫實操
16-28Jar包打包方法和集群運行
17章Sqoop安裝與使用
17-1Sqoop組件介紹與發(fā)展歷史
17-2Sqoop組件特性及核心功能
17-3ETL基本概念
17-4Hadoop生態(tài)中的數(shù)據(jù)轉化方法
17-5Linux中安裝Sqoop方法
17-6Sqoop集成MySQL方法
17-7Sqoop集成Hbase方法
17-8Sqoop集成Hive方法
17-9Sqoop功能測試
17-10Sqoop導入功能介紹
17-11Sqoop數(shù)據(jù)導入import命令基本格式
17-12Sqoop數(shù)據(jù)導入import命令常用參數(shù)
17-13利用Sqoop從MySQL中導入數(shù)據(jù)至HDFS
17-14Sqoop生成相應Java代碼方法codegen
17-15利用Sqoop導入數(shù)據(jù)至Hive
17-16利用Sqoop導入數(shù)據(jù)至Hbase
17-17Sqoop導出功能介紹
17-18Sqoop數(shù)據(jù)導入export命令基本格式
17-19Sqoop數(shù)據(jù)導入export命令常用參數(shù)
17-20從HDFS中導出數(shù)據(jù)到MySQL
17-21從Hive導出數(shù)據(jù)到MySQL
17-22從Hbase導出數(shù)據(jù)到MySQL
18章分布式數(shù)據(jù)倉庫Hbase
18-1分布式數(shù)據(jù)庫和關系型數(shù)據(jù)庫
18-2No-SQL數(shù)據(jù)庫與面向列數(shù)據(jù)庫特性講解
18-3Hbase發(fā)展歷史
18-4Hbase核心特性
18-5Hbase在Linux中的安裝方法
18-6Hbase配置文件與修改方法
18-7Hbase與Zookeeper集成
18-8Hbase完全分布式安裝與運行
18-9簡單備份模式
18-10Hbase邏輯模型
18-11Hbase物理模型
18-12paxos算法與運行機制
18-13靜態(tài)遷移與動態(tài)遷移
18-14Hbase基本操作方法
18-15Hbase Shell通用命令General
18-16表格創(chuàng)建命令Create
18-17常用查看命令list、describe
18-18使用put命令添加數(shù)據(jù)
18-19刪除數(shù)據(jù)delete、delete all命令
18-20查看數(shù)據(jù)scan、get命令
18-21修改數(shù)據(jù)命令alter
18-22表格刪除方法
18-23其他統(tǒng)計方法
18-24Hbase和Hive集成概述
18-25Hbase和Hive集成方法
18-26使用HQL操作Hbase中數(shù)據(jù)
18-27Hbase和Spark集成概述
18-28Hbase和Spark集成方法
18-29利用Spark編程讀取Hbase中數(shù)據(jù)
19章數(shù)據(jù)倉庫工具Hive
19-1數(shù)據(jù)倉庫誕生背景與概念介紹
19-2常用數(shù)據(jù)倉庫工具介紹
19-3分布式數(shù)據(jù)倉庫工具介紹
19-4Hive核心特性
19-5Hive部署與訪問
19-6Hive常用元數(shù)據(jù)服務與訪問接口
19-7Hive數(shù)據(jù)模型
19-8數(shù)據(jù)存儲結構
19-9Hive API distinct
19-10Hive API multi insert
19-11Hive API union all
19-12Hive API union all
19-13Hive API group by&order by
19-14Hive基本數(shù)據(jù)類型
19-15Hive復雜數(shù)據(jù)類型
19-16Hive數(shù)據(jù)定義方法
19-17創(chuàng)建、修改和刪除表方法
19-18視圖和索引的創(chuàng)建、修改和刪除
19-19表中加載數(shù)據(jù)的方法
19-20表中導出數(shù)據(jù)方法
19-21查詢操作
19-22連接操作
19-23子查詢
19-24數(shù)據(jù)倉庫企業(yè)開發(fā)平臺
19-25數(shù)據(jù)倉庫模型設計
19-26自助查詢系統(tǒng)設計
19-27寬表設計與用戶畫像
19-28利用Hive進行網(wǎng)站流量分析
20章Spark基本原理與核心組件
20-1分布式計算框架介紹
20-2Spark誕生背景與發(fā)展歷程
20-3Spark基本定位與核心特性
20-4Scala語言介紹:基礎語法、編譯環(huán)境、常用類型、聲明;行、字符、二進制與文本文件的讀取與寫入
20-5Scala 函數(shù):控制結構(賦值、條件、循環(huán)、輸入輸出)與函數(shù)(參數(shù)與過程);數(shù)組操作(定義、遍歷、轉換)及常用算法
20-6Scala對象操作:的類和對象構造與繼承、重寫、抽象、轉換;類與對象中特質的屬性與使用,包的使用與引入
20-7Spark運行架構
20-8Spark運行基本流程
20-9RDD設計背景與基本概念
20-10RDD特性
20-11RDD之間依賴關系
20-12RDD運行過程
20-13Spark三種部署方式
20-14Spark與Hadoop統(tǒng)一部署
20-15Spark結構化數(shù)據(jù)模塊Spark SQL
20-16Spark機器學習算法庫Spark MLlib
20-17Spark流式計算框架Spark Streaming
20-18新一代Spark流式計算框架Structured Streaming
20-19Spark圖計算框架GraphX
21章PySpark編程
21-1RDD創(chuàng)建方法
21-2RDD轉換操作
21-3RDD行動操作
21-4RDD惰性機制
21-5RDD持久化操作
21-6打印元素方法
21-7鍵值對RDD創(chuàng)建方法
21-8常用鍵值對轉換操作:reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作
21-9鍵值對RDD編程案例
21-10廣播變量
21-11累加器
21-*********.sql模塊
21-***************ming模塊
21-********k.ml模塊
21-***********llib模塊
21-***************Conf類
21-******************text類
21-****************iles類
21-*********.RDD類
21-*****************ator類
21-***************cast類
22章Spark SQL
22-1Spark SQL與shark
22-2Spark SQL基本設計結構
22-3Spark SQL高級數(shù)據(jù)結構
22-4高級數(shù)據(jù)結構DataFrame概念介紹
22-5DataFrame與RDD
22-6DataFrame創(chuàng)建方法
22-7DataFrame常用操作
22-8利用RDD轉化生成DataFrame
22-9利用反射機制推斷RDD模式方法
22-10使用編程方式定義RDD模式
22-11常用外部數(shù)據(jù)源
22-12Parquet基本介紹
22-13讀寫Parquet方法
22-14讀取MySQL中數(shù)據(jù)方法
22-15連接Hive讀寫數(shù)據(jù)方法
23章Spark ML
23-1機器學習入門介紹:機器學習基本思想、常用算法分類、算法庫等
23-2Spark機器學習包ML和MLlib介紹
23-3特征矩陣與標簽數(shù)組
23-4評估器與解釋器
23-5特征工程概念介紹
23-6機器學習流概念介紹
23-7MLlib入門介紹
23-8MLlib向量的創(chuàng)建與使用,包括密集向量、稀疏向量、標簽向量等
23-9MLlib矩陣的創(chuàng)建與使用,包括行矩陣、坐標矩陣、本地矩陣等
23-10MLlib基本統(tǒng)計方法:概括統(tǒng)計、相關性、抽樣方法、假設檢驗、核密度估計等
23-11降維操作:PCA主成分分析與SVD奇異值分解
23-12線性回歸分析
23-13邏輯歸回
23-14決策樹和隨機森林
23-15支持向量機SVM
23-16ML機器學習流創(chuàng)建方法
23-17特征抽取、轉化和選擇:TF-IDF、CountVectorizer、Word2Vec
23-18快速聚類算法
23-19協(xié)同過濾算法
23-20集成算法
23-21反向傳播神經網(wǎng)絡
23-22SVM支持向量機分類和支持向量機回歸
24章Spark Streaming
24-1流式計算簡介
24-2流式計算核心概念
24-3常用流式計算框架介紹
24-4Spark流式計算框架:Spark Streaming與Structured Streaming
24-5流式計算數(shù)據(jù)源介紹
24-6常用高級數(shù)據(jù)源
24-7分布式日志系統(tǒng)Flume介紹與安裝
24-8Flume使用方法
24-9分布式消息系統(tǒng)Kafka介紹與安裝
24-10Kafka使用方法
24-11Kafka和Flume集成
24-12Spark Streaming簡介
24-13Spark Streaming計算框架基本架構
24-14Dstream隊列流基本概念
24-15Spark Streaming與基本數(shù)據(jù)源集成:文件流、套接字流、RDD隊列流
24-16Spark Streaming與高級數(shù)據(jù)源集成:Kafka、Flume
24-17Dstream轉化操作與輸出操作
24-18Structured Streaming簡介
24-19Structured Streaming基本架構與計算流程
24-20DatazFrame創(chuàng)建與轉換
24-21利用Structured Streaming進行流查詢
24-22通過編寫獨立應用使用Structured Streaming
25章GraphX
25-1圖計算基本概念
25-2圖概念
25-3圖處理技術,如圖數(shù)據(jù)庫、圖數(shù)據(jù)查詢、圖數(shù)據(jù)分析、圖數(shù)據(jù)可視化等
25-4圖計算軟件
25-5屬性圖概念
25-6屬性圖實例
25-7創(chuàng)建屬性圖方法
25-8graphx類介紹
25-9使用RDD構建圖
25-10查看操作列表
25-11屬性操作
25-12結構操作
25-13關聯(lián)操作
25-14聚合操作
25-15緩存操作
25-16PageRank算法
25-17連通分支算法
25-18三角形計算算法
26章Flink流處理框架
26-1Flink的重要特點
26-2IDEA 集成開發(fā)環(huán)境
26-3Java基礎及應用:基礎語法、面向對象、異常處理、IO流、注解、反射等
26-4Flink部署
26-5Flink運行架構
26-6Flink 流處理API
26-7Flink中的Window
26-8時間語義與Wartermark
26-9ProcessFunction API
26-10狀態(tài)編程和容錯機制
26-11Table API 與SQL
26-12Flink CEP
27章大數(shù)據(jù)分析案例(三選二)
27-1數(shù)據(jù)采集平臺、數(shù)倉、離線\\實時分析平臺設計、框架選型、搭建流程及常見問題總結
27-2數(shù)據(jù)挖掘方法回顧
27-3CRISP-DM方法和SEMMA方法
27-4數(shù)據(jù)挖掘方法在大數(shù)據(jù)分析中的實踐應用方法
27-5利用HDFS和Hbase進行簡單數(shù)據(jù)處理
27-6利用Sqoop完成數(shù)據(jù)ETL過程
27-7利用數(shù)據(jù)倉庫工具和Spark SQL進行數(shù)據(jù)清洗
27-8利用Spark MLlib構建機器學習流進行建模分析
27-9利用PyEcharts進行結果可視化展示
27-10流量:用戶畫像與精細化營銷
27-11產品:產品生命周期管理
27-12活動:KPI檢測體系構建
27-13品牌:品類管理與多位能力模型構建
27-14客戶:客戶細分與用戶畫像
27-15產品:產品生命周期與用戶關系管理
27-16營銷:精準營銷、網(wǎng)絡獲客、客戶維護與客戶生命周期管理
27-17用戶離網(wǎng)分析
27-18客戶價值評估
27-19用戶細分
27-20電信反欺詐模型的構建
數(shù)據(jù)分析師核心優(yōu)勢
CDA數(shù)據(jù)分析師系統(tǒng)培訓立足于數(shù)據(jù)分析領域教育事業(yè),覆蓋了國內企業(yè)招聘數(shù)據(jù)分析師所要求的技能,進一步提升數(shù)據(jù)分析師的職業(yè)素養(yǎng)與能力水平,促進數(shù)據(jù)分析行業(yè)的高質量持續(xù)快速發(fā)展。
數(shù)據(jù)分析師機構簡介
經管之家于2003年成立與中國人民大學經濟學院,致力于推動經濟的進步,傳播優(yōu)秀教育資源,目前已經發(fā)展成為國內大型的經濟、管理、金融、統(tǒng)計類的在線教育和咨詢網(wǎng)站,也是國內*活躍和具影響力的經管類網(wǎng)絡社區(qū)。
經管之家運營團隊:北京國富如荷網(wǎng)絡科技有限公司,成立于2006年6月,公司以經管之家為運營平臺,經營業(yè)務包括培訓業(yè)務、數(shù)據(jù)處理和分析服務和教輔產品等。經管之家"數(shù)據(jù)分析培訓中心" 自2007年成立以來,致力于開展統(tǒng)計軟件、數(shù)據(jù)分析和數(shù)據(jù)挖掘的培訓與咨詢服務,目前已有專家、講師團隊100多位,擁有自主版權的視頻課程60多門,每年開設現(xiàn)場培訓班100余場,建立了完備的數(shù)據(jù)分析培訓課程體系,每年培訓學員3000多人。服務過的企業(yè)包括中國電子商務中心、招商銀行、中國人民銀行、中國郵政儲蓄、中國聯(lián)通、中國汽車技術研究中心、南京梅鋼等機構。
發(fā)展至今,經管之家"數(shù)據(jù)分析培訓中心"已經成為具有影響力和知名度的數(shù)據(jù)分析培訓機構,我們一直努力做到:將數(shù)據(jù)分析變成一門常識,讓統(tǒng)計軟件成為學術研究的好伙伴,企業(yè)經營的好軍師。
數(shù)據(jù)分析師學校優(yōu)勢
CDA優(yōu)勢如何?
2013年,經管之家創(chuàng)立"CDA數(shù)據(jù)分析師"品牌,致力于為社會各界數(shù)據(jù)分析愛好者提供*優(yōu)質、*科學、*系統(tǒng)的數(shù)據(jù)分析教育。截止2015年已成功舉辦40期系統(tǒng)培訓,培訓學員達3千余名; 中國數(shù)據(jù)分析師俱樂部(CDA CLUB),已舉辦30期線下免費沙龍活動,累積會員2千余名;中國數(shù)據(jù)分析師行業(yè)峰會(CDA Summit),一年兩次,參會人數(shù)達2千余名,在大數(shù)據(jù)領域影響力超前。"CDA數(shù)據(jù)分析師"隊伍在業(yè)界不斷壯大,對數(shù)據(jù)分析人才產業(yè)起到了巨大的推動作用。
優(yōu)勢一:師資與課程研發(fā)
CDA數(shù)據(jù)分析師系統(tǒng)培訓,由經管之家根據(jù)CDA認證標準而設立的一套針對數(shù)據(jù)分析師技能的全面系統(tǒng)培訓。培訓師資目前來自學界、實務界相關領域的講師、教授、專家、工程師以及企業(yè)資深分析師,名師薈萃,代表了國內數(shù)據(jù)分析培訓的專業(yè)水平,可以更好地保證培訓的學員既能學到扎實的數(shù)據(jù)分析理論知識,又能具備較強的利用軟件解決實際問題的能力,保證學員能勝任各行業(yè)數(shù)據(jù)分析師工作的要求。CDA數(shù)據(jù)分析師培訓注重結合實際,把具技術含量、具價值理念的課程傳授給學員。課程還注重啟發(fā)式教學,讓學員在動手解決問題中去學習。
CDA數(shù)據(jù)分析師課程的大綱和內容,既由經管之家、CERTIFIED DATA ANALYST INSTITUTE(CDA協(xié)以及大數(shù)據(jù)、數(shù)據(jù)挖掘領域專家潛心開發(fā)和反復研究,又經過科學的調研確定,并且將不斷地隨著數(shù)據(jù)分析的市場需求和數(shù)據(jù)分析技術的發(fā)展而調整,課程內容始終關注市場、關注前沿。課程內容的設計更注重階梯化、體系化的原則,每一個學員,不論學習和工作的背景如何,都能在該課程體系中很快找到適合自己的課程,并不斷學習提高。
優(yōu)勢二:繼續(xù)學習
所有CDA學員除了學習現(xiàn)場課程之外,還會得到全程視頻錄像及輔助學習視頻課程(包括統(tǒng)計軟件、數(shù)據(jù)挖掘、大數(shù)據(jù)等內容),此系列視頻課程可以進行后期鞏固學習和進修學習,可扎實現(xiàn)學技能、拓展課余知識、升華技術層級。CDA數(shù)據(jù)分析師培訓體系除了CDA LEVEL認證培訓以外,還推出了CDA就業(yè)脫產培訓,使跨行、跨專業(yè)的學生、待業(yè)人員能夠進行全面的脫產集訓,并在培訓后解決學員就業(yè),拿到高薪工作。除此之外,CDA還為有基礎的學員提供了更多元化更高級的行業(yè)專題培訓,包括*前沿的PYTHON、SPARK等工具,電商、金融、游戲等各行業(yè)專題,以及量化投資、CRM營銷、臨床醫(yī)學等細分領域。
優(yōu)勢三:在線學習
Pe******et(就學教育)為CDA數(shù)據(jù)分析師在線學習平臺。視頻可實現(xiàn)隨時隨地在線聽課,10分鐘一小節(jié),可進行個性化、碎片化學習,更具針對性與便利性。CDA上課方式分為現(xiàn)場及遠程兩種方式,遠程在線學習引進了*新設備與技術,與思科的合作解決了各地區(qū)學員的需求,實現(xiàn)了如同現(xiàn)場般的遠程答疑及討論氛圍。
優(yōu)勢四:人才認證
參與CDA培訓學員可以參加一年兩次的"CDA數(shù)據(jù)分析師認證考試",并獲得專業(yè)證書與持證人特權。CDA認證考試目前有"LEVEL 1業(yè)務數(shù)據(jù)分析師","LEVEL 2建模分析師","LEVEL 2大數(shù)據(jù)分析師",考試由經管之家主辦,通過者獲得經管之家CDA認證證書,并可到臺灣申請由"中華資料采礦協(xié)會"頒發(fā)的"資料采礦分析師"證書,亦可獲得由CDA協(xié)會認證的"CERTIFIED DATA ANALYST CERTIFICATION"。
優(yōu)勢五:CDA社群
經管之家有十二個社區(qū),七百個版塊,六百萬會員。每日討論的熱點話題及資料以千計。學員在學后可以到"CDA數(shù)據(jù)分析師"版塊進行交流、提問、下載資料等,形成數(shù)據(jù)分析專業(yè)聚集地,促進學員在圈子交流中高效發(fā)展。
除了在線平臺,中國數(shù)據(jù)分析師俱樂部(CDA CLUB)匯聚了數(shù)據(jù)分析領域的各界興趣愛好者,截止2015年已舉辦30期線下沙龍活動,會員累計2千余名,有高級會員與普通會員。在俱樂部中各會員可以通過共享資源方式獲得相應積分,以積分兌換其他優(yōu)質資源,形成了自發(fā)式的交流互動。
中國數(shù)據(jù)分析師行業(yè)峰會、大數(shù)據(jù)生態(tài)縱覽峰會(CDA SUMMIT)。一年兩次的行業(yè)峰會,匯聚了國內*的專家學者,發(fā)布前沿思想與技術,參會人員上千名,盛世浩大,影響超前,為數(shù)據(jù)人才和大數(shù)據(jù)行業(yè)的發(fā)展起到了極大的推動作用。
發(fā)展歷程:
"2006年
開展數(shù)據(jù)統(tǒng)計、計量實戰(zhàn),學術研究等相關培訓視頻和現(xiàn)場班
2007年
開展數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析相關培訓班
2011年
隨著大數(shù)據(jù)熱潮的來臨,依托累計上萬類共享資料,多年沉淀師資團隊,論壇召集多位專家,研發(fā)CDA數(shù)據(jù)分析師體系
2013年
CDA數(shù)據(jù)分析師品牌成立,提供系統(tǒng)化的大數(shù)據(jù)、數(shù)據(jù)分析人才培養(yǎng)和認證
2014年
CDA INSTITUTE 成立 ,并推出第一屆全國CDA數(shù)據(jù)分析師認證考試
2015年
第一屆中國數(shù)據(jù)分析師行業(yè)峰會(CDAS)在9月11日成功舉辦,參會人數(shù)逾3000人
2016年
CDA匯聚海內外大數(shù)據(jù)、數(shù)據(jù)分析專家上千人,推出就業(yè)班、數(shù)據(jù)科學家訓練營、企業(yè)內訓、CDA俱樂部等多個項目
2017年
整合論壇與CDA數(shù)據(jù)分析師業(yè)內資源,形成數(shù)據(jù)分析領域生態(tài)圈,并進一步升級CDA企業(yè)內訓體系,正式推出大數(shù)據(jù)實驗室
2018年
北上廣深等多個城市均有校區(qū);擁有200多位專業(yè)師資;培養(yǎng)學員超過3萬人,每年6月/12月全國28個城市舉辦CDA認證考試
2019年
已舉辦九屆數(shù)據(jù)分析師認證考試,得到業(yè)界廣泛認可,學員遍布各大知名企業(yè)。人工智能產品“好學AI”問世,引領DT時代新一波技術培訓浪潮"
數(shù)據(jù)分析師師資力量