數(shù)據(jù)與數(shù)據(jù)挖掘
,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒炏到y(tǒng),北京紅亞華宇科技有限公司,大數(shù)據(jù)的特點,大數(shù)據(jù)首先是數(shù)據(jù)量大,典型的大數(shù)據(jù)系統(tǒng)所管理的數(shù)據(jù)可達,PB,級,其次大數(shù)據(jù)的來源復(fù)雜,數(shù)據(jù)質(zhì)量差異較大,最后大數(shù)據(jù)的數(shù)據(jù)關(guān)系復(fù)雜,難以用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫描述,大數(shù)據(jù)分析的基石,大數(shù)據(jù)實驗系統(tǒng)所支撐的學(xué)科與課程,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒烆悇e,大數(shù)據(jù)實驗系統(tǒng)整體框架,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒灮A(chǔ)軟件,數(shù)據(jù)挖掘基礎(chǔ)語言環(huán)境,R,語言,最為流行的開源統(tǒng)計與數(shù)據(jù)挖掘軟件,可跨平臺運行,高效的腳本語言,為數(shù)據(jù)分析和顯示提供的強大圖形功能,豐富的高質(zhì)量的開源第三方算法軟件包,大數(shù)據(jù)分析環(huán)境,Hadoop,開源大數(shù)據(jù)分析的事實標(biāo)準,大量的互聯(lián)網(wǎng)公司作為實際生產(chǎn)平臺,方便的,Java,開發(fā)環(huán)境,不斷演進的良好生態(tài)環(huán)境,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒灮A(chǔ)軟件,最流行的商用數(shù)據(jù)統(tǒng)計分析軟件,SAS,功能強大,統(tǒng)計方法齊全,使用簡便,操作靈活,簡單而強大的通用數(shù)據(jù)分析軟件,Excel,數(shù)據(jù)統(tǒng)計分析,利用,VBA,進行數(shù)據(jù)挖掘分析,通用開發(fā)語言,Java,數(shù)據(jù)爬取,自然語言處理,大數(shù)據(jù)實驗平臺網(wǎng)絡(luò)拓撲,服務(wù)器端,R,計算服務(wù),Hadoop,集群,虛擬化實驗臺,學(xué)生端,遠程連接,開發(fā)環(huán)境,測試環(huán)境,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,1,),數(shù)據(jù)挖掘展示性實驗,用于展示常用數(shù)據(jù)挖掘算法的作用,使用者通過實驗系統(tǒng)所提供數(shù)據(jù)集,直觀理解數(shù)據(jù)挖掘算法的輸出結(jié)果,實驗類型,實驗名稱,統(tǒng)計與建模方法演示實驗,統(tǒng)計推斷基礎(chǔ),統(tǒng)計分布,假設(shè)檢驗,基本線性回歸,多變量線性回歸,廣義線性模型,實驗類型,實驗名稱,數(shù)據(jù)挖掘方法演示實驗,數(shù)據(jù)可視化,聚類,數(shù)據(jù)降維,分類基礎(chǔ),決策樹分類方法,高級分類方法,關(guān)聯(lián)分析,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實驗,利用實驗系統(tǒng)提供的,R,語言環(huán)境,學(xué)習(xí)基本的,R,語言開發(fā)方法,并針對提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實驗類型,實驗名稱,R,語言編程基礎(chǔ),R,語言基礎(chǔ),R,語言控制語句,R,語言數(shù)據(jù)類型,R,語言常用函數(shù),R,語言程序調(diào)試,實驗類型,實驗名稱,R,語言統(tǒng)計與建模,R,語言統(tǒng)計推斷基礎(chǔ),R,語言統(tǒng)計分布,R,語言假設(shè)檢驗,R,語言基本線性回歸,R,語言多變量線性回歸,R,語言廣義線性模型,實驗類型,實驗名稱,R,語言數(shù)據(jù)分析綜合應(yīng)用,R,語言建立信用評分模型,R,語言預(yù)測股票市場收益,R,語言預(yù)測經(jīng)濟指標(biāo),R,語言偵測欺詐交易,R,語言微陣列樣本分類,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,3,),數(shù)據(jù)挖掘,SAS,開發(fā)實驗,利用實驗系統(tǒng)提供的,SAS,環(huán)境,學(xué)習(xí)基本的,SAS,開發(fā)方法,并針對提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實驗類型,實驗名稱,SAS,基礎(chǔ)編程實驗,SAS,基礎(chǔ),SAS,控制語句,SAS,數(shù)據(jù)類型,SAS,常用函數(shù),SAS,程序調(diào)試,實驗類型,實驗名稱,SAS,統(tǒng)計與建模,SAS,統(tǒng)計推斷基礎(chǔ),SAS,統(tǒng)計分布,SAS,假設(shè)檢驗,SAS,線性回歸,SAS,多變量線性回歸,SAS,廣義線性模型,實驗類型,實驗名稱,SAS,數(shù)據(jù)挖掘算法,SAS,數(shù)據(jù)可視化,SAS,聚類,SAS,數(shù)據(jù)降維,SAS,分類基礎(chǔ),SAS,決策樹分類方法,SAS,高級分類方法,SAS,關(guān)聯(lián)分析,實驗類型,實驗名稱,SAS,數(shù)據(jù)分析綜合應(yīng)用,SAS,建立信用評分模型,SAS,預(yù)測股票市場收益,SAS,預(yù)測經(jīng)濟指標(biāo),SAS,偵測欺詐交易,SAS,微陣列樣本分類,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,4,),基于,Hadoop,的大數(shù)據(jù)基礎(chǔ)實驗,利用實驗所提供的環(huán)境,學(xué)習(xí)基本的,MapReduce,算法,利用提供大數(shù)據(jù)在,Hadoop,實現(xiàn)大數(shù)據(jù)實戰(zhàn)分析,實驗類型,實驗名稱,大數(shù)據(jù)基礎(chǔ)實驗,Hadoop,環(huán)境的搭建實驗,基礎(chǔ),MapReduce,開發(fā)實驗,迭代式,MapReduce,程序和計數(shù)器實驗,分區(qū)、排序和合并算法實驗,Hive,的使用,實驗類型,實驗名稱,大數(shù)據(jù)實戰(zhàn)實驗,超市零售數(shù)據(jù)分析實驗,NetFlix,電影數(shù)據(jù)分析實驗,新浪微博消息分析實驗,帶有情感標(biāo)簽的微博數(shù)據(jù)分析實驗,網(wǎng)絡(luò)安全日志分析實驗,出租車,GPS,位置分析實驗,社交資源共享站點用戶行為分析實驗,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,5,),與大數(shù)據(jù)相關(guān)的其他實驗,實現(xiàn)大數(shù)據(jù)分析中常用的,Excel,數(shù)據(jù)分析、數(shù)據(jù)爬取、自然語言處理、數(shù)據(jù)庫使用等實驗,實驗類型,實驗名稱,Excel,數(shù)據(jù)處理與分析,Excel,基本操作,Excel,數(shù)據(jù)可視化,Excel,函數(shù)與公式,Excel,透視表,Excel,數(shù)據(jù)分析,VBA,程序基礎(chǔ),VBA,控制語句,VBA,常用函數(shù),VBA,綜合應(yīng)用,實驗類型,實驗名稱,My SQL,數(shù)據(jù)庫操作,MySQL,配置,SQL,中的,DDL,語句,SQL,中的,DML,語句,SQL,中的,DCL,語句,MySQL,常用函數(shù),MySQL,存儲過程和自定義函數(shù),實驗類型,實驗名稱,JAVA,數(shù)據(jù)爬取,抓取網(wǎng)頁,處理,HTML,頁面,非,HTML,正文抽取,設(shè)計爬蟲隊列,并行爬蟲,實驗類型,實驗名稱,JAVA,自然語言處理,字符串編碼,正則表達式,自動分詞,句法分析,語義分析,實驗平臺管理方式,B/S,架構(gòu)的管理體系,系統(tǒng)分為管理員、教師與學(xué)生三種角色,管理員管理實驗內(nèi)容以及教師用戶注冊,教師管理實驗開放、實驗流程以及學(xué)生打分,學(xué)生用戶完成實驗內(nèi)容,提交實驗報告,虛實結(jié)合的實驗平臺,以云計算的方式提供實驗開發(fā)環(huán)境,以學(xué)生端虛擬化的方式提供本地,Hadoop,環(huán)境,以后臺服務(wù)方式提供,R,語言自動運行服務(wù),以,Shell,方式提供支持大數(shù)據(jù)的,Hadoop,運行環(huán)境,自動化實驗管理平臺,學(xué)生端實驗環(huán)境自動啟動與環(huán)境恢復(fù),服務(wù)端資源自動分配與調(diào)度,實驗數(shù)據(jù)集自動化準備與初始化,實驗過程說明(,1,),數(shù)據(jù)挖掘展示性實驗,實驗過程說明(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實驗,實驗過程說明(,3,),大數(shù)據(jù)基礎(chǔ)實驗,實驗過程說明(,4,),綜合性實驗,謝謝,