《數(shù)據(jù)與數(shù)據(jù)挖掘》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)與數(shù)據(jù)挖掘(22頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒?yàn)系統(tǒng),北京紅亞華宇科技有限公司,大數(shù)據(jù)的特點(diǎn),大數(shù)據(jù)首先是數(shù)據(jù)量大,典型的大數(shù)據(jù)系統(tǒng)所管理的數(shù)據(jù)可達(dá),PB,級(jí),其次大數(shù)據(jù)的來源復(fù)雜,數(shù)據(jù)質(zhì)量差異較大,最后大數(shù)據(jù)的數(shù)據(jù)關(guān)系復(fù)雜,難以用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)描述,大數(shù)據(jù)分析的基石,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)所支撐的學(xué)科與課程,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒?yàn)類別,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)整體框架,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒?yàn)基礎(chǔ)軟件,數(shù)據(jù)挖掘基礎(chǔ)語言環(huán)境,R,語言,最為流行的開源統(tǒng)計(jì)與數(shù)據(jù)挖掘軟件,可跨平臺(tái)運(yùn)行,高效的腳本語言,為數(shù)據(jù)分析和顯示提供的強(qiáng)大圖形功能,豐富的高質(zhì)量的開源第三方算法軟件包,大數(shù)據(jù)分析
2、環(huán)境,Hadoop,開源大數(shù)據(jù)分析的事實(shí)標(biāo)準(zhǔn),大量的互聯(lián)網(wǎng)公司作為實(shí)際生產(chǎn)平臺(tái),方便的,Java,開發(fā)環(huán)境,不斷演進(jìn)的良好生態(tài)環(huán)境,大數(shù)據(jù)與數(shù)據(jù)挖掘?qū)嶒?yàn)基礎(chǔ)軟件,最流行的商用數(shù)據(jù)統(tǒng)計(jì)分析軟件,SAS,功能強(qiáng)大,統(tǒng)計(jì)方法齊全,使用簡(jiǎn)便,操作靈活,簡(jiǎn)單而強(qiáng)大的通用數(shù)據(jù)分析軟件,Excel,數(shù)據(jù)統(tǒng)計(jì)分析,利用,VBA,進(jìn)行數(shù)據(jù)挖掘分析,通用開發(fā)語言,Java,數(shù)據(jù)爬取,自然語言處理,大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)網(wǎng)絡(luò)拓?fù)?服務(wù)器端,R,計(jì)算服務(wù),Hadoop,集群,虛擬化實(shí)驗(yàn)臺(tái),學(xué)生端,遠(yuǎn)程連接,開發(fā)環(huán)境,測(cè)試環(huán)境,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)內(nèi)容(,1,),數(shù)據(jù)挖掘展示性實(shí)驗(yàn),用于展示常用數(shù)據(jù)挖掘算法的作用,使用者通過實(shí)驗(yàn)
3、系統(tǒng)所提供數(shù)據(jù)集,直觀理解數(shù)據(jù)挖掘算法的輸出結(jié)果,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,統(tǒng)計(jì)與建模方法演示實(shí)驗(yàn),統(tǒng)計(jì)推斷基礎(chǔ),統(tǒng)計(jì)分布,假設(shè)檢驗(yàn),基本線性回歸,多變量線性回歸,廣義線性模型,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,數(shù)據(jù)挖掘方法演示實(shí)驗(yàn),數(shù)據(jù)可視化,聚類,數(shù)據(jù)降維,分類基礎(chǔ),決策樹分類方法,高級(jí)分類方法,關(guān)聯(lián)分析,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)內(nèi)容(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實(shí)驗(yàn),利用實(shí)驗(yàn)系統(tǒng)提供的,R,語言環(huán)境,學(xué)習(xí)基本的,R,語言開發(fā)方法,并針對(duì)提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,R,語言編程基礎(chǔ),R,語言基礎(chǔ),R,語言控制語句,R,語言數(shù)據(jù)類型,R,語言常用函數(shù),R,語言程序調(diào)試,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,R
4、,語言統(tǒng)計(jì)與建模,R,語言統(tǒng)計(jì)推斷基礎(chǔ),R,語言統(tǒng)計(jì)分布,R,語言假設(shè)檢驗(yàn),R,語言基本線性回歸,R,語言多變量線性回歸,R,語言廣義線性模型,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,R,語言數(shù)據(jù)分析綜合應(yīng)用,R,語言建立信用評(píng)分模型,R,語言預(yù)測(cè)股票市場(chǎng)收益,R,語言預(yù)測(cè)經(jīng)濟(jì)指標(biāo),R,語言偵測(cè)欺詐交易,R,語言微陣列樣本分類,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)內(nèi)容(,3,),數(shù)據(jù)挖掘,SAS,開發(fā)實(shí)驗(yàn),利用實(shí)驗(yàn)系統(tǒng)提供的,SAS,環(huán)境,學(xué)習(xí)基本的,SAS,開發(fā)方法,并針對(duì)提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,SAS,基礎(chǔ)編程實(shí)驗(yàn),SAS,基礎(chǔ),SAS,控制語句,SAS,數(shù)據(jù)類型,SAS,常用函數(shù),SAS,程序調(diào)試,
5、實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,SAS,統(tǒng)計(jì)與建模,SAS,統(tǒng)計(jì)推斷基礎(chǔ),SAS,統(tǒng)計(jì)分布,SAS,假設(shè)檢驗(yàn),SAS,線性回歸,SAS,多變量線性回歸,SAS,廣義線性模型,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,SAS,數(shù)據(jù)挖掘算法,SAS,數(shù)據(jù)可視化,SAS,聚類,SAS,數(shù)據(jù)降維,SAS,分類基礎(chǔ),SAS,決策樹分類方法,SAS,高級(jí)分類方法,SAS,關(guān)聯(lián)分析,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,SAS,數(shù)據(jù)分析綜合應(yīng)用,SAS,建立信用評(píng)分模型,SAS,預(yù)測(cè)股票市場(chǎng)收益,SAS,預(yù)測(cè)經(jīng)濟(jì)指標(biāo),SAS,偵測(cè)欺詐交易,SAS,微陣列樣本分類,大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)內(nèi)容(,4,),基于,Hadoop,的大數(shù)據(jù)基礎(chǔ)實(shí)驗(yàn),利用實(shí)驗(yàn)所提供的環(huán)境,學(xué)
6、習(xí)基本的,MapReduce,算法,利用提供大數(shù)據(jù)在,Hadoop,實(shí)現(xiàn)大數(shù)據(jù)實(shí)戰(zhàn)分析,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,大數(shù)據(jù)基礎(chǔ)實(shí)驗(yàn),Hadoop,環(huán)境的搭建實(shí)驗(yàn),基礎(chǔ),MapReduce,開發(fā)實(shí)驗(yàn),迭代式,MapReduce,程序和計(jì)數(shù)器實(shí)驗(yàn),分區(qū)、排序和合并算法實(shí)驗(yàn),Hive,的使用,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,大數(shù)據(jù)實(shí)戰(zhàn)實(shí)驗(yàn),超市零售數(shù)據(jù)分析實(shí)驗(yàn),NetFlix,電影數(shù)據(jù)分析實(shí)驗(yàn),新浪微博消息分析實(shí)驗(yàn),帶有情感標(biāo)簽的微博數(shù)據(jù)分析實(shí)驗(yàn),網(wǎng)絡(luò)安全日志分析實(shí)驗(yàn),出租車,GPS,位置分析實(shí)驗(yàn),社交資源共享站點(diǎn)用戶行為分析實(shí)驗(yàn),大數(shù)據(jù)實(shí)驗(yàn)系統(tǒng)實(shí)驗(yàn)內(nèi)容(,5,),與大數(shù)據(jù)相關(guān)的其他實(shí)驗(yàn),實(shí)現(xiàn)大數(shù)據(jù)分析中常用的,Exc
7、el,數(shù)據(jù)分析、數(shù)據(jù)爬取、自然語言處理、數(shù)據(jù)庫(kù)使用等實(shí)驗(yàn),實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,Excel,數(shù)據(jù)處理與分析,Excel,基本操作,Excel,數(shù)據(jù)可視化,Excel,函數(shù)與公式,Excel,透視表,Excel,數(shù)據(jù)分析,VBA,程序基礎(chǔ),VBA,控制語句,VBA,常用函數(shù),VBA,綜合應(yīng)用,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,My SQL,數(shù)據(jù)庫(kù)操作,MySQL,配置,SQL,中的,DDL,語句,SQL,中的,DML,語句,SQL,中的,DCL,語句,MySQL,常用函數(shù),MySQL,存儲(chǔ)過程和自定義函數(shù),實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,JAVA,數(shù)據(jù)爬取,抓取網(wǎng)頁(yè),處理,HTML,頁(yè)面,非,HTML,正文抽取,設(shè)計(jì)爬蟲隊(duì)
8、列,并行爬蟲,實(shí)驗(yàn)類型,實(shí)驗(yàn)名稱,JAVA,自然語言處理,字符串編碼,正則表達(dá)式,自動(dòng)分詞,句法分析,語義分析,實(shí)驗(yàn)平臺(tái)管理方式,B/S,架構(gòu)的管理體系,系統(tǒng)分為管理員、教師與學(xué)生三種角色,管理員管理實(shí)驗(yàn)內(nèi)容以及教師用戶注冊(cè),教師管理實(shí)驗(yàn)開放、實(shí)驗(yàn)流程以及學(xué)生打分,學(xué)生用戶完成實(shí)驗(yàn)內(nèi)容,提交實(shí)驗(yàn)報(bào)告,虛實(shí)結(jié)合的實(shí)驗(yàn)平臺(tái),以云計(jì)算的方式提供實(shí)驗(yàn)開發(fā)環(huán)境,以學(xué)生端虛擬化的方式提供本地,Hadoop,環(huán)境,以后臺(tái)服務(wù)方式提供,R,語言自動(dòng)運(yùn)行服務(wù),以,Shell,方式提供支持大數(shù)據(jù)的,Hadoop,運(yùn)行環(huán)境,自動(dòng)化實(shí)驗(yàn)管理平臺(tái),學(xué)生端實(shí)驗(yàn)環(huán)境自動(dòng)啟動(dòng)與環(huán)境恢復(fù),服務(wù)端資源自動(dòng)分配與調(diào)度,實(shí)驗(yàn)數(shù)據(jù)集自動(dòng)化準(zhǔn)備與初始化,實(shí)驗(yàn)過程說明(,1,),數(shù)據(jù)挖掘展示性實(shí)驗(yàn),實(shí)驗(yàn)過程說明(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實(shí)驗(yàn),實(shí)驗(yàn)過程說明(,3,),大數(shù)據(jù)基礎(chǔ)實(shí)驗(yàn),實(shí)驗(yàn)過程說明(,4,),綜合性實(shí)驗(yàn),謝謝,