秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

科學數據挖掘應用系統的研究與初步設計

上傳人:xue****ang 文檔編號:253251055 上傳時間:2024-12-10 格式:PPT 頁數:36 大?。?17.50KB
收藏 版權申訴 舉報 下載
科學數據挖掘應用系統的研究與初步設計_第1頁
第1頁 / 共36頁
科學數據挖掘應用系統的研究與初步設計_第2頁
第2頁 / 共36頁
科學數據挖掘應用系統的研究與初步設計_第3頁
第3頁 / 共36頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《科學數據挖掘應用系統的研究與初步設計》由會員分享,可在線閱讀,更多相關《科學數據挖掘應用系統的研究與初步設計(36頁珍藏版)》請在裝配圖網上搜索。

1、單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,科學數據挖掘應用系統的研究與初步設計,周園春,,,,2006年9月3日,,目 錄,,,背景,,數據挖掘系統的發(fā)展現狀,,科學數據挖掘應用系統,,科學數據庫,,中國科學院作為中國自然科學的研究中心,在長期的科學研究實踐中,通過觀測、考察、試驗、計算等多種途徑產生和積累了大量具有重要科學價值和實用意義的科學數據和資料,,科學數據的用途,,科研人員研究的成果和積累,,支持他們做更為復雜的創(chuàng)新研究不

2、可替代的資源,,科學數據庫,,始建于1983年,45個研究所,,,幾百個專業(yè)數據庫,幾十幾百TB的數據量,,數據庫的內容覆蓋了化學、生物、天文、材料、高能物理、光學機械、自然資源、生態(tài)、遙感、大氣等數據,,科學數據庫系統平臺,,各領域的專業(yè)人員可能還開發(fā)了各種不同的專業(yè)數據庫數學模型和專家系統,形成了不同專業(yè)的專業(yè)咨詢系統、科研過程和生產過程模擬系統,,缺點:獨立的、分散的,,學科的交叉融合、新型交叉學科的出現和跨學科領域的大型科學問題的研究:共享和集成,,運用先進信息技術來支撐科學數據庫的發(fā)展和應用的軟硬件綜合平臺,,其總體目標是:硬件上滿足科學數據庫的需求的存儲、計算、通信和服務能力;軟件

3、上實現對科學數據庫中大規(guī)模、分布式、異構的海量數據進行整合,實現科學數據資源的共享,,存在的問題,,只是對數據的共享和協同,還沒有對數據進行深加工或者分析,,隨著科學數據庫中數據的不斷積累,數據的加工處理,從數據中獲取有用的知識,充分挖掘數據資源的價值,變得越來越重要,,數據量大而且復雜,完全人工去分析或者查看是不現實也是不可能的,,科學數據庫中開發(fā)數據挖掘應用的問題,,首先,數據挖掘過程往往與數據挖掘模型、具體挖掘算法緊密關聯,這就帶來了技術上和應用推廣上的困難,,其次,數據挖掘與具體應用結合,就會導致應用范圍窄,靈活性差,增加數據挖掘應用開發(fā)的難度,,能否建立一個,,科學數據挖掘應用系統?

4、,,目 錄,,背景,,,數據挖掘系統的發(fā)展現狀,,科學數據挖掘應用系統,,什么是數據挖掘?,,數據挖掘是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程,,,數據挖掘的過程,,,數據挖掘到數據挖掘系統,,研究重點的轉移,,從發(fā)現方法到系統應用,注重多種發(fā)現策略和技術的集成,以及多學科之間的相互滲透。,,理論和應用的結合,,數據挖掘是面向應用的多學科交叉領域,應用推動了數據挖掘技術和理論的研究。而數據挖掘系統是數據挖掘研究和應用的橋梁,對數據挖掘技術的推廣起到很大的作用,,數據挖掘系統,,數據挖掘是一個交叉學科領域,受多個學科影響,包括數據庫系統、統計學、機器學習、

5、可視化和信息科學 。,,數據挖掘系統,,如何將現有的算法集中在一個統一的框架下,并且與特定的領域相結合,構造出能被各種層次的用戶所接受的數據挖掘應用系統,是數據挖掘系統研究需要迫切解決的問題之一,,分類:,,橫向的數據挖掘工具,,縱向的數據挖掘工具,,,橫向的數據挖掘工具,數據挖掘軟件需要和以下三個方面緊密結合,,數據庫和數據倉庫,,多種類型的數據挖掘算法,,數據清洗、轉換等預處理工作,,“工具集”的數據挖掘軟件(1995年),,對各個領域提供多種數據挖掘算法,,包括數據的轉換和可視化,,并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數據挖掘工具 。,,典型的系統有IBM的Intell

6、igent Miner、SAS Enterprise Miner、SPSS Clmentine、SGI的MineSet、Oracle Darwin等,,缺點,,只有精通數據挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型,,縱向的數據挖掘工具,1999年開始就出現縱向的數據挖掘解決方案,即基于工具集,針對特定的應用提供完整的數據挖掘方案,,典型應用,,KDI(主要用于零售業(yè))、Options&Choice(主要用于保險業(yè))、HNC(欺詐行為偵測)和Unica Model(主要用于市場),,特點,,很強的針對性,能夠滿足特定的應用需求,,用戶能專注于具體的應用問題,對具體算法無須了

7、解。,,缺點,,應用范圍是縱向的,過于狹窄,靈活性不夠。比如為某個銀行定制的信用卡數據挖掘方案可能不適合其他銀行。,,數據挖掘系統,,縱向的還是橫向的數據挖據應用系統,都很少考慮到科學數據挖掘,大多都是應用于商業(yè)、金融等領域,,目 錄,,背景,,數據挖掘系統的發(fā)展現狀,,,科學數據挖掘應用系統,,科學數據挖掘應用系統的目標,,希望在“十五”的基礎上形成的大規(guī)模的科學數據資源上,結合現有的元數據定義的規(guī)范,為各個建庫單位提供統一的、良好可擴展性和靈活性的科學數據挖掘平臺,,各建庫單位根據自身數據的特征來定制領域模型,平臺根據這些業(yè)務模型來實現對科學數據進行分析和挖掘,最后以可視化的形式把結果呈

8、現給科研人員和科研管理人員,使得科研人員能夠從數據的背后進行更加深入科研的活動,同時也為科研管理人員提供決策的資料來源,,科學數據挖掘應用系統的目標,,使科學家可以從桌面電腦上訪問大量的數據和計算資源,,符合e-Science的首要的挑戰(zhàn),,從數據的“雪崩”中有效地抽取、集成、探測、分析和表達知識使得科學家能夠利用數據的潛能,,引發(fā)的不同領域的需求,,數據資源集成到一起的計算基礎設施——軟件工程師,,數據挖掘算法——計算機科學家,,定義元數據標準和提出挖掘的目標 ——各個領域的專家,,科學數據挖掘系統的設計目標,,從多種數據存貯資源中抽取數據,以及跨數據源的集成功能;,,管理和維護數據庫和數據

9、倉庫,包括數據存儲的優(yōu)化及數據的增量維護;,,支持多種數據訪問接口,包括ODBC、JDBC、OLE DB、Web Service等;,,集成多種數據挖掘算法,通過靈活的科學數據挖掘網格服務的方式,提供處理各種數據挖掘任務的功能;并提供開放的接口,提供擴展用戶自定義算法的功能。,,提供多種可視化方法顯示各種數據和數據挖掘結果的功能。,,科學數據挖掘系統的體系結構,,,各層主要功能,,數據選擇層,,數據選擇層的功能是把預處理后的數據表示成多維模型的形式,,簡單的查詢,比如SQL語言的條件選擇或分組操作;基于聯機分析處理的數據立方體模型;無監(jiān)督的數據分割技術,比如聚類,,數據挖掘層:,,從數據選擇層

10、獲取數據,執(zhí)行數據挖掘任務,產生數據挖掘模型。,,算法參數和算法執(zhí)行,,數據和模式表示層,,多維數據的可視化、多維數據挖掘任務的可視化、模式可視化、模式比較和趨勢分析可視化。,,科學數據挖掘應用系統的系統框架,,,科學數據挖掘系統的具體流程,,1)利用通用數據預處理工具對需要挖掘的數據進行預處理;,,2)基于系統領域模型,進行簡單定制或進一步開發(fā),完成領域模型的定制;,,3)執(zhí)行數據挖掘,并將挖掘結果進行可視化顯示;,,4)評價挖掘結果,如果有必要,可重復2)、3)步,重新定制領域模型參數,進行再次挖掘。,,科學數據的預處理,,科學數據的預處理就是按照科學數據的規(guī)律把各種形式的科學數據(關系數

11、據庫/XML/空間格式數據等)經過一定的處理轉化成數據挖掘的標準化形式,,科學數據的預處理,,,異常數據,,空缺數據,,冗余或者重復數據,,格式標準化,,數據歸約/壓縮,,……,,,領域模型庫,,各建庫單位都有一些各自典型的數學模型或者業(yè)務邏輯,把這些數學模型或者業(yè)務邏輯綜合起來組成一個領域模型庫,作為科研人員定制領域模型的來源,它是一個開放的庫,隨時可以補充新領域模型,,需要各個領域的專家參與,,,數據挖掘算法庫,,科學數據挖掘應用系統的核心,,主要包含一些具體的數據挖掘算法,如關聯規(guī)則、序列模式發(fā)現、決策樹、聚類、神經元網絡、異常檢測等,而且還可以增加開發(fā)人員針對不同應用改進的一些挖掘算法

12、,,目的是供領域模型所調用,,數據挖掘算法庫,,,數據挖掘模塊,,該模塊主要包括挖掘算法的選擇和具體的數據挖掘過程,,挖掘算法的選擇:現有很多數據挖掘系統都是需要用戶自己選擇挖掘算法,在該系統中,挖掘算法的選擇是根據科研人員選擇的領域模型和預處理后的數據來自動選擇挖掘算法,,數據挖掘:利用選擇好的算法對預處理后的科學數據進行分析和挖掘,并產生結果信息,,科學數據挖掘信息的可視化,,科學數據挖掘信息的可視化技術拓寬了傳統的圖表功能,使用戶對數據的剖析更清楚。例如把數據庫中多維的數據變成多種圖形,這對于揭示數據中的狀況,內在本質以及規(guī)律性起到很強的作用,,目的是讓用戶能夠交互瀏覽數據、挖掘過程等,

13、,數據挖掘結果的可視化,將數據挖掘后得到的知識和結果用可視化的形式表示出來,比如二維的(圓、表格、樹等)或者三維的(立方體等),,數據挖掘過程的可視化,用可視化的形式描述挖掘過程,從中用戶可以看出數據從哪個數據倉庫或數據庫中抽取出來,怎樣抽取以及怎樣預處理,怎樣挖掘等,,科學數據挖掘系統的具體應用,,它是科學數據挖掘系統應用的具體實施層,它根據挖掘后的信息和各個建庫單位提供的相關背景知識,能夠對下一步的科研活動和決策咨詢提供一些參考性的建議。比如說根據對黃河流水的水土流失數據的挖掘,能夠為這一地區(qū)的植樹的密度提供一些數據上的參考等,,科學數據挖掘系統的具體應用,,“黃河流域水文泥沙數據庫”和“

14、黃土高原地區(qū)數據庫”,,黃河流域水文泥沙數據庫數據庫介紹,,來源:黃河流域水文泥沙監(jiān)測站,,數據的時間范圍:50年代初~80年代末,,數據的空間范圍:黃河流域的主要水文觀測站,,數據項目:逐日流量(133個站的資料)、逐日泥沙含量(128個站的資料)、逐日降雨量(177個站的資料)、逐日蒸發(fā)量(70個站的資料)、逐月河流懸移質顆粒級配(70個站的資料)。,,科學數據挖掘系統的具體應用,,,黃土高原地區(qū)數據庫介紹,,來源:國家氣象局,,時間范圍:1950年~2000年,,數據的空間范圍:黃土高原地區(qū)/黃河流域9個省市自治區(qū)以縣氣象站為單元的氣候數據,,數據項目:氣壓、氣溫(平均、最高、最低)、相

15、對濕度、風速、降水量、蒸發(fā)量、日照時數、0厘米地溫和輻射(總、凈、直)的日值資料以及分層地溫的月值資料。,,科學數據挖掘系統的具體應用,,,統計功能,,關于時間的統計,,計算某一時間,不同觀測站觀測值的算術平均值、最大值、最小值,,計算一個時間段內,不同觀測站觀測值的算術平均值、最大值、最小值,,關于地點的統計,,按照流域界限劃分,既計算某流域界限之內各觀測站觀測值的算術平均值、最大值、最小值,,按照行政界限劃分,既計算某行政界限之內各觀測站觀測值的算術平均值、最大值、最小值,,按照生態(tài)類型區(qū)界限劃分,既計算某生態(tài)類型區(qū)界限之內各觀測站觀測值的算術平均值、最大值、最小值,,科學數據挖掘系統的具體應用,,數據挖掘功能,,利用關聯規(guī)則發(fā)現算法發(fā)現屬性之間的關系,例如黃土高原地區(qū)氣候數據庫中各種氣候屬性之間的關系,,利用聚類算法在黃河流域水文泥沙數據庫中發(fā)現水文特征相似的觀測站的集合,在黃土高原地區(qū)氣候數據庫中發(fā)現氣候特征相似的觀測站的集合,,利用序列模式發(fā)現算法發(fā)現屬性值的變化規(guī)律,,利用預測算法預測水文特征和氣候特征演變的規(guī)律和發(fā)展的趨勢,,黃河流域的水土流失的防治(需要相關的背景知識),,水文參數和氣候特征的分析預測,,謝謝!,請?zhí)岢鰧氋F的建議和意見,,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

copyright@ 2023-2025  sobing.com 裝配圖網版權所有   聯系電話:18123376007

備案號:ICP2024067431-1 川公網安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網,我們立即給予刪除!