總結(jié)及下一階段工作計(jì)劃
總結(jié)及下一階段工作計(jì)劃劉學(xué)錚03.09.03大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計(jì)數(shù)據(jù)網(wǎng)格、信息網(wǎng)格和知識網(wǎng)格1,3數(shù)據(jù)網(wǎng)格與信息網(wǎng)格v數(shù)據(jù)網(wǎng)格數(shù)據(jù)網(wǎng)格解決的問題:v解決海量數(shù)據(jù)的存儲和共享問題v主要為計(jì)算任務(wù)以及計(jì)算網(wǎng)格服務(wù),是一種底層的海量數(shù)據(jù)倉儲體系數(shù)據(jù)網(wǎng)格不去解決的問題:v多類的和復(fù)雜的信息格式v信息表示和元數(shù)據(jù)v智能化信息獲?。↖nformation retrieval)v信息網(wǎng)格信息網(wǎng)格解決的問題v信息的智能化獲取v信息檢索v信息的表示v多類的元數(shù)據(jù)和結(jié)構(gòu)化v給用戶和應(yīng)用程序提供特定內(nèi)容的信息服務(wù)信息網(wǎng)格不去解決的問題v海量數(shù)據(jù)存儲,數(shù)據(jù)管理v計(jì)算問題及強(qiáng)數(shù)據(jù)量(data-density)的計(jì)算和數(shù)據(jù)訪問方式信息網(wǎng)格和知識網(wǎng)格v信息網(wǎng)格信息網(wǎng)格解決的問題v信息的智能化獲取v信息檢索v信息的表示v多類的元數(shù)據(jù)和結(jié)構(gòu)化信息網(wǎng)格不去解決的問題v數(shù)據(jù)挖掘v問題求解v知識網(wǎng)格知識網(wǎng)格解決的問題v數(shù)據(jù)挖掘、知識挖掘v規(guī)則的發(fā)現(xiàn)v數(shù)據(jù)、信息的可視化vOntology 轉(zhuǎn)換知識網(wǎng)格不去解決的問題v無結(jié)構(gòu)信息的半結(jié)構(gòu)化v元數(shù)據(jù)格式的匹配和轉(zhuǎn)換v信息智能化檢索資源網(wǎng)格、信息網(wǎng)格與服務(wù)網(wǎng)格2信息網(wǎng)格的其他討論v信息網(wǎng)格作為計(jì)算網(wǎng)格和知識網(wǎng)格的中間層次,允許對于異構(gòu)信息的統(tǒng)一訪問,提供分布式資源上的公用信息服務(wù)。統(tǒng)一訪問依賴于metadata對于信息的描述(并集成異構(gòu)資源)4,5vThe computation/data grid has supercomputers,large servers,massive data storage facilities and specialised devices and facilities(e.g.for VR(Virtual Reality).The main functions include compute load sharing/algorithm partitioning,resolution of data source addresses,security,replication and message rerouting.The information grid resolves homogeneous access to heterogeneous information sources.The knowledge grid utilises knowledge discovery in database technology(especially data mining)to generate knowledge(from information and data in the lower 2 layers of the GRIDs).6信息網(wǎng)格的其他討論vIPG(information power grid),NASA.:針對與對異構(gòu)分布式信息資源的無縫訪問7vGIG(global information grid),USA Defance.強(qiáng)調(diào)以網(wǎng)絡(luò)為中心的通信,信息廣播和作戰(zhàn)系統(tǒng)(net-centric information environment)vInfoGrid8:一個(gè)實(shí)現(xiàn)信息訪問應(yīng)用的框架,其上提供用戶界面及交互模型。它集中于獲取應(yīng)用程序?qū)ο?,以其對于信息,?shù)據(jù)和服務(wù)的統(tǒng)一訪問(retrieval-centered interaction model for information access applications)大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計(jì)階段論文和科研成果v對等網(wǎng)絡(luò)及信息網(wǎng)格的基礎(chǔ)設(shè)施(infrastructure)研究結(jié)構(gòu)化對等網(wǎng)絡(luò)上靜態(tài)和自適應(yīng)的數(shù)據(jù)備份策略基于節(jié)點(diǎn)異構(gòu)信息的路由及負(fù)載平衡算法v信息搜索和基于語義的信息表示研究應(yīng)用于大規(guī)模分布系統(tǒng)的潛在語義分析和信息索引策略查找環(huán)(Lookup-Rings):動態(tài)網(wǎng)絡(luò)環(huán)境上的高效信息檢索基于元數(shù)據(jù)表示的信息網(wǎng)格階段論文和科研成果v大規(guī)模分布系統(tǒng)上消息傳遞及同步機(jī)制O(1)復(fù)雜度對等網(wǎng)絡(luò)路由算法高可靠的大規(guī)模分布系統(tǒng)廣播機(jī)制結(jié)構(gòu)化對等網(wǎng)絡(luò)上靜態(tài)和自適應(yīng)的數(shù)據(jù)備份策略v針對傳統(tǒng)的“連續(xù)k-近鄰”數(shù)據(jù)冗余備份算法之不足,提出改進(jìn)的“分區(qū)近鄰”備份算法,適應(yīng)高度動態(tài)環(huán)境下的數(shù)據(jù)備份要求,很大程度上避免了無用的數(shù)據(jù)遷移,節(jié)省了系統(tǒng)維護(hù)開銷v提出一個(gè)系統(tǒng)維護(hù)開銷模型,并給出基于模型的優(yōu)化策略v提出variation-tolerant recovery和adaptive probing相結(jié)合的系統(tǒng)維護(hù)策略,實(shí)現(xiàn)了靜態(tài)的和自適應(yīng)的數(shù)據(jù)冗余備份基于節(jié)點(diǎn)異構(gòu)信息的路由及負(fù)載平衡算法v傳統(tǒng)對等網(wǎng)絡(luò)采用哈希算法實(shí)現(xiàn)總體上的負(fù)載平衡。這種簡單處理方式?jīng)]有能有效的利用節(jié)點(diǎn)能力(強(qiáng)節(jié)點(diǎn)),并且仍然有一定程度上的負(fù)載不均衡v本算法利用節(jié)點(diǎn)容量表儲存當(dāng)前節(jié)點(diǎn)能力和使用狀況,并基于此進(jìn)行負(fù)載分配,實(shí)現(xiàn)了實(shí)施的細(xì)粒度平衡,并有效的利用了節(jié)點(diǎn)能力v算法使用一個(gè)輕度的消息擴(kuò)散策略保證了容量表的實(shí)施更新應(yīng)用于大規(guī)模分布系統(tǒng)的潛在語義分析和信息索引策略v將傳統(tǒng)信息獲取領(lǐng)域(IR)中的潛在語義分析方法(Latent Semantic Analysis)應(yīng)用于大規(guī)模分布式對等網(wǎng)絡(luò)上,實(shí)現(xiàn)對于信息源之間潛在語義關(guān)聯(lián)的提取和利用。通過將信息和用戶使用特性映射到降維歐式空間中的點(diǎn)來實(shí)現(xiàn)對于語義相關(guān)性的表示v建立了對于潛在語義和用戶使用特性的后驗(yàn)概率模型,使用MAP(maximizing a posteriori)進(jìn)行優(yōu)化求解。采用基于E-M優(yōu)化的迭代算法實(shí)現(xiàn)了對于潛在語義表示空間的降維和求解,避免了分布式環(huán)境下SVD分解的復(fù)雜計(jì)算量v通過提取的潛在語義表示來定義信息索引并指導(dǎo)分布式搜索,極大的提高了信息搜索效率(提高了23個(gè)數(shù)量級)查找環(huán)(Lookup-Rings):動態(tài)網(wǎng)絡(luò)環(huán)境上的高效信息檢索v解決動態(tài)網(wǎng)絡(luò)環(huán)境下無中心大規(guī)模分布式系統(tǒng)的高效信息檢索問題。v建立了信息查找表(索引)的優(yōu)化性能和網(wǎng)絡(luò)動態(tài)變化造成信息查找表維護(hù)開銷之間的平衡(trade-off)模型,求解出最優(yōu)的信息查找表尺度v基于最有查找表尺度建立高效的信息檢索和維護(hù)算法,證明并實(shí)現(xiàn)了無偏檢索(unbiased searching)算法中的最優(yōu)效率?;谠獢?shù)據(jù)表示的信息網(wǎng)格v使用元數(shù)據(jù)表示(metadata)實(shí)現(xiàn)信息網(wǎng)格底層架構(gòu)v通過元數(shù)據(jù)的等價(jià)轉(zhuǎn)換完成分布信息檢索和信息集成v利用用戶反饋數(shù)據(jù)實(shí)現(xiàn)信息檢索優(yōu)化O(1)復(fù)雜度對等網(wǎng)絡(luò)路由算法v改善了傳統(tǒng)結(jié)構(gòu)化對等網(wǎng)絡(luò)設(shè)計(jì)的節(jié)點(diǎn)鏈路關(guān)系,很大程度上降低了節(jié)點(diǎn)的聯(lián)接數(shù)v設(shè)計(jì)了O(1)復(fù)雜度的路由算法。對照HotOS IX中關(guān)于O(1)復(fù)雜度討論的先驅(qū)性論文,本設(shè)計(jì)避免了超級節(jié)點(diǎn)(supernode),實(shí)現(xiàn)了完全對等的拓?fù)浣Y(jié)構(gòu)。這樣同時(shí)解決了前文中超級節(jié)點(diǎn)帶寬開銷過大的問題高可靠的大規(guī)模分布系統(tǒng)廣播機(jī)制v實(shí)現(xiàn)了應(yīng)用層(application level)的廣播機(jī)制,建立了一個(gè)高可靠的分布式消息通知和廣播機(jī)制v對比gossip算法,減少了消息冗余,提高了算法效率,其算法效率接近最優(yōu)生成樹的樹型廣播v對比樹型廣播,本算法保證了很高的可靠性以及負(fù)載均衡,其可靠性接近gossip算法大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎設(shè)計(jì)v信息網(wǎng)格設(shè)計(jì)基于屬性的搜索引擎設(shè)計(jì)v概述及與傳統(tǒng)文本搜索引擎的對比v基于屬性的搜索引擎設(shè)計(jì)v信息網(wǎng)格設(shè)計(jì)概述及與傳統(tǒng)文本搜索引擎的對比v應(yīng)用背景:互聯(lián)網(wǎng)上巨大信息的獲取和檢索v傳統(tǒng)文本搜索引擎的實(shí)現(xiàn)方法Html頁面文本的獲?。–rawling)頁面解析和倒排索引建立(Inverted Indexing)頁面聯(lián)接關(guān)系分析和評定(Page Ranking)基于倒排索引的聯(lián)合查詢(Searching and merging)傳統(tǒng)文本搜索引擎的優(yōu)勢和不足v優(yōu)勢使用簡便,面向最終用戶只關(guān)心文本,具有通用性。同時(shí)鑒于目前IR技術(shù)水平尚待發(fā)展,純文本搜索不啻為最直接的搜索引擎策略v不足完全不考慮文本結(jié)構(gòu)信息,限制了高級使用其通用性也是不足之處,無法對于專業(yè)應(yīng)用提供有針對性的服務(wù),不能實(shí)現(xiàn)在語義上的定域查詢,查詢精度差不包含屬性信息,不符合信息網(wǎng)格的需求,無法對應(yīng)用程序?qū)崿F(xiàn)必需的支持基于屬性的半結(jié)構(gòu)化信息搜索引擎v設(shè)計(jì)思想將信息(html頁面,ftp文件,pdf文件)看作是屬性的集合,而非傳統(tǒng)平面純文本的集合,亦即:Item=i,i=1,n查詢請求可以詳細(xì)指定所查信息的屬性,提供key或者與key相對應(yīng)的屬性值,縮小查尋范圍,提高查詢精度屬性之間實(shí)現(xiàn)等效轉(zhuǎn)換這本質(zhì)上是利用(文本中)結(jié)構(gòu)信息和語義信息概要設(shè)計(jì)v系統(tǒng)組成部分信息資源獲?。–rawling)vCrawler and Crawler Scheduler半結(jié)構(gòu)化和倒排索引建立vTemplate-based Analyzer and Inverted-index Builder語義相關(guān)分析及屬性表評定vSVD and Ranker基于屬性的查詢vProperty-based Query Engine與傳統(tǒng)純文本搜索引擎之比較網(wǎng)頁Crawler頁面解析器文本索引應(yīng)答引擎純文本Page Rank網(wǎng)頁Crawler半結(jié)構(gòu)化器屬性索引應(yīng)答引擎語義Rank及擴(kuò)展查詢屬性查詢純文本搜索引擎基于屬性的搜索引擎模版庫Internet獲取獲取分析分析索引索引查詢查詢關(guān)鍵技術(shù)v半結(jié)構(gòu)化通用半結(jié)構(gòu)化器v提取html的表格信息,形成屬性表v提取已知格式的文檔信息,譬如DOC,PDF等基于模版的專用半結(jié)構(gòu)化器v對于特定頁面定制特定的模版,使用XML規(guī)則知道解析v對于特定服務(wù)定制特定的模版及特定協(xié)議(ftp等)v通過半結(jié)構(gòu)化器,將頁面轉(zhuǎn)換成為屬性表,縮小查尋范圍,提高查詢精度和效率關(guān)鍵技術(shù)v屬性索引針對轉(zhuǎn)換的屬性表,建立屬性倒排對于二維表格的處理其他頁面內(nèi)容的索引,與文本搜索引擎的處理相同關(guān)鍵技術(shù)v基于屬性表和語義的Rank和擴(kuò)展查詢屬性表特定的Rank基于SVD潛在語義分析的頁面Rank技術(shù)擴(kuò)展查詢技術(shù)v基于屬性詞相關(guān)的擴(kuò)展查詢v基于同義詞字典的擴(kuò)展查詢v基于頁面潛在相關(guān)的擴(kuò)展查詢關(guān)鍵技術(shù)v基于屬性查詢的應(yīng)答引擎對于設(shè)定屬性值(值域)的查詢優(yōu)化大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計(jì)信息網(wǎng)格設(shè)計(jì)v基于屬性的搜索引擎可以看作信息網(wǎng)格架構(gòu)上面的一個(gè)應(yīng)用信息網(wǎng)格系統(tǒng)具備了對于信息的統(tǒng)一描述(基于屬性標(biāo)的元數(shù)據(jù))可以提供用戶查詢的反饋具備管理和看守一定范圍的Internet上信息資源的能力v信息網(wǎng)格底層架構(gòu)應(yīng)該給多個(gè)這樣的應(yīng)用提供基礎(chǔ)設(shè)施(infrastructure)級的支持信息網(wǎng)格圖示InternetInformation Grid Infrastructure信息資源信息網(wǎng)格Knowledge Grid應(yīng)用程序終端用戶上層用戶從基于屬性的搜索引擎到信息網(wǎng)格:典型信息網(wǎng)格的結(jié)構(gòu)設(shè)計(jì)資源獲取器應(yīng)答引擎RankInternet資源獲取資源獲取資源庫定域Scheduler半結(jié)構(gòu)化器屬性索引半結(jié)構(gòu)化規(guī)則分析獲取分析獲取查詢查詢輔助模塊基于元數(shù)據(jù)的請求返回結(jié)果翻譯模塊翻譯模塊格式轉(zhuǎn)換應(yīng)用程序終端用戶其他網(wǎng)格信息網(wǎng)格基礎(chǔ)架構(gòu)v多個(gè)信息網(wǎng)格之間交互數(shù)據(jù)的統(tǒng)一接口v用戶查詢分派v針對特定用戶的信息集成信息網(wǎng)格基礎(chǔ)架構(gòu)v多個(gè)信息網(wǎng)格之間交互數(shù)據(jù)的統(tǒng)一接口抽象信息網(wǎng)格服務(wù)v輸入基于元數(shù)據(jù)表示的查詢請求v輸出特定格式的查詢結(jié)果采用基于XML統(tǒng)一表示的數(shù)據(jù)格式可外掛的翻譯模塊信息網(wǎng)格基礎(chǔ)架構(gòu)v用戶查詢派發(fā)用戶提交查詢:v特定元數(shù)據(jù)結(jié)構(gòu)v特定信息網(wǎng)格定域v特定服務(wù)描述檢索可以服務(wù)的信息網(wǎng)格:基于用戶元數(shù)據(jù)模式v采用無中心對等網(wǎng)絡(luò)中的檢索技術(shù)v采用用戶配置文件v采用信息網(wǎng)格特定的注冊檢索服務(wù)器來完成這些特定服務(wù)企也可以看作一定意義上的“信息網(wǎng)格”信息網(wǎng)格基礎(chǔ)構(gòu)架v針對特定用戶的信息集成最終的信息集成應(yīng)該是應(yīng)用程序或者用戶端來完成的,因此集成有理由采用無偏向性的簡單結(jié)果融合優(yōu)化的信息集成技術(shù)是“元搜索”領(lǐng)域中的基本課題,有一些成型的結(jié)果通過用戶反饋(relevance feedback)積累知識,實(shí)現(xiàn)長程的信息集成優(yōu)化v這一部分主要是特定信息網(wǎng)格應(yīng)用的范疇前述研究結(jié)果和信息網(wǎng)格的結(jié)合v針對大規(guī)模分布系統(tǒng)的搜索技術(shù)v針對高度動態(tài)系統(tǒng)的高可用技術(shù)v針對潛在語義信息分析的技術(shù)v統(tǒng)一的信息表示參考文獻(xiàn)1 Nigel Baker et al.Querying Large Physics Data Sets Over an Information Grid.In Chep 012 Alexander Reinefeld et al.Concepts and Technologies for a Worldwide Grid Infrastructure.In Euro-Par 20023 F.P.Terpstra,et al.Information discovery and combination from divergent data sources for Travel Information Systems.In 7th European Conference on Principles and Practice of Knowledge Discovery in Databases(ECML/PKKD-2003)4 Omer F.Rana et al.Issues in Building Agent-Based Computational Grids.Third Workshop of the UK Special Interest Group on Multi-Agent Systems(UKMAS2000)Oxford,UK.12 2000 參考文獻(xiàn)v5 Keith.G.et al.Knowledge,information and Data.A briefing to the Office of Science and Technology,UK,2000v6 Keith.G.et al.CRIS,Grey Literature and the Knowledge SocietyIn CRIS2000v7 David.D et al.XDB-IPG:An Extensible Database Architecture for an Information Grid of Heterogeneous and Distributed Information Resourcesv8 R.Rao et al.The Information Grid:A Framework for Information Retrieval and Retrieval-Centered Applications.In Proceedings of the fifth annual ACM symposium on User interface software and technology(UIST 92),pages 23-32,Monterey,CA,1992.謝謝大家!并請指正!