《分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價.ppt》由會員分享,可在線閱讀,更多相關(guān)《分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價.ppt(27頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、Evaluating tag filtering techniques for web resource classification in folksonomies,分眾分類中的網(wǎng)絡(luò)資源分類的 標(biāo)簽過濾技術(shù)評價,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,2,摘 要,社會化協(xié)作式標(biāo)簽系統(tǒng)是基于人類共同知識的新出現(xiàn)的網(wǎng)絡(luò)分類方法,并在Del.icio.us等站點得到廣泛運用。協(xié)同式標(biāo)簽系統(tǒng)是包括用戶、資源和標(biāo)簽的三元數(shù)據(jù)結(jié)構(gòu),這些標(biāo)簽有助于促進(jìn)訪問和瀏覽大量網(wǎng)絡(luò)資源。本文提供了一種確定標(biāo)簽在資源分類上價值的經(jīng)驗研究方法。此外,還分析了使用若干過濾器和預(yù)處理過程來減少標(biāo)簽的模糊性和噪音的方法。,
2、關(guān)鍵詞:網(wǎng)絡(luò)資源分類 社會標(biāo)簽系統(tǒng) 分眾分類法,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,4,引 言,社會化標(biāo)簽系統(tǒng)是伴隨web2.0出現(xiàn)的最流行的內(nèi)容分享應(yīng)用之一。由于其簡明性,集體創(chuàng)建和管理標(biāo)簽來標(biāo)注和分類內(nèi)容的實踐已經(jīng)取得巨大成功。在Del.icio.us,Technorati或者Flickr這類站點中,用戶自由選擇一組關(guān)鍵詞或者開放式的標(biāo)簽來標(biāo)注各種異構(gòu)的資源,例如:網(wǎng)頁、博客帖子、圖片或者視頻,社會化標(biāo)簽?zāi)茏詣踊赝瓿蓪①Y源手動地分類到預(yù)定義的類別中費時費力的工作。 本文通過使用協(xié)作產(chǎn)生的開放式標(biāo)簽(比如網(wǎng)頁)來分類資源的方法進(jìn)行了一個經(jīng)驗評價。實驗數(shù)據(jù)源于一系列由專家分類的來源
3、于網(wǎng)站目錄的網(wǎng)頁和非專家用戶給定的標(biāo)簽(Noll & Meinel)。為了獲取有代表性的資源并與不同的分類器比較,本文采用了大量的元數(shù)據(jù)來對比。,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,6,背景及相關(guān)作品,分眾分類法是社會分類框架的基本結(jié)構(gòu),它依賴于大量社區(qū)用戶使用的頻次最高的標(biāo)簽來分類系統(tǒng),從而有效地組織和導(dǎo)航大型信息空間。,Folksonomy = taxonomy + folk,一個分眾分類可以定義為一個三元數(shù)組A=(U,T,R),其意思是:用戶U,資源R,以及標(biāo)記其間的三元關(guān)系的用戶指定的標(biāo)簽。,背景及相關(guān)作品,關(guān)于 Folksonomy,特點 用戶自發(fā)定義 標(biāo)簽分類是公開共享
4、的 由用戶群體定義的頻率來決定,缺點 缺乏層次性 表達(dá)概念的模糊性(缺乏語義精確性,缺乏同義詞控制),優(yōu)點 易于接受,自由靈活 動態(tài)更新,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,9,基于標(biāo)簽的Web資源分類,基于標(biāo)簽的Web資源分類,,,數(shù)據(jù)集的描述,Web資源表示,基于標(biāo)簽的分類結(jié)果,,數(shù)據(jù)集的描述,本研究中使用的元數(shù)據(jù)是: 標(biāo)簽:包含一個社會化書簽的完整歷史,對于每個數(shù)據(jù)集中的文件,它的完整的書簽歷史都抓取自Del.icio.us的HTML網(wǎng)頁上。 錨文本:定義為文本的范圍內(nèi)出現(xiàn)一個HTML標(biāo)記。在數(shù)據(jù)集中,每個文件有多達(dá)100個的提交頁面得到處理。 查詢:指所有用于A
5、OL500k語料庫在一個特定網(wǎng)頁出現(xiàn)結(jié)果集的查詢。,Web資源表示,三種信息源 單獨文件(標(biāo)簽,查詢條件和錨文本) 所有資源的組合(查詢條件+錨文本+標(biāo)簽) 三種其他組合(查詢+錨文本,查詢+標(biāo)簽,錨文本+標(biāo)簽),兩種分類器 樸素貝葉斯分類器 Weka9機器學(xué)習(xí)算法,兩個評價指標(biāo) 標(biāo)準(zhǔn)精度 回憶偏差,基于標(biāo)簽的分類結(jié)果,基于標(biāo)簽的分類結(jié)果,基于標(biāo)簽的分類結(jié)果,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,16,標(biāo)簽處理方法的評價,術(shù)語詞干,在大多數(shù)語言中,相似語義解釋的詞有很多形態(tài)變化,這在信息檢索中被視為是相同的。例如computer, computers, compute, computes
6、, computed, computational, computationally和computable,這些詞可被縮減為單個詞干:compute。,詞干和合并算法,通過將詞的形態(tài)變化縮減為其詞干的語言規(guī)范化的過程。,術(shù)語詞干,包含同義詞,拼寫錯誤,拼寫檢查使用三個基于不同算法和詞典的庫來進(jìn)行:Tumba!,JaSpell!和 Hunspell.拼寫檢查器適用于每個標(biāo)簽,那些錯別字將會被每個算法建議的拼寫正確的字所替換。如果沒有建議的單詞來替換拼寫錯誤的標(biāo)簽,很可能是因為拼寫檢查字典中不存在該標(biāo)簽,該標(biāo)簽將被丟棄。,拼寫錯誤,拼寫錯誤,拼寫錯誤,分眾分類中的網(wǎng)絡(luò)資源分類的標(biāo)簽過濾技術(shù)評價,2
7、5,結(jié) 論,社會化標(biāo)簽是由存儲在分眾分類法協(xié)同標(biāo)簽系統(tǒng)的集體知識組成的,它主要是用來方便訪問和瀏覽共享資源的。 在多元網(wǎng)絡(luò)資源數(shù)據(jù)信息(例如查詢條件,錨文本和標(biāo)簽)的條件下,本實驗使用標(biāo)準(zhǔn)化數(shù)據(jù)集而進(jìn)行。首先,與單獨使用上述提到的元數(shù)據(jù)所獲得的分?jǐn)?shù)和彼此結(jié)合使用上述提到的元數(shù)據(jù)所獲得的分?jǐn)?shù)相比較獲得基準(zhǔn)結(jié)果,以代表資源和幾個分類算法。其次,評估預(yù)處理操作以通過減少標(biāo)簽的模糊性和噪音來改善分類的質(zhì)量。使用詞干來減少單詞形態(tài)變化在分類上有著積極作用;同樣,包含擴展的縮寫表和非英文標(biāo)簽的翻譯的增強拼寫校對方法也有助于得到最好的分類結(jié)果。與此相反,簡單的將同義詞并入到資源代表中劣化了分類器的性能。,論文講完了!,