秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

《Python金融數(shù)據(jù)挖掘》-ppt課件第7章

上傳人:文**** 文檔編號(hào):252855198 上傳時(shí)間:2024-11-20 格式:PPTX 頁數(shù):49 大?。?.49MB
收藏 版權(quán)申訴 舉報(bào) 下載
《Python金融數(shù)據(jù)挖掘》-ppt課件第7章_第1頁
第1頁 / 共49頁
《Python金融數(shù)據(jù)挖掘》-ppt課件第7章_第2頁
第2頁 / 共49頁
《Python金融數(shù)據(jù)挖掘》-ppt課件第7章_第3頁
第3頁 / 共49頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《《Python金融數(shù)據(jù)挖掘》-ppt課件第7章》由會(huì)員分享,可在線閱讀,更多相關(guān)《《Python金融數(shù)據(jù)挖掘》-ppt課件第7章(49頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、,Python,金融數(shù)據(jù)挖掘,高等教育出版,第七章,Python,文本,挖掘,Python金融數(shù)據(jù)挖掘 高等教育出版第七章Python,【知識(shí)框架圖】,文本挖掘,基本概念,分詞,特征提取,文本分析,jieba,處理包,NLTK,處理包,詞云圖制作,語句情緒分析,【知識(shí)框架圖】文本挖掘基本概念分詞特征提取文本分析jieba,目錄,Contents,第一節(jié),基本概念,第二節(jié),文本分析處理,第三節(jié),案例,目錄Contents第一節(jié)基本概念第二節(jié)文本分析處理第三節(jié)案,本章,學(xué)習(xí)目標(biāo),分詞的概念與基本方法。,中文,jieba,處理包的應(yīng)用。,NLTK,自然語言處理包的應(yīng)用。,文件詞頻統(tǒng)計(jì)及制作詞云圖。,

2、文本特征分析、客戶言論評(píng)估及輿情反應(yīng)監(jiān)督應(yīng)用案例。,本章學(xué)習(xí)目標(biāo)分詞的概念與基本方法。,需求背景,文本挖掘是數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域。目前的研究成果已能夠使用文本挖掘算法對(duì)自然語言進(jìn)行統(tǒng)計(jì)分析,從而實(shí)現(xiàn)對(duì)字、詞、句子、篇章等語言單位進(jìn)行分析、統(tǒng)計(jì)、翻譯、語句情感色彩評(píng)估、語言風(fēng)格分辨等功能,甚至能夠模仿人創(chuàng)作文學(xué)作品。,在金融數(shù)據(jù)挖掘領(lǐng)域中,可以使用,Python,的自然語言處理包,對(duì)語言素材進(jìn)行統(tǒng)計(jì)分析,從而實(shí)施如分詞、數(shù)據(jù)提取、詞頻統(tǒng)計(jì)、詞云圖繪制及語句情緒色彩分析等文本挖掘工作。,需求背景文本挖掘是數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域。目前的研究成果已能,01,基本概念,01基本概念,3.1,基本,概念

3、,文本挖掘(,Text Mining,)和自然語言處理(,NLP,,,Natural Language Processing),是現(xiàn)代人工智能系統(tǒng)不可分割的一部分,。,眾所周知,,計(jì)算機(jī)擅長處理結(jié)構(gòu)化數(shù)據(jù),處理非結(jié)構(gòu)化的文本時(shí),就會(huì)變得很困難,。,自然語言,屬于典型的非結(jié)構(gòu)化數(shù)據(jù),并且語言交流方式也有許多變化和差異,例如方言、語境、俚語等,因此,研發(fā),NLP,應(yīng)用程序是一種挑戰(zhàn),同時(shí)也激發(fā)了眾多研究者的興趣,。,隨著,NLP,技術(shù)和機(jī)器學(xué)習(xí)的日趨成熟,計(jì)算機(jī)理解自然語言的目標(biāo)已逐漸成為現(xiàn)實(shí)。,3.1 基本概念,文本挖掘的一般過程如圖,7-2,所示。,數(shù)據(jù)源,文本數(shù)據(jù)庫,網(wǎng)頁等,預(yù)處理,分詞,噪

4、音詞,詞性標(biāo)記,特征提取,挖掘分析,文本結(jié)構(gòu)分析,文本摘要,文本分類,文本聚類,關(guān)聯(lián)分析,分布分析,趨勢(shì)預(yù)測(cè),數(shù)據(jù),集,市,可視化,圖,7,-,2,文本挖掘的一般過程,文本挖掘的一般過程如圖 7-2所示。數(shù)據(jù)源預(yù)處理挖掘分析數(shù)據(jù),文本挖掘過程包含的技術(shù)主要有:數(shù)據(jù)預(yù)處理(重點(diǎn)是分詞技術(shù)、文本特征提?。?、詞性標(biāo)記、信息檢索、文本挖掘、文本分類、文本聚類、關(guān)聯(lián)分析、語義解釋、語言翻譯等,。,目前的分詞預(yù)處理技術(shù)主要有基于字符串匹配(詞典)的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法。,文本挖掘過程包含的技術(shù)主要有:數(shù)據(jù)預(yù)處理(重點(diǎn)是分詞技術(shù)、文,1,.,基于,字符串匹配(詞典)的分詞,算法,

5、所謂,基于詞典的意思是,按照一定的策略將待分析的漢字字符串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞),。,查找,匹配的算法來源于經(jīng)典的字符串匹配算法,包括正向最大匹配、正向最小匹配、逆向匹配及逐詞遍歷匹配法等。這類算法的特點(diǎn)是易于實(shí)現(xiàn),設(shè)計(jì)簡單,。,但,分詞的正確性很大程度上取決于所建的詞庫。,1.基于字符串匹配(詞典)的分詞算法,2,.,基于,統(tǒng)計(jì)的分詞,技術(shù),這種,技術(shù)用一個(gè)條件概率(出現(xiàn)頻率)的表格取代前述算法的詞庫,。,首先,對(duì)大量的文本素材進(jìn)行掃描統(tǒng)計(jì),將素材中任意前后緊鄰的兩個(gè)字作為一個(gè)詞進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì)。在素材中某個(gè)組合出現(xiàn)

6、的次數(shù)越高,那么這個(gè)組合是一個(gè)詞語單位的可能性就越大,在頻率超過某個(gè)預(yù)先設(shè)定的閾值時(shí),就將其作為一個(gè)詞進(jìn)行索引,并記錄下這種組合出現(xiàn)的概率,。,當(dāng),新的文本被提交進(jìn)行分詞時(shí),相鄰的字可能有若干種不同的方式組合成詞。按照統(tǒng)計(jì)生成的概率表格,選擇組合概率最大的那一種作為分詞的方案。,2.基于統(tǒng)計(jì)的分詞技術(shù),3,.,基于,理解的分詞,方法,這種,分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果,。,其,基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象,。,它,通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞

7、、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息,。,由于,漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。,3.基于理解的分詞方法,以文本分詞后的詞語素材為基礎(chǔ),進(jìn)一步可以進(jìn)行的工作主要包括,:,文本詞性標(biāo)注,文本摘要,文本分類,文本聚類,文本可視化,以文本分詞后的詞語素材為基礎(chǔ),進(jìn)一步可以進(jìn)行的工作主要包括:,02,文本分析處理,02文本分析處理,2.1,英文,處理,NLTK,(,Natural Language Toolkit,,自然語言工具包)是采用,

8、Python,語言開發(fā)的,目前最為廣泛的用于英文文本分析、挖掘的開發(fā)工具包,。,NLTK,由賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)系的,Steven Bird,和,Edward Loper,開發(fā),是一個(gè)開源的自然語言分析處理項(xiàng)目,其官方主頁為:,http:/www.nltk.org/,。,2.1 英文處理,我們可以在,Anoconda Prompt,命令行窗口安裝,NLTK,:,conda,install,ntlk,首次,運(yùn)行,NLTK,相關(guān)代碼,時(shí)需要安裝模塊,,如圖,7-3,所示,。我們,直接在代碼里指定代碼所需要模塊,針對(duì)性地下載特定內(nèi)容,可以節(jié)省下載的時(shí)間。,圖 7-3 NLTK模塊下載,我們

9、可以在Anoconda Prompt命令行窗口安裝NLT,1,.,分割,句子與單詞,使用,NLTK,我們可以將段落分割成句子,將句子分割成單個(gè),詞。,【,例,2-1,】,演示了利用,NLTK,提供的句子和單詞分割器,(tokenizer),來分詞的方法。,1.分割句子與單詞,繼續(xù):,第,17-19,行使用了標(biāo)點(diǎn)符號(hào)分割器,PunktSentenceTokenizer,將段落分割成句子。,第,22-23,行使用句子分割器,sent_tokenize,完成類似的工作。第,26-28,行使用了單詞分割器,word_tokenize,將句子分割成單詞。這些分割器對(duì)于非英語的語言文字同樣有效。,繼續(xù):第

10、17-19行使用了標(biāo)點(diǎn)符號(hào)分割器PunktSente,輸出結(jié)果:,輸出結(jié)果:,2.,詞干,提取,以英語為例,單詞有單、復(fù)數(shù)形式的變化、時(shí)態(tài)的變化、語態(tài)的變化;還可以通過前綴、后綴生成新詞、轉(zhuǎn)換詞性。例如,working,、,works,、,worked,的詞干同為,work,。,詞干提取是去除詞綴得到詞根的過程,,NLTK,有一個(gè)名為,PorterStemmer,的類來完成這項(xiàng)工作,。,下面看看這個(gè),算法的應(yīng)用例子。,2.詞干提取,【,例,7-2,】,詞干,提取案例,【例 7-2】詞干提取案例,3.,同義詞,和反義詞處理,WordNet,是,NLTK,中一個(gè)為自然語言處理而建立的數(shù)據(jù)庫,它包括

11、同義、反義詞組和單詞的定義。類似于一個(gè)英語語言詞典。,【,例,7-3】,可以獲取某個(gè)給定單詞的定義、示例,查詢同義、反義詞。,3.同義詞和反義詞處理,繼續(xù):,繼續(xù):,輸出結(jié)果:,輸出結(jié)果:,2.2,中文,處理,中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟。不同于英文的是,中文句子中沒有詞的界限,因此在進(jìn)行中文自然語言處理時(shí),通常需要先進(jìn)行分詞,。,分,好的詞再組合成詞組,作為后續(xù)句子分析和處理的基礎(chǔ)。,2.2 中文處理,分詞效果將直接影響詞性、句法樹等模塊的效果??匆粋€(gè)簡單的中文句子,:,北京大學(xué),畢業(yè)生于昨日來,Python,公司,應(yīng)聘,這樣,的句子正常地理解應(yīng)該是這樣,:,北京大學(xué),/,畢業(yè)生,/

12、,于,/,昨日,/,來,/Python,公司,/,應(yīng)聘,但是,對(duì)于計(jì)算機(jī)來說,劃分,成:,北京,/,大學(xué)畢業(yè)生,/,于昨日(人名),/,來,/Python,公司,/,應(yīng)聘,分詞效果將直接影響詞性、句法樹等模塊的效果。看一個(gè)簡單的中文,在中文環(huán)境下,我們主要利用基于統(tǒng)計(jì)結(jié)果進(jìn)行中文分詞。首先對(duì)海量的中文語料庫進(jìn)行統(tǒng)計(jì),得到詞語與詞語組合的出現(xiàn)概率;然后按照這個(gè)概率的高低,對(duì)待分析的句子中的詞和詞的組合進(jìn)行取舍。,目前,有不少可以對(duì)中文或其他語言進(jìn)行分詞的工具。,jieba,分詞工具是其中較為常用的一種,。,jieba,項(xiàng)目在,Python,的官網(wǎng)地址是:,https:/pypi.python.o

13、rg/pypi/jieba/,項(xiàng)目,主頁是:,https:/ jieba/pip3 install,jieba,進(jìn)入Python命令行后,執(zhí)行以下命令。,jieba,分詞分為三種模式:,1.,精確模式(默認(rèn)):試圖將句子最精確地切開,適合文本分析;,2.,全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義;,3.,搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率,適合用于搜索引擎分詞。,jieba分詞分為三種模式:,【,例,7-4,】,使用,jieba,分詞工具對(duì)“北京大學(xué)畢業(yè)生于昨日來,Python,公司應(yīng)聘”進(jìn)行分詞。,In5:,對(duì)分詞結(jié)果的詞語進(jìn)行了

14、逐項(xiàng)詞性標(biāo)注,其具體含義請(qǐng)參見本書附錄,B,。,【例 7-4】使用jieba分詞工具對(duì)“北京大學(xué)畢業(yè)生于昨日,【,例,7-5】,用,jieba,來提取,舌尖上的中國,中某一集解說詞出現(xiàn)頻率最高的,20,個(gè)中文詞語,。,第,4,行讀入,txt,文本素材文件。第,6,行,jieba.cut(shejian),對(duì)讀入的文本素材進(jìn)行分詞,將所有長度大于,2,的分詞結(jié)果放入,shejian_words,中,。,第,7,行對(duì)各個(gè)詞語的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率最高的,20,個(gè)詞放入,c,當(dāng)中,最后輸出,c,。,【例 7-5】用jieba來提取舌尖上的中國中某一集解說,2.3,詞,云圖,詞云圖是由詞匯組成

15、類似云的彩色圖形,利用詞云圖可以過濾掉文章大量無關(guān)緊要的文本信息,使瀏覽者能夠很直觀快捷地憑借視覺感官提取文本中的主題內(nèi)容,,如下圖所,示。,2.3 詞云圖,【,例,7 6】,所示代碼,便可生成詞,云圖。,首先安裝包:在,Anaconda Prompt,命令行窗口安裝,wordcloud,包和用于背景圖像文件讀取的,imageio,包,:,pip,install,wordcloud,conda,install,imageio,【例 7 6】所示代碼,便可生成詞云圖。,運(yùn)行程序:,首先為項(xiàng)目導(dǎo)入必要的包,再將素材文件讀入到,content,變量中。第,10-11,行調(diào)用,jieba.analys

16、e.extract_tags,將,content,中出現(xiàn)頻度排在前,200,位的單詞以列表,List,存入,tags,中,再將其轉(zhuǎn)換為空格分隔的文本對(duì)象,text,。第,13,行讀入預(yù)先準(zhǔn)備好的中國地圖圖像文件作為詞云圖的底圖。第,15-18,行設(shè)置,WordCloud,詞云圖對(duì)象,第,20-21,行以,text,對(duì)象數(shù)據(jù)生成詞云圖。最后輸出顯示和文件保存。,運(yùn)行程序:首先為項(xiàng)目導(dǎo)入必要的包,再將素材文件讀入到cont,輸出結(jié)果:,圖 7-5 舌尖詞云圖,輸出結(jié)果:圖 7-5 舌尖詞云圖,03,案例,03案例,本節(jié)我們將介紹一個(gè)利用文本挖掘工具對(duì)股票評(píng)論的標(biāo)題內(nèi)容進(jìn)行情緒分析,生成每天股評(píng)標(biāo)題量化情緒分?jǐn)?shù)的波動(dòng)與滬深兩市的指數(shù)波動(dòng)情況進(jìn)行對(duì)比分析結(jié)果。,這個(gè)綜合應(yīng)用的例子需要用到,SnowNLP,包,這個(gè)包由中國人研發(fā)。該工具可以對(duì)中文句子進(jìn)行情感分析,針對(duì)每個(gè)句子進(jìn)行打分,每個(gè)句子的得分在,0-1,(,0,表示消極,,1,表示積極)之間,對(duì)應(yīng)了消極到積極的情緒變化,。,在,Anoconda Prompt,命令行窗口輸入以下命令安裝,SnolNLP,包:,pip install,sno

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!