秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

大連理工大學爬蟲

上傳人:緣*** 文檔編號:24502015 上傳時間:2021-07-01 格式:PPT 頁數(shù):27 大小:2MB
收藏 版權(quán)申訴 舉報 下載
大連理工大學爬蟲_第1頁
第1頁 / 共27頁
大連理工大學爬蟲_第2頁
第2頁 / 共27頁
大連理工大學爬蟲_第3頁
第3頁 / 共27頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《大連理工大學爬蟲》由會員分享,可在線閱讀,更多相關(guān)《大連理工大學爬蟲(27頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、劉文飛2014-10-29 2 2021-7-1 l 網(wǎng)絡爬蟲又稱網(wǎng)絡蜘蛛,網(wǎng)絡機器人。l 網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。爬蟲一般從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。網(wǎng)絡爬蟲的定義 3 2021-7-1 l 非定向爬蟲 爬取互聯(lián)網(wǎng)上任何基于Http協(xié)議的內(nèi)容 工具:Larbin、Ncrawler,Heritrix、Nutchl 定向爬蟲 根據(jù)網(wǎng)站自身的屬性采用特定的爬取策略 工具包:HttpClient(Java和C#均已攜帶封

2、裝好的類庫)爬蟲分類 4 2021-7-1 l HTTP:Hyper Text Transfer Protocol(超文本傳輸協(xié)議)l 萬維網(wǎng)協(xié)會和Internet工作小組,1999年6月發(fā)布了RFC 2616,定義了今天普遍使用的HTTP/1.1l HTTP協(xié)議是用于從WWW服務器傳輸超文本到本地瀏覽器的傳送協(xié)議,屬于應用層協(xié)議,由請求和響應構(gòu)成,是一個標準的客戶端服務器模型HTTP協(xié)議 5 2021-7-1 l HTTP協(xié)議通常承載于TCP協(xié)議之上,有時也承載于TLS或SSL協(xié)議層之上(這就是所說的HTTPS)l 默認HTTP端口為80,HTTPS端口為443HTTP在TCP/IP協(xié)議棧中

3、的位置 6 2021-7-1 l HTTP協(xié)議永遠都是客戶端發(fā)起請求,服務器回送響應(無法推送)l HTTP協(xié)議是一個無狀態(tài)的協(xié)議,同一個客戶端的這次請求和上次請求沒有對應關(guān)系(Cookie & Session)HTTP的請求響應模型 7 2021-7-1 l (1)首先客戶端與服務器需要建立連接(只要單擊某個超鏈接,HTTP 的工作就開始了)l (2)建立連接后,客戶機向服務器發(fā)送請求l (3)服務器接收到請求后,給予相應的相應信息l (4)客戶端接受服務器所返回的信息通過瀏覽器顯示在用戶顯示屏上, 然后客戶端與服務器斷開連接HTTP協(xié)議工作流程 8 2021-7-1 l HTPP請求由三個

4、部分組成:請求行、消息報頭、請求正文HTTP協(xié)議之請求 9 2021-7-1 l 請求行:Method Request-URI HTTP-Version CRLF 例:GET /index.jsp HTTP/1.1 (CRLF) GET 請求獲取Request-URI所標識的資源POST 在Request-URI所標識的資源后附加新的數(shù)據(jù)HEAD 請求獲取由Request-URI所標識的資源的響應消息報頭PUT 請求服務器存儲一個資源,并用Request-URI作為其標識DELETE 請求服務器刪除Request-URI所標識的資源TRACE 請求服務器回送收到的請求信息,主要用于測試或診斷C

5、ONNECT 保留將來使用OPTIONS 請求查詢服務器的性能,或者查詢與資源相關(guān)的選項和需求HTTP協(xié)議之請求 請求行 10 2021-7-1 l Accept:瀏覽器可接受的MIME類型。l Accept-Charset:瀏覽器可接受的字符集。l Accept-Encoding:瀏覽器能夠進行解碼的數(shù)據(jù)編碼方式,比如gzipl Accept-Language:瀏覽器所希望的語言種類l Authorization:授權(quán)信息l Connection:表示是否需要持久連接l Content-Length:表示請求消息正文的長度。l Cookie:這是最重要的請求頭信息之一l Host:初始URL

6、中的主機和端口l Referer:跳轉(zhuǎn)前URLl User-Agent:瀏覽器類型及系統(tǒng)信息HTTP協(xié)議之請求 消息報頭 11 2021-7-1 l HTPP響應由三個部分組成:狀態(tài)行、消息報頭、響應正文HTTP協(xié)議之響應 12 2021-7-1 l 狀態(tài)行: HTTP-Version Status-Code Reason-Phrase CRLF 例: HTTP/1.1 200 OK (CRLF)狀態(tài)代碼有三位數(shù)字組成,第一個數(shù)字定義了響應的類別,且有五種可能取值:1xx:指示信息-表示請求已接收,繼續(xù)處理2xx:成功-表示請求已被成功接收、理解、接受3xx:重定向-要完成請求必須進行更進一步

7、的操作4xx:客戶端錯誤-請求有語法錯誤或請求無法實現(xiàn)5xx:服務器端錯誤-服務器未能實現(xiàn)合法的請求HTTP協(xié)議之響應 狀態(tài)行 13 2021-7-1 l 常見狀態(tài)代碼、狀態(tài)描述、說明: 200 OK /客戶端請求成功400 Bad Request /客戶端請求有語法錯誤,不能被服務器所理解401 Unauthorized /請求未經(jīng)授權(quán),這個狀態(tài)代碼必須和WWW-Authenticate報頭域一起使用 403 Forbidden /服務器收到請求,但是拒絕提供服務404 Not Found /請求資源不存在,eg:輸入了錯誤的URL500 Internal Server Error /服務器

8、發(fā)生不可預期的錯誤503 Server Unavailable /服務器當前不能處理客戶端的請求,一段時間后可能恢復正常HTTP協(xié)議之響應 狀態(tài)行 14 2021-7-1 l Location:用于重定向接受者到一個新的位置l Server:服務器用來處理請求的軟件信息HTTP協(xié)議之響應 消息報頭 15 2021-7-1 l Session機制是一種服務器端保存用戶狀態(tài)的機制,服務器使用一種類似于散列表的結(jié)構(gòu)來保存信息。(比如未登錄狀態(tài)下購物車的實現(xiàn))l 客戶端維護Session ID的方式 Cookie URL重寫 表單隱藏字段HTTP相關(guān)知識點 - Session 16 2021-7-1

9、l Cookies是客戶端保存狀態(tài)的一種方案 會話性質(zhì)的cookie,存放在瀏覽器內(nèi)存 持久化的cookie,存放在硬盤上l Cookies可以記錄你的用戶ID、密碼、瀏覽過的網(wǎng)頁、停留的時間等信息。當你再次來到該網(wǎng)站時,網(wǎng)站通過讀取Cookies,得知你的相關(guān)信息,就可以做出相應的動作(如在頁面顯示歡迎你的標語,或者讓你不用輸入ID、密碼就直接登錄等等) HTTP相關(guān)知識點 - Cookies 17 2021-7-1 l HTTP壓縮是在Web服務器和瀏覽器間傳輸壓縮文本內(nèi)容的方法。l HTTP壓縮傳輸能更加有效節(jié)約帶寬流量。l HTTP壓縮采用通用的壓縮算法如gzip等壓縮HTML、Jav

10、aScript或CSS文件。l 網(wǎng)頁壓縮情況查詢:http:/ 壓縮 18 2021-7-1 l JSON 即 JavaScript Object Natation,它是一種輕量級的數(shù)據(jù)交換格式,非常適合于服務器與 JavaScript 的交互l JSON 是基于純文本的數(shù)據(jù)格式。由于 JSON 天生是為 JavaScript 準備的,因此,JSON 的數(shù)據(jù)格式非常簡單,可以用 JSON 傳輸一個簡單的 String,Number,Boolean,也可以傳輸一個數(shù)組,或者一個復雜的 Object 對象。HTTP相關(guān)知識點 - JSON 19 2021-7-1 l 爬蟲抓取策略l 網(wǎng)頁地址過濾l

11、 網(wǎng)頁更新去重l 網(wǎng)頁解析l 多線程并發(fā)爬取爬蟲流程 20 2021-7-1 l 深度優(yōu)先搜索策略l 廣度優(yōu)先搜索策略l 最佳優(yōu)先搜索策略 可能根據(jù)主題相似度、反向鏈接數(shù)、PR值等策略爬蟲抓取策略 21 2021-7-1 l 正則表達式 可以過濾非正規(guī)的網(wǎng)址、無需下載的文件(后綴名)或特定域名下的網(wǎng)頁l 建立IP規(guī)則庫 如若建立校內(nèi)搜索引擎,則在爬取時將所有非校內(nèi)IP過濾掉網(wǎng)頁地址過濾 22 2021-7-1 l 歷史參考策略 據(jù)頁面以往的歷史更新數(shù)據(jù),預測該頁面未來何時會發(fā)生變化。l 用戶體驗策略 根據(jù)用戶點擊信息優(yōu)先爬取質(zhì)量較高/關(guān)注度高的頁面l 聚類抽樣策略 無需保存歷史信息,解決冷啟動

12、問題(無歷史信息的網(wǎng)頁)網(wǎng)頁更新策略 23 2021-7-1 l MD5值比較法 缺點:精確匹配才算重復l 網(wǎng)頁指紋法網(wǎng)頁去重策略 24 2021-7-1 l 主要內(nèi)容抽取 TIKA,可抽取HTML, PDF, MS-*, Image(元數(shù)據(jù)), XML等 Lucene提供工具包抽取HTML(較粗糙,容易出錯) cx-extractor,基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取算法(哈工大)http:/ 特定內(nèi)容抽取 Java:HTMLParser C#:Winista.HtmlParser網(wǎng)頁解析 25 2021-7-1l 多線程中主要問題 網(wǎng)絡帶寬 服務器對爬蟲請求頻率的限制 異常處理(多次爬取、日志記錄) 多線程并發(fā)爬取 26 2021-7-1 l robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應被搜索引擎的漫游器獲取的,哪些是可以被獲取的。爬蟲相關(guān)知識點 robots.txt 27 2021-7-1

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔

相關(guān)搜索

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!