今天西安網(wǎng)絡(luò)推廣和大家介紹一下爬蟲的分類有哪些!
1、通用網(wǎng)絡(luò)爬蟲:通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬行對象從一些種子 URL 擴充到整個 Web,主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。 由于商業(yè)原因,它們的技術(shù)細(xì)節(jié)很少公布出來。 這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大,對于爬行速度和存儲空間要求較高,對于爬行頁面的順序要求相對較低,同時由于待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。 雖然存在一定缺陷,通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題,有較強的應(yīng)用價值。
2、聚焦網(wǎng)絡(luò)爬蟲:聚焦網(wǎng)絡(luò)爬蟲,又稱主題網(wǎng)絡(luò)爬蟲是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。 和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。
3、增量式網(wǎng)絡(luò)爬蟲:增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁 采 取 增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。 和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比,增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面 ,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,及時更新已爬行的網(wǎng)頁,減小時間和空間上的耗費,但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。
4、Deep Web 爬蟲:Web 頁面按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁。 表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的 Web 頁面。Deep Web 是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁面。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪問信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
西安云擎網(wǎng)絡(luò)咨詢熱線:18182623537,云擎網(wǎng)絡(luò)用七年時間的專注于西安網(wǎng)站推廣、整站優(yōu)化、關(guān)鍵詞優(yōu)化、網(wǎng)站建設(shè)、優(yōu)化 專業(yè)公司;1000家推廣案例,熟練掌握網(wǎng)絡(luò)推廣的方法及網(wǎng)絡(luò)營銷方案策劃。
相關(guān)新聞Related news
- 網(wǎng)絡(luò)推廣-軟文推廣的技巧與方法[ 2022-08-25 ]
- 什么是網(wǎng)絡(luò)推廣?為何要做網(wǎng)絡(luò)推廣?[ 2022-08-16 ]
- 2022年主流的網(wǎng)絡(luò)推廣方式有哪些[ 2022-08-15 ]
- 如何進(jìn)行網(wǎng)絡(luò)推廣?[ 2022-04-25 ]
- 百度競價推廣你知道有那三不投嗎?[ 2022-04-12 ]
- 做百度競價推廣,通過網(wǎng)站有效提升咨[ 2022-04-06 ]
- 2022年做好關(guān)鍵詞優(yōu)化,必須注意[ 2022-04-06 ]
- 企業(yè)網(wǎng)絡(luò)推廣方法有哪些?[ 2022-03-31 ]
- 西安網(wǎng)絡(luò)推廣-網(wǎng)絡(luò)營銷是什么?[ 2021-03-25 ]
- 西安網(wǎng)站推廣:新站怎么提升流量[ 2020-11-30 ]