了解過(guò)搜索引擎爬蟲(chóng)抓取爬行的可能會(huì)有一個(gè)比較清晰的答案,是的就是幫助爬蟲(chóng)盡可能的抓取頁(yè)面,只有被讀取到的頁(yè)面才有可能被收錄。
扁平化的結(jié)構(gòu)將網(wǎng)站的頁(yè)面盡可能的直接展示在蜘蛛爬蟲(chóng)面前或者很容易被爬蟲(chóng)發(fā)現(xiàn),不需要一個(gè)層級(jí)一個(gè)層級(jí)的深入挖掘,除非知名站點(diǎn)或大型網(wǎng)站能夠享有這種特權(quán)。因?yàn)檎麄€(gè)互聯(lián)網(wǎng)的數(shù)據(jù)量是相當(dāng)龐大的,而每天更新的信息量現(xiàn)有的蜘蛛資源都很難去實(shí)現(xiàn)完全抓取,還有些頁(yè)面每天會(huì)被蜘蛛重復(fù)抓取,所以這就需要蜘蛛舍棄一些,所以也就出現(xiàn)了抓取策略,對(duì)低質(zhì)量的網(wǎng)站降低抓取量,很難發(fā)現(xiàn)新頁(yè)面的網(wǎng)站將資源全都消耗在頁(yè)面的重復(fù)抓取上面。
贊
5
有一點(diǎn)幫助
1
沒(méi)有幫助
參與評(píng)論