百度用于抓取網(wǎng)頁(yè)的程序(procedure)叫做Baiduspider - 百度蜘蛛(baiduspider),我們查看(view)網(wǎng)站(website)被百度抓取的情況主要是分析(Analyse),網(wǎng)站日志里百度蜘蛛Baiduspider的活躍(Active)性:抓取頻率(frequency),返回的HTTP狀態(tài)(state)碼。
查看(view)日志的方式(fāng shì):
通過(guò)( tōng guò)FTP,在網(wǎng)站根目錄找到一個(gè)日志文件,文件名一般包含(bāo hán)log,下載解壓里面的記事本,這即是網(wǎng)站的日志,記錄了網(wǎng)站被訪問(wèn)(fǎng wèn)和操作(cāo zuò)的情況(qíng kuàng)。
因?yàn)楦鱾€(gè)服務(wù)(service)器和主機(jī)的情況(qíng kuàng)不同,不同的主機(jī)日志功能(Funcyusa)記錄的網(wǎng)站內(nèi)容不同的甚至沒(méi)有日志功能。
常熟做網(wǎng)站不僅僅是提供域名注冊(cè)、空間租用、網(wǎng)站開(kāi)發(fā)、網(wǎng)站建設(shè)與網(wǎng)絡(luò)營(yíng)銷策劃相關(guān)的企業(yè)組織。只要關(guān)于網(wǎng)絡(luò)方面的問(wèn)題,可以提供給用戶解決問(wèn)題的,都可以成為網(wǎng)絡(luò)公司。
日志網(wǎng)站內(nèi)容如下:
61.135.168.22 - - [11/Jan/200
9:0
4:0
2:45 +0800] "GET //thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+search/spider.htm)"
分析:
GET //thread-7303-1-1.html 代表,抓取//thread-7303-1-1.html 這個(gè)頁(yè)面。
常熟做網(wǎng)站不僅僅是提供域名注冊(cè)、空間租用、網(wǎng)站開(kāi)發(fā)、網(wǎng)站建設(shè)與網(wǎng)絡(luò)營(yíng)銷策劃相關(guān)的企業(yè)組織。只要關(guān)于網(wǎng)絡(luò)方面的問(wèn)題,可以提供給用戶解決問(wèn)題的,都可以成為網(wǎng)絡(luò)公司。
200 代表成功(success)抓取。
8450 代表抓取了8450個(gè)字節(jié)。
如果你的日志里格式(form )不是如此,則代表日志格式設(shè)置(shè zhì)不同。
很多日志里可以看到 200 0 0和200 0 64 則都代表正常(zhèng cháng)抓取。
抓取頻率(frequency)是通過(guò)( tōng guò)查看每日的日志里百度蜘蛛(baiduspider)抓取次數(shù)(time)來(lái)獲知。
常熟做網(wǎng)站不僅僅是提供域名注冊(cè)、空間租用、網(wǎng)站開(kāi)發(fā)、網(wǎng)站建設(shè)與網(wǎng)絡(luò)營(yíng)銷策劃相關(guān)的企業(yè)組織。只要關(guān)于網(wǎng)絡(luò)方面的問(wèn)題,可以提供給用戶解決問(wèn)題的,都可以成為網(wǎng)絡(luò)公司。抓取頻率并沒(méi)有一個(gè)標(biāo)準(zhǔn)的時(shí)間表或頻率數(shù)字,我們一般通過(guò)多日的日志對(duì)比來(lái)判斷(pàn duàn)。當(dāng)然,我們希望百度蜘蛛每日抓取的次數(shù)越多越好。