每一個(gè)搜索引擎的蜘蛛(baiduspider)訪問(wèn)一個(gè)站點(diǎn)時(shí),它首先爬行來(lái)巡查該站點(diǎn)根目錄下是否存在robots.txt。如果存在,蜘蛛(baiduspider)就會(huì)按照該協(xié)議(protocol)書(shū)上的規(guī)則來(lái)確定自己的訪問(wèn)范圍(fàn wéi);如果沒(méi)有robots.txt,那么蜘蛛就會(huì)沿著鏈接抓取,能否讓蜘蛛訪問(wèn),取決于Disallow和Allow,兩者可以同時(shí)使用。
Disallow用于描述(description)不希望被抓取和索引的一個(gè)URL,這個(gè)URL可以是一條完整的路徑。
常熟百度公司是按照給企業(yè)帶來(lái)潛在新客戶的訪問(wèn)量計(jì)費(fèi),企業(yè)可以根據(jù)自己的需要,靈活控制推廣力度和投入,使企業(yè)的網(wǎng)絡(luò)推廣投入獲得最大的回報(bào)!這有幾種不同定義和寫(xiě)法:
(1)Disallow:/AAA
任何以域名+Disallow描述(description)的網(wǎng)站內(nèi)容開(kāi)頭的URL均不會(huì)被蜘蛛(baiduspider)訪問(wèn),也就是說(shuō)以AAA目錄內(nèi)的文件均不會(huì)被蜘蛛(baiduspider)訪問(wèn);
(2)Disallow:/AAA/
則允許robots抓取和索引AAA/index.html,而不能抓取和索引AAA/admin.html;
(3)如果Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部分都允許被訪問(wèn)。常熟百度公司由于關(guān)鍵詞廣告是在特定關(guān)鍵詞的檢索時(shí),才出現(xiàn)在搜索結(jié)果頁(yè)面的顯著位置。如:企業(yè)主在百度注冊(cè)提交“BGSEM”這個(gè)關(guān)鍵詞,當(dāng)消費(fèi)者或網(wǎng)民尋找“BGSEM”的信息時(shí),企業(yè)就會(huì)優(yōu)先被找到,百度按照給實(shí)際點(diǎn)擊量(潛在客戶訪問(wèn)數(shù))收費(fèi),每次有效點(diǎn)擊收費(fèi)從幾毛錢(qián)到幾塊錢(qián)不等,由企業(yè)產(chǎn)品的競(jìng)爭(zhēng)激烈程度決定的。
常熟百度推廣通過(guò)注冊(cè)提交一定數(shù)量的關(guān)鍵詞,其推廣信息就會(huì)率先出現(xiàn)在網(wǎng)民相應(yīng)的搜索結(jié)果中。簡(jiǎn)單來(lái)說(shuō)就是當(dāng)用戶利用某一關(guān)鍵詞進(jìn)行檢索,在檢索結(jié)果頁(yè)面會(huì)出現(xiàn)與該關(guān)鍵詞相關(guān)的廣告內(nèi)容。
在robots.txt文件中,至少應(yīng)有Disallow記錄,如果robots.txt為空文件,則對(duì)所有的搜索引擎robot來(lái)說(shuō),該網(wǎng)站都是開(kāi)放的。
1、需要攔截子目錄中的某一個(gè)頁(yè)面之外的其他所有頁(yè)面,可以這么寫(xiě):
User-agent: *
Disallow: /AAA/
Allow: /AAA/index.html
這樣說(shuō)明了所有蜘蛛(baiduspider)只可以抓取/AAA/index.html的頁(yè)面,而/AAA/文件夾的其他頁(yè)面則不能抓取,還需要注意(attention)以下錯(cuò)誤的寫(xiě)法:
User-agent: *
Disallow: /AAA
Allow: /AAA/index.html
2、攔截搜索引擎對(duì)所有以admin開(kāi)頭的子目錄的訪問(wèn),寫(xiě)法:
User-agent: *
Disallow: /admin*/
3、要攔截對(duì)所有包含“?”號(hào)的網(wǎng)址的訪問(wèn),寫(xiě)法:
User-agent: *
Disallow: /*?*
4、要攔截以.asp結(jié)尾的網(wǎng)址,寫(xiě)法:
User-agent: *
Disallow:/*.asp$
5、只抓取.asp?的頁(yè)面,而.asp?=1,.asp?=2等等都不抓取,寫(xiě)法:
User-agent: *
Allow: /*?$
Disallow: /*?
6、屏蔽死鏈接,寫(xiě)法:
User-agent: *
Disallow: /404(死頁(yè)面).html