百度嚴格遵循搜索引擎Robots協議
您可以寫一個Robots文件以限制您的網站全部網頁或者部分目錄下網頁不被百度收錄。具體寫法,參見:如何撰寫Robots文件。
如果您的網站是在被百度收錄之后再設置Robots文件,則Robots文件通常在兩周內生效,被文件限制的內容,將從百度搜索結果中移除。
如果您的拒絕被收錄需求非常急迫,也可以發郵件給webmaster@baidu.com請求處理。
為什么我的網站內一些不設鏈接的私密性網頁,甚至是需要訪問權限的網頁,也會被百度收錄?
百度Spider對網頁的抓取,是通過網頁與網頁之間的鏈接實現的。
網頁之間的鏈接類型,除了站點內部的頁面鏈接之外,還有不同網站之間的互相鏈接。因此,某些網頁即便通過您的網站內部鏈接無法訪問到,但是,如果別人的網站上有指向這些頁面的鏈接,那么這些頁面還是會被搜索引擎所收錄。
百度Spider的訪問權限,和普通用戶是一樣的。因此,普通用戶沒有權限訪問的內容,Spider也沒有權限訪問。之所以看上去某些訪問權限限制內容被百度收錄,原因有兩點:
A. 該內容在Spider訪問時是沒有權限限制的,但抓取之后,內容的權限發生了變化
B. 該內容有權限限制,但是由于網站安全漏洞問題,導致用戶可以通過某些特殊路徑直接訪問。而一旦這樣的路徑被公布在互聯網上,則Spider就會循著這條路徑抓出受限內容
如果您不希望這些私密性內容被百度收錄,一方面可以通過Robots協議加以限制;另一方面,也可以聯系webmaster@baidu.com進行解決。