網(wǎng)站蜘蛛文件robots.txt是搜索引擎訪問網(wǎng)站時要查看的第一個文件,它告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的,什么文件是被禁止抓取的。
當(dāng)搜索蜘蛛訪問一個網(wǎng)站時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果文件存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來抓取允許訪問的內(nèi)容;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被禁止的頁面。
robots.txt必須放在網(wǎng)站的根目錄下,而且文件名必須全部小寫。

robots是站點(diǎn)與spider搜索引擎蜘蛛溝通的重要渠道,站點(diǎn)通過robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。
Robots使用說明
1、robots.txt可以告訴百度等搜索引擎您網(wǎng)站的哪些頁面可以被抓取,哪些頁面不可以被抓取。
2、Robots工具目前支持48k的文件內(nèi)容檢測,請保證您的robots.txt文件不要過大,目錄最長不超過250個字符。
robots.txt使用技巧
1、避免在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取,這樣并不會增加網(wǎng)站的收錄率。
2、在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引的文件。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、js文件、css樣式表文件、模板文件和背景圖片等。 這些文件不會增加網(wǎng)站的收錄率,還會浪費(fèi)服務(wù)器資源。
3、如果網(wǎng)站是動態(tài)網(wǎng)頁,并且為這些動態(tài)網(wǎng)頁生成了靜態(tài)頁面,以供搜索蜘蛛更容易抓取。那么需要在robots.txt文件里設(shè)置避免動態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會被視為含重復(fù)內(nèi)容。
4、robots.txt文件里是可以直接引用sitemap網(wǎng)站地圖文件的。例如:
Sitemap: http://m.hqbet6017.com/sitemap.xml
這樣做的好處就是,搜索引擎的蜘蛛抓取robots.txt文件時,會讀取其中的sitemap路徑,從而順利抓取其中各個鏈接的網(wǎng)頁。
這樣做的好處就是,搜索引擎的蜘蛛抓取robots.txt文件時,會讀取其中的sitemap路徑,從而順利抓取其中各個鏈接的網(wǎng)頁。
關(guān)于robots.txt的更多相關(guān)資料可參考:https://ziyuan.baidu.com/college/courseinfo?id=267&page=12
微萬品牌建站可為每個客戶免費(fèi)制作、檢測robots文件,以確保搜索引擎正確的抓取網(wǎng)站頁面。如需新建網(wǎng)站、網(wǎng)站改版、網(wǎng)站托管等服務(wù),歡迎與我們聯(lián)系!