亚洲欧美日韩国产综合在线,成人在线观看午夜,99www免费人成精品

今天，推來客與你分享當你開始建立一個網(wǎng)站時應該理解的第一件事，也就是在訪問一個網(wǎng)站時應該訪問的第一件事?？隙ㄓ腥瞬碌绞鞘裁戳恕]錯，就是機器人的功能和寫法。

一、什么是機器人？有什么用？

“機器人”被一些同行稱為“蘿卜絲“，是搜索引擎的機器協(xié)議。全稱是“網(wǎng)絡(luò)爬蟲排除協(xié)議”。該網(wǎng)站通過機器人協(xié)議告訴搜索引擎哪些頁面可以被抓取，哪些頁面不能被抓取。

因為網(wǎng)站的很多目錄如果被抓取的話是有風險的，或者是因為盈利原因無法抓取的，所以有必要告訴蜘蛛俠你的網(wǎng)站是否被允許。

Robots放在網(wǎng)站根目錄下，名字叫robots.txt

二、機器人有哪些指令？

機器人的指令很簡單。只有三個說明。一般我們也會把地圖放在上面，這樣蜘蛛抓到機器人后就可以直接沿著地圖爬了。

用戶代理：該指令定義了該指令的下列內(nèi)容對哪些蜘蛛有效。默認情況下，所有蜘蛛都可以爬行。如果此指令指定了特定的蜘蛛，則此指令后面的內(nèi)容對特定的蜘蛛有效。

Disallow:這個指令定義了哪些蜘蛛是禁止爬行的，因為有些人可能認為網(wǎng)站肯定想被爬行。不對，如果是背景或者私人文件，我相信沒有人愿意被搶。

Allow:該指令定義允許蜘蛛捕捉什么內(nèi)容。如果某些內(nèi)容被允許，而其他內(nèi)容被拒絕，則可以使用該指令。大多數(shù)網(wǎng)站只使用禁止說明。

Sitemap:顧名思義，就是我們常說的站點地圖。這里就不詳細介紹站點地圖了，推來客的WEO會在下一節(jié)詳細介紹站點地圖的功能和用法。我們把站點地圖放在Robots下面，方便蜘蛛直接訪問Robots的時候訪問你的地圖。

第三，機器人的書寫方式

1.用戶代理：用于定義蜘蛛名稱：常見的蜘蛛名稱包括Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、搜狗網(wǎng)蜘蛛、搜狗inst ?spider、搜狗蜘蛛2、搜狗博客、搜狗新聞蜘蛛、搜狗獵戶座蜘蛛、Sosospider、盤古蜘蛛、JikeSpider、yisouspider、EasouSpider。

2、禁止：

用來定義什么是不允許蜘蛛爬行的。在機器人中最難使用的東西，也是最常見的問題就是allow命令?；蛘哒麄€機器人的本質(zhì)在于不允許。如果你很好地學習了這個指令的用法，你就能寫出完美的機器人。這里我將列出一些最常用的不允許用法。

嚴禁搶全站：

不允許： /

Disallow: /woniuseo/

禁止在根目錄下的woniuseo目錄中抓取單個頁面的woniuseo.html:

不允許：/woniuseo/woniuseo.html

禁止全站遏制？已爬網(wǎng)的頁面：

不允許： /*？*

禁止包含woniuseo的頁面在全站被抓??；

不允許： /*woniuseo*

帶后綴的頁面。禁止對整個站點中的aspx進行爬網(wǎng)：

Disallow: /*。aspx$

禁止對帶后綴的文件進行爬網(wǎng)。全站jpg:

Disallow:/*。jpb$

3.Allow:

Allow命令通常不會單獨使用。Allow命令通常允許首先對目錄進行爬網(wǎng)，然后禁止對所有其他頁面進行爬網(wǎng)。

允許對所有頁面進行爬網(wǎng)：

Allow: /

允許對woniuseo目錄進行爬網(wǎng)：

Allow: /woniuseo/

允許爬行。html頁面：

Allow: /*。html$

允許抓取。jpg圖片：

Allow: /*。jpg$

第四，機器人的應用

推來客

自己的網(wǎng)站的robots文件是這樣寫的：

　　User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /

　　sitemap:http://www.woniuseo.com/sitemap.xml

　　禁止所有搜索引擎抓取所有頁面：

　　User-agent: *

　　Disallow: /

　　這種情況一般用在新站建好還沒正式上線，不希望蜘蛛抓取時。

　　禁止百度蜘蛛抓取所有頁面：

　　User-agent: Baiduspider

　　Disallow: /

　　淘寶就因為與百度的利益關(guān)系，從2008年就禁止百度抓取它所有頁面了。

　　僅允許百度蜘蛛抓取所有頁面：

　　User-agent: Baiduspider

　　Allow: /

　　User-agent: *

　　Disallow: /

　　禁止所有蜘蛛抓取特定的目錄和頁面,允許其它所有：

　　User-agent: *

　　Disallow: /sys-admin/

　　Disallow: /aboutwoniu.html

　　Allow: /

　　僅允許蜘蛛抓取.html的頁面與.jpg的圖片：

　　User-agent:*

　　Allow: /*.html$

　　Allow: /*.jpg$

　　Disallow:/

　　禁止所有動態(tài)的頁面的抓取，允許其它：

　　User-agent: *

　　Disallow: /*?*

　　Allow: /

　　User-agent: *

　　Allow: /woniuseo/woniuseo/

　　Disallow:/woniuseo/

　　五、關(guān)于robots的網(wǎng)絡(luò)大事件

　　淘寶封殺

　　2008年9月8日，淘寶網(wǎng)宣布封殺百度爬蟲，百度忍痛遵守爬蟲協(xié)議。因為一旦破壞協(xié)議，用戶的隱私和利益就無法得到保障，搜索網(wǎng)站就談不到人性關(guān)懷

　　京東封殺

　　2011年10月25日，京東商城正式將一淘網(wǎng)的搜索爬蟲屏蔽，以防止一淘網(wǎng)對其的內(nèi)容抓取。

　　BE違規(guī)抓取Evay

　　美國BE拍賣公司無視Ebey公司網(wǎng)站 robots協(xié)議，終于2000年2月被告上法庭，最終被判Be侵權(quán)。

　　360搜索無視robots協(xié)議

　　2012年8月，360綜合搜索被指違反robots協(xié)議，被業(yè)內(nèi)指為“違規(guī)”警告。

　　如果大家看完上面的指令還有疑問一話，請大家訪問“推來客SEO博客”留言或者直接加入推來客SEO博客的官方群，找博主來看大家的Disallow應該怎么寫才對。關(guān)于Robots的用法還有很多很多，推來客SEO 在這里沒法一一列舉出來，如果大家對Robots還有疑問。請大家訪問“推來客SEO博客”。在這里，我會給大家量解答大家的疑問。另外我也會在自己的博客里面分享更多SEO相關(guān)的知識，希望能夠?qū)Υ蠹襍EO的道路有一點幫助。

我們專注高端建站，小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗，每一個項目承諾做到滿意為止，多一次對比，一定讓您多一份收獲！