機器人的功能和寫法?
  • 更新時間:2024-10-23 23:23:10
  • 網(wǎng)站優(yōu)化
  • 發(fā)布時間:3年前
  • 1611

今天,推來客與你分享當你開始建立一個網(wǎng)站時應該理解的第一件事,也就是在訪問一個網(wǎng)站時應該訪問的第一件事??隙ㄓ腥瞬碌绞鞘裁戳恕]錯,就是機器人的功能和寫法。

?



一、什么是機器人?有什么用?

“機器人”被一些同行稱為“蘿卜絲“,是搜索引擎的機器協(xié)議。全稱是“網(wǎng)絡(luò)爬蟲排除協(xié)議”。該網(wǎng)站通過機器人協(xié)議告訴搜索引擎哪些頁面可以被抓取,哪些頁面不能被抓取。

因為網(wǎng)站的很多目錄如果被抓取的話是有風險的,或者是因為盈利原因無法抓取的,所以有必要告訴蜘蛛俠你的網(wǎng)站是否被允許。

Robots放在網(wǎng)站根目錄下,名字叫robots.txt


二、機器人有哪些指令?

機器人的指令很簡單。只有三個說明。一般我們也會把地圖放在上面,這樣蜘蛛抓到機器人后就可以直接沿著地圖爬了。

用戶代理:該指令定義了該指令的下列內(nèi)容對哪些蜘蛛有效。默認情況下,所有蜘蛛都可以爬行。如果此指令指定了特定的蜘蛛,則此指令后面的內(nèi)容對特定的蜘蛛有效。

Disallow:這個指令定義了哪些蜘蛛是禁止爬行的,因為有些人可能認為網(wǎng)站肯定想被爬行。不對,如果是背景或者私人文件,我相信沒有人愿意被搶。

Allow:該指令定義允許蜘蛛捕捉什么內(nèi)容。如果某些內(nèi)容被允許,而其他內(nèi)容被拒絕,則可以使用該指令。大多數(shù)網(wǎng)站只使用禁止說明。

Sitemap:顧名思義,就是我們常說的站點地圖。這里就不詳細介紹站點地圖了,推來客的WEO會在下一節(jié)詳細介紹站點地圖的功能和用法。我們把站點地圖放在Robots下面,方便蜘蛛直接訪問Robots的時候訪問你的地圖。


第三,機器人的書寫方式

1.用戶代理:用于定義蜘蛛名稱:常見的蜘蛛名稱包括Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、搜狗網(wǎng)蜘蛛、搜狗inst ?spider、搜狗蜘蛛2、搜狗博客、搜狗新聞蜘蛛、搜狗獵戶座蜘蛛、Sosospider、盤古蜘蛛、JikeSpider、yisouspider、EasouSpider。

2、禁止:

用來定義什么是不允許蜘蛛爬行的。在機器人中最難使用的東西,也是最常見的問題就是allow命令?;蛘哒麄€機器人的本質(zhì)在于不允許。如果你很好地學習了這個指令的用法,你就能寫出完美的機器人。這里我將列出一些最常用的不允許用法。

嚴禁搶全站:

不允許: /

禁止woniuseo目錄在根目錄下爬行:

Disallow: /woniuseo/

禁止在根目錄下的woniuseo目錄中抓取單個頁面的woniuseo.html:

不允許:/woniuseo/woniuseo.html

禁止全站遏制?已爬網(wǎng)的頁面:

不允許: /*?*

禁止包含woniuseo的頁面在全站被抓??;

不允許: /*woniuseo*

帶后綴的頁面。禁止對整個站點中的aspx進行爬網(wǎng):

Disallow: /*。aspx$

禁止對帶后綴的文件進行爬網(wǎng)。全站jpg:

Disallow:/*。jpb$

3.Allow:

Allow命令通常不會單獨使用。Allow命令通常允許首先對目錄進行爬網(wǎng),然后禁止對所有其他頁面進行爬網(wǎng)。

允許對所有頁面進行爬網(wǎng):

Allow: /

允許對woniuseo目錄進行爬網(wǎng):

Allow: /woniuseo/

允許爬行。html頁面:

Allow: /*。html$

允許抓取。jpg圖片:

Allow: /*。jpg$

第四,機器人的應用

推來客

自己的網(wǎng)站的robots文件是這樣寫的:

  User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /

  sitemap:http://www.woniuseo.com/sitemap.xml

  禁止所有搜索引擎抓取所有頁面:

  User-agent: *

  Disallow: /

  這種情況一般用在新站建好還沒正式上線,不希望蜘蛛抓取時。

  禁止百度蜘蛛抓取所有頁面:

  User-agent: Baiduspider

  Disallow: /

  淘寶就因為與百度的利益關(guān)系,從2008年就禁止百度抓取它所有頁面了。

  僅允許百度蜘蛛抓取所有頁面:

  User-agent: Baiduspider

  Allow: /

  User-agent: *

  Disallow: /

  禁止所有蜘蛛抓取特定的目錄和頁面,允許其它所有:

  User-agent: *

  Disallow: /sys-admin/

  Disallow: /aboutwoniu.html

  Allow: /

  僅允許蜘蛛抓取.html的頁面與.jpg的圖片:

  User-agent:*

  Allow: /*.html$

  Allow: /*.jpg$

  Disallow:/

  禁止所有動態(tài)的頁面的抓取,允許其它:

  User-agent: *

  Disallow: /*?*

  Allow: /

  允許某個目錄下某個目錄被抓取,禁止其它

  User-agent: *

  Allow: /woniuseo/woniuseo/

  Disallow:/woniuseo/

  五、 關(guān)于robots的網(wǎng)絡(luò)大事件

  淘寶封殺

  2008年9月8日,淘寶網(wǎng)宣布封殺百度爬蟲,百度忍痛遵守爬蟲協(xié)議。因為一旦破壞協(xié)議,用戶的隱私和利益就無法得到保障,搜索網(wǎng)站就談不到人性關(guān)懷

  京東封殺

  2011年10月25日,京東商城正式將一淘網(wǎng)的搜索爬蟲屏蔽,以防止一淘網(wǎng)對其的內(nèi)容抓取。

  BE違規(guī)抓取Evay

  美國BE拍賣公司無視Ebey公司網(wǎng)站 robots協(xié)議,終于2000年2月被告上法庭,最終被判Be侵權(quán)。

  360搜索無視robots協(xié)議

  2012年8月,360綜合搜索被指違反robots協(xié)議,被業(yè)內(nèi)指為“違規(guī)”警告。


  如果大家看完上面的指令還有疑問一話,請大家訪問“推來客SEO博客”留言或者直接加入 推來客SEO博客 的官方群,找博主來看大家的Disallow應該怎么寫才對。關(guān)于Robots的用法還有很多很多,推來客SEO 在這里沒法一一列舉出來,如果大家對Robots還有疑問。請大家訪問“推來客SEO博客”。在這里,我會給大家量解答大家的疑問。另外我也會在自己的博客里面分享更多SEO相關(guān)的知識,希望能夠?qū)Υ蠹襍EO的道路有一點幫助。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!

本文章出于推來客官網(wǎng),轉(zhuǎn)載請表明原文地址:https://www.tlkjt.com/cdseo/2868.html
推薦文章

在線客服

掃碼聯(lián)系客服

3985758

回到頂部