IT培訓(xùn)網(wǎng)
IT在線學(xué)習(xí)
平時(shí)在瀏覽百度的時(shí)候很少發(fā)現(xiàn)有今日頭條的內(nèi)容信息,淘寶的產(chǎn)品信息,阿里大魚(yú)自媒體信息。為什么呢?原因就是因?yàn)檫@些網(wǎng)站都對(duì)百度搜索引擎設(shè)置了Robots協(xié)議,禁止讓百度搜索引擎抓取,通過(guò)接下來(lái)的閱讀,讓你快速完成以下三個(gè)目標(biāo)。第一個(gè):對(duì)Robots協(xié)議有一定的了解;第二個(gè):可以很好的讀懂淘寶Robots紅色標(biāo)注協(xié)議的意思;第三個(gè):能夠看懂淘寶對(duì)待googlebot(谷歌機(jī)器人)和baiduspider(百度蜘蛛)有什么不同
本節(jié)內(nèi)容通過(guò)以下六個(gè)點(diǎn)來(lái)講解:
1. Robots定義
2. 為什么要研究Robots
3. Robots常用語(yǔ)法
4. 個(gè)別Robots指令示例
5. Robots在工作中常見(jiàn)應(yīng)用場(chǎng)景
6. Robots怎么做
以下為明細(xì)明細(xì):
1. 關(guān)于定義:Robots指令是搜索引擎來(lái)到網(wǎng)站第一個(gè)訪問(wèn)的文件,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍,網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
2. 為什么要研究Robots:更好的告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不可以抓取,對(duì)一些沒(méi)有必要抓取的頁(yè)面進(jìn)行第一時(shí)間屏蔽
3. 常用語(yǔ)法:Robots常用的語(yǔ)法為以下幾種:
(1)User-agent:代表搜索引擎名稱
(2)Disallow釋義:不允許訪問(wèn)
(3)Allow釋義:允許訪問(wèn)
(4)* :匹配任意字符內(nèi)容
(5)$ :行結(jié)束符,通常為頁(yè)面使用,欄目通常使用“/”(示例:Disallow:/.htm$ )
4. 個(gè)別指令示例:有個(gè)別指令需要特殊說(shuō)明,可以有助于大家更好地認(rèn)識(shí)Robots,內(nèi)容如下:
(1)Disallow: 不允許
(2)Disallow:/ 根目錄下面所有文件都不允許抓取
(3)Disallow:/a a開(kāi)頭的目錄文件不允許抓取
(4)Disallow:/a/ 不允許抓取a文件夾
(5)Disallow:/chanpin/
(6)Disallow:/*?* 不允許抓取動(dòng)態(tài)url
5. Robots在工作中常見(jiàn)應(yīng)用場(chǎng)景:有些同學(xué)可能會(huì)問(wèn)Robots在工作中到底怎么用呢?我們經(jīng)常碰到的三種使用場(chǎng)景如下:
(1)新網(wǎng)站沒(méi)有正式上線,屏蔽搜索引擎
(2)有些欄目不想讓搜索引擎爬行抓取(不重要的欄目)
(3)動(dòng)態(tài)URL屏蔽
6. Robots怎么做:
(1)新建Robots.txt文檔
(2)撰寫Robots協(xié)議規(guī)則要求
(3)上傳到網(wǎng)站空間根目錄(可以去百度搜索資源平臺(tái),進(jìn)行檢測(cè)訪問(wèn)權(quán)限是否生效)
>>本文地址:http://uj2y2uok.com/zhuanye/2020/48580.html
聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
1 您的年齡
2 您的學(xué)歷
3 您更想做哪個(gè)方向的工作?
07月15日Java
咨詢/試聽(tīng)07月15日Python+人工智能
咨詢/試聽(tīng)07月15日Web前端
咨詢/試聽(tīng)07月15日UI設(shè)計(jì)
咨詢/試聽(tīng)07月15日大數(shù)據(jù)
咨詢/試聽(tīng)07月15日Java
咨詢/試聽(tīng)07月15日Python+人工智能
咨詢/試聽(tīng)07月15日Web前端
咨詢/試聽(tīng)07月15日UI設(shè)計(jì)
咨詢/試聽(tīng)07月15日大數(shù)據(jù)
咨詢/試聽(tīng)