王尘宇王尘宇

研究百度干SEO做推广变成一个被互联网搞的人

robots.txt文件问题攻略大全

robots.txt文件问题攻略大全,本文中小六SEO将人人常遇到的关于robots.txt文件的相关问题举行汇总,希望人人又长知识了。

1、robots.txt是什么

解答:robots.txt是一个纯文本文件。简单说就是一个互联网协议,是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛,该网站的哪些文件你能接见抓取,哪些文件不要去接见抓取,从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到,起到一个指导蜘蛛的作用。

搜索引擎蜘蛛爬取网站的第一个文件会优先选择robots.txt文件,以是在指导蜘蛛时robots.txt文件就显得尤为重要。

2、robots.txt写法

解答:robots.txt文件的写法,小六SEO在robots编写秘笈一文中有详细的说明,这里做几个重点说明。

user-agent:*  这里的星号,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写下即可。

各大常用搜索引擎蜘蛛名称如下:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider

 

屏障所有蜘蛛写法:

user-agent:*

disallow: /

提醒:这里的斜杠代表网站根目录。

 

屏障单个搜索引擎蜘蛛写法(如屏障谷歌):

user-agent:googlebot

Disallow: /

 

屏障单个目录:

user-agent:*

Disallow: /a/

提醒:若a后面不加斜杠/a,示意以a形成的所有文件都屏障;加斜杠/a/示意只代表a目录下的所有文件。

 

屏障单个页面

user-agent:*

Disallow: /123.html

 

屏障某一类后缀文件(如jpg图片):

user-agent:*

Disallow: /*.jpg$

 

屏障某个指定二级域名:

user-agent:*

Disallow:  http(s)://123.seo-6.com

 

释放已屏障目录中的某个文件:

user-agent:*

Disallow: /a/

Allow: /a/img/

 

屏障所有动态页面

user-agent:*

Disallow: /*?*

 

加入网站舆图文件:

user-agent:*

Sitemap: http://www.seo-6.com/sitemap.xml

Sitemap: http://www.seo-6.com/sitemap.html

提醒:只管把链接写完整,省得抓取失足。

关于robots详细屏障那些文件,请阅读robots详细克制什么文件一文,文中有详细论述,这里不细讲。

 

3、robots.txt放在那里?

解答:robots.txt必须指定放在一个网站的根目录下,且文件名必须所有小写。

响应URL地址例如:

http://www.seo-6.com/robots.txt

 

4、robots.txt文件存在限制指令

解答:这个也就是人人,常看到某些网站,快照形貌写着“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面内容”,实在就是该网站屏障了搜索引擎抓取,淘宝最为显著。

就是这个写法:

user-agent:*

disallow: /

解决办法,进入网站根目录,找到robots.txt文件,删除掉内里的“disallow: /”,然后守候快照更新就可以了。

 

5、robots.txt怎么看?

解答:都是进入网站空间,找到根目录下的robots.txt文件,打开考察写法,文件屏障,查看是否有误或新增即可。直接考察可以在浏览器输入主域名+robots.txt即可考察,修改照样要到服务器空间或ftp内里处置。

 

6、robots.txt可以删除吗?

解答:可以删除,然则对蜘蛛很不友好,建议不要删除,且把内容写完整。

 

7、robots.txt允许收录

解答:允许收录也就是写法,参考第二点写法规则即可。

 

8、robots.txt平安防渗透说明

解答:一样平常robots.txt文件中,我们会写到屏障后台路径如下:

user-agent:*

Disallow: /admin/

这个路径我们不能像上面这样直接写出来,很容易被别人窥视加以行使,以是一样平常我们需要设置庞大一点,并用星号泛指来示意。

如下:

user-agent:*

Disallow: /a*n/

将中心部分用泛指示意出来,蜘蛛是可以凭据前后对照识别出文件,但别人想要知道就很难了,可防止被攻击,增添平安性。

 

9、robots.txt文件自己平安吗?

解答;robots.txt自己是没平安问题的,但若是空间被入侵,robots.txt文件被修改可能就会失足了。不外也很容易察觉到,一旦你发现异常了,修改回来就好了,以是robots.txt文件也需要时常看看是否有问题,做好平安维护事情。

 

好了以上就是这些内容,信赖人人已经掌握robots要诀了,还没明了的就多看几遍。

本文由小六SEO原创首发,转载请注明泉源和作者。

(责任编辑:网络)

相关文章

评论列表

发表评论:
验证码

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。