小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。
1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。
2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。
3、根目录下.jsp格式的模版文件会被抓取吗?
主要是对抓取的原理不太懂,写的乱糟糟的,同时希望给些资料查看。
回复:
1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。
回答:百度会先访问robots.txt文件,看一下哪些目录不被收录,然后从首页开始抓取首页所放置的链接,爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录,但是百度蜘蛛有时候还会爬的。
2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。
回答:蜘蛛是顺着链接抓的,只要你的链接用户能打开,蜘蛛就能抓,伪静态会对页面打开速度有一定的影响,页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件,生成静态文件就叫做静态网页了,织梦生成的静态文件。
3、根目录下.jsp格式的模版文件会被抓取吗?
回答:模板文件、js、css什么的,你如果不屏蔽,蜘蛛也是会爬的。
回复:
我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道?
里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。
百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。

评论列表