robots.txt文件的功能是:
(1)引导搜索引擎蜘蛛抓取指定的内容或栏目。例如,对于某些网站上的某些内容,您只有注册成为会员并登录会员功能后才能看到更多内容。
(2)网站改版或URL需要重写优化时,屏蔽对搜索引擎不友好的链接。
(3)拦截死链接和404页面;
(4) 屏蔽无内容页面和无价值页面;
(5)屏蔽重复页面,例如搜索结果页面、评论页面等;
(6) 阻止任何您不想包含的页面;
(7)引导蜘蛛抓取站点地图。
网站设置robots.txt可以将力量集中在网站的重要页面上,保护网站安全。
了解了robots.txt的作用以及设置robots.txt的必要性后,我需要知道robots.txt怎么写?
用户代理:Baiduspider
禁止:/
禁用百度抓取
用户代理:*
禁止:/
不允许蜘蛛爬行
用户代理:Baiduspider
禁止:/baidu/
禁止访问/baidu/中的所有文件夹
用户代理:*
禁止:/baidu/huaxia.js
神经蜘蛛抓取某个文件夹下的某个内容
知道了这一点,我们就根据robots.txt文件的写法和实际需求来进行。只需通过FTP网站后台打开写好的robots.txt文件,上传网站和目录即可。
robots.txt编写规则为了方便各位朋友学习,我们将编写一个robots.txt文件的示例,供需要学习的朋友参考:
用户代理: *
禁止: /baidu/huaxia.js
指定所有搜索引擎蜘蛛抓取网站根目录/baidu/文件夹下的huaxia.js文件
用户代理: *
允许: /baidu/ccc
禁止: /百度/
禁止所有搜索引擎抓取baidu文件夹
但可以抓取百度文件夹下包含ccc的文件和文件夹
用户代理: *
禁止: /*.js$
禁止抓取网站根目录下的所有js文件
用户代理: *
禁止: /*.css$
禁止抓取网站根目录下的所有css文件
用户代理: *
不允许: /*? *
禁止蜘蛛抓取所有动态路径
sitemap:域名/sitemap.xml
网站地图怎么写
编写robots.txt文件时需要注意的事项:
写在英文符号下;
冒号后面必须有一个空格;
第一个字母应大写;
/网站根目录(网站拥有)
关于网站机器人文件(robots.txt)详解与编写技巧到此分享完毕,希望能帮助到您。
【网站机器人文件(robots.txt)详解与编写技巧】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
想做网站优化,了解robots.txt好像很有必要!
有15位网友表示赞同!
之前从来沒留意过这个文件,今天正好学习一下,谢谢分享!
有6位网友表示赞同!
我网站比较小,不知道robots.txt文件对我有用吗?
有5位网友表示赞同!
写法这么简单吗?我也想去试试我的网站加一个看看!
有11位网友表示赞同!
原来爬虫也是有规则的啊!这真是个好机制!
有7位网友表示赞同!
这样的话搜索引擎就能更有效率地抓取我们想要展示的内容了。
有11位网友表示赞同!
学习一下robots.txt写法,以后网站打理能更轻松!
有8位网友表示赞同!
好像这个文件还能防盗链啊?很实用!
有18位网友表示赞同!
看来每个网站都需要有一个robots.txt文件才能最大限度地保护自己的资源。
有16位网友表示赞同!
文章太详细了,我一个小白都清楚明白!感谢作者的讲解!
有5位网友表示赞同!
以前不懂为什么有些链接访问不了,原来是robots.txt在起作用啊!
有15位网友表示赞同!
写robots.txt文件需要注意哪些细节?是不是很简单就能配置成功啊?
有9位网友表示赞同!
了解了这款文件,网站维护起来更专业了!
有11位网友表示赞同!
之前一直觉得网站后台只有简单的设置选项,现在才知道还有这么多东西可以调整...
有20位网友表示赞同!
这个文件好重要啊!以后建网站的时候一定要注意!
有5位网友表示赞同!
感觉学习robots.txt写法能让我更好地理解搜索引擎运作机制了。
有19位网友表示赞同!
这篇文章对新手非常友好,清晰易懂!
有11位网友表示赞同!
我现在知道了哪些网站内容不适合被公开抓取啦!
有8位网友表示赞同!
我准备开始做自己第一个网站,robots.txt文件是必备的!
有5位网友表示赞同!