今天给各位分享掌握robots.txt:网站搜索引擎优化基础教程的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
作用
爬虫的工作原理是爬行网站并为其网页建立索引,然后通过关键字搜索为网站带来流量。但是,我们只希望爬虫爬取最有价值的网页,而不希望它们访问不重要的信息或不适合公开披露的私人信息和数据。
robots.txt 可用于搜索引擎优化。
爬虫的作用
资料来源:完整指南:如何为WordPress 博客编写良好的Robots.txt 文件
亚马逊--robots.txt分析
User-agent:
美国亚马逊:www.amazon.com/robots.txt
*阻止所有爬虫的说明Googlebot Googlebot 是Google 的网络爬行机器人(有时称为“蜘蛛”)。抓取是Googlebot 查找新的和更新的网页以添加到Google 索引的过程。我们使用大量计算机来提取(或“爬行”)网络上的大量页面。类似*屏蔽内容EtaoSpider 阿里巴巴一淘比价网站垂直爬虫系统说明屏蔽所有爬虫中国亚马逊:www.amazon.cn/robots.txt
用户代理:*
没有屏蔽谷歌和一淘爬虫的指令
disallow内容分析(仅摘录了我能看懂的部分):
登录页面
添加到购物车
愿望清单
评论常见问题
投票
朋友们
叽叽喳喳
历史
图片
音频和视频文件
无效链接
robots元数据
amazon-meta-robots.PNG
NOINDEX指令:定义该网页不会被搜索引擎索引到数据库中,但搜索引擎可以通过该网页的链接继续索引其他网页。
NOFOLLOW指令:不索引该页面以及该页面的链接页面。仅适用于本页的链接
小结
亚马逊的屏蔽令主要包括四个部分:客户的个人隐私信息、业务数据、消耗大量带宽的数据、死链接。
商家有义务保护用户的个人信息和隐私不受侵犯。商业数据还包括用户的浏览信息、购买信息、反馈信息等能够带来商业价值的大数据。消耗大量带宽的数据,如图片、音视频文件等,拦截后可以节省服务器带宽。
其中,美国亚马逊还屏蔽了谷歌爬虫和一淘爬虫的爬行。一淘比价网的抓取可能会影响亚马逊的产品销售。
允许部分的指令主要是为了方便爬虫为亚马逊带来客户和流量。
Github--robots.txt分析
www.github.com/robots.txt
User-agent:
CC机器人
coccoc---越南的免费网络浏览器
达莫阿---
点机器人
鸭鸭机器人
埃涛蜘蛛
Googlebot---谷歌爬虫、搜索网站
HTTrack
ia_archiver
Intuit GSA爬虫
Mail.RU_Bot---邮件爬虫
msnbot---msn爬虫、社交网站
Bingbot---Bing爬虫、搜索网站
纳弗机器人
红色应用程序gsa-p-one
罗杰博特
沙币
塞兹南博特
咕噜咕噜
Swiftbot---Swift爬虫
西班牙电信
特奥马
Twitterbot---Twitter爬虫、社交网站
Yandex
disallow内容分析(仅摘录了我能看懂的部分):
/*/*/tree/master //代码的master分支
/*/stars //获得的星星
/*/download //链接中要下载的内容
/*/*/commits/*/* //注释
/*/*/search //嵌入搜索
/*/缓存///缓存
/.git///git仓库
/login //用户登录
小结
有很多用户代理被Github屏蔽。主要目的是保护用户的个人隐私和知识产权不受侵犯。
OK,本文到此结束,希望对大家有所帮助。
【掌握robots.txt:网站搜索引擎优化基础教程】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
我之前不太了解robots.txt,看了这篇文章感觉收获很大!
有6位网友表示赞同!
想要做好网站SEO优化肯定要了解 robots.txt 的作用。
有18位网友表示赞同!
现在很多网站都不太重视 robots.txt ,这篇文章提醒我了。
有20位网友表示赞同!
学习一下robots.txt可以更好地保护网站数据,也对搜索引擎友好!
有13位网友表示赞同!
之前不知道robots.txt可以控制爬虫访问哪些页面,看来以后要好好研究研究。
有17位网友表示赞同!
这篇文章写的很清楚易懂,入门级的人也能看懂。
有7位网友表示赞同!
原来robots.txt有这么多的用途,我以前只知道它用来限制爬虫!
有11位网友表示赞同!
学习一些网站安全知识确实是一件好事。
有11位网友表示赞同!
分享这篇文章给我的朋友,他刚好也在研究网站管理。
有19位网友表示赞同!
以后要记得在网站开发时设置正确的 robots.txt 文件!
有11位网友表示赞同!
搜索引擎爬虫也是非常重要的,保护好数据很重要!
有6位网友表示赞同!
这篇文章让我对 Robots.txt 的应用有了更深入的理解。
有7位网友表示赞同!
学习robots.txt 可以成为网站管理者必备技能之一。
有15位网友表示赞同!
这个笔记对于希望了解网站技术的人来说很有用!
有7位网友表示赞同!
网站安全和搜索引擎优化都是需要重视的方面!
有10位网友表示赞同!
这篇文章让我知道除了爬虫以外,robots.txt还有其他应用场景。
有13位网友表示赞同!
学习一些相关知识可以让我们更好地维护自己的网站。
有11位网友表示赞同!
感谢作者分享这篇有价值的笔记!
有13位网友表示赞同!
将 robots.txt 文件设置得当可以提升网站的安全性和效率!
有16位网友表示赞同!
这篇文章让我更加了解了网站管理和技术细节!
有9位网友表示赞同!