欢迎来真孝善网,为您提供真孝善正能量书籍故事!

掌握robots.txt:网站搜索引擎优化基础教程

时间:11-16 民间故事 提交错误

今天给各位分享掌握robots.txt:网站搜索引擎优化基础教程的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

作用

爬虫的工作原理是爬行网站并为其网页建立索引,然后通过关键字搜索为网站带来流量。但是,我们只希望爬虫爬取最有价值的网页,而不希望它们访问不重要的信息或不适合公开披露的私人信息和数据。

robots.txt 可用于搜索引擎优化。

爬虫的作用

资料来源:完整指南:如何为WordPress 博客编写良好的Robots.txt 文件

亚马逊--robots.txt分析

User-agent:

美国亚马逊:www.amazon.com/robots.txt

*阻止所有爬虫的说明Googlebot Googlebot 是Google 的网络爬行机器人(有时称为“蜘蛛”)。抓取是Googlebot 查找新的和更新的网页以添加到Google 索引的过程。我们使用大量计算机来提取(或“爬行”)网络上的大量页面。类似*屏蔽内容EtaoSpider 阿里巴巴一淘比价网站垂直爬虫系统说明屏蔽所有爬虫中国亚马逊:www.amazon.cn/robots.txt

用户代理:*

没有屏蔽谷歌和一淘爬虫的指令

disallow内容分析(仅摘录了我能看懂的部分):

登录页面

添加到购物车

愿望清单

评论常见问题

投票

朋友们

叽叽喳喳

历史

图片

音频和视频文件

无效链接

robots元数据

amazon-meta-robots.PNG

NOINDEX指令:定义该网页不会被搜索引擎索引到数据库中,但搜索引擎可以通过该网页的链接继续索引其他网页。

NOFOLLOW指令:不索引该页面以及该页面的链接页面。仅适用于本页的链接

小结

亚马逊的屏蔽令主要包括四个部分:客户的个人隐私信息、业务数据、消耗大量带宽的数据、死链接。

商家有义务保护用户的个人信息和隐私不受侵犯。商业数据还包括用户的浏览信息、购买信息、反馈信息等能够带来商业价值的大数据。消耗大量带宽的数据,如图片、音视频文件等,拦截后可以节省服务器带宽。

其中,美国亚马逊还屏蔽了谷歌爬虫和一淘爬虫的爬行。一淘比价网的抓取可能会影响亚马逊的产品销售。

允许部分的指令主要是为了方便爬虫为亚马逊带来客户和流量。

Github--robots.txt分析

www.github.com/robots.txt

User-agent:

CC机器人

coccoc---越南的免费网络浏览器

达莫阿---

点机器人

鸭鸭机器人

埃涛蜘蛛

Googlebot---谷歌爬虫、搜索网站

HTTrack

ia_archiver

Intuit GSA爬虫

Mail.RU_Bot---邮件爬虫

msnbot---msn爬虫、社交网站

Bingbot---Bing爬虫、搜索网站

纳弗机器人

红色应用程序gsa-p-one

罗杰博特

沙币

塞兹南博特

咕噜咕噜

Swiftbot---Swift爬虫

西班牙电信

特奥马

Twitterbot---Twitter爬虫、社交网站

Yandex

disallow内容分析(仅摘录了我能看懂的部分):

/*/*/tree/master //代码的master分支

/*/stars //获得的星星

/*/download //链接中要下载的内容

/*/*/commits/*/* //注释

/*/*/search //嵌入搜索

/*/缓存///缓存

/.git///git仓库

/login //用户登录

小结

有很多用户代理被Github屏蔽。主要目的是保护用户的个人隐私和知识产权不受侵犯。

OK,本文到此结束,希望对大家有所帮助。

用户评论

滴在键盘上的泪

我之前不太了解robots.txt,看了这篇文章感觉收获很大!

    有6位网友表示赞同!

烟雨离殇

想要做好网站SEO优化肯定要了解 robots.txt 的作用。

    有18位网友表示赞同!

殃樾晨

现在很多网站都不太重视 robots.txt ,这篇文章提醒我了。

    有20位网友表示赞同!

刺心爱人i

学习一下robots.txt可以更好地保护网站数据,也对搜索引擎友好!

    有13位网友表示赞同!

余温散尽ぺ

之前不知道robots.txt可以控制爬虫访问哪些页面,看来以后要好好研究研究。

    有17位网友表示赞同!

最怕挣扎

这篇文章写的很清楚易懂,入门级的人也能看懂。

    有7位网友表示赞同!

北染陌人

原来robots.txt有这么多的用途,我以前只知道它用来限制爬虫!

    有11位网友表示赞同!

安好如初

学习一些网站安全知识确实是一件好事。

    有11位网友表示赞同!

蝶恋花╮

分享这篇文章给我的朋友,他刚好也在研究网站管理。

    有19位网友表示赞同!

ー半忧伤

以后要记得在网站开发时设置正确的 robots.txt 文件!

    有11位网友表示赞同!

笑叹★尘世美

搜索引擎爬虫也是非常重要的,保护好数据很重要!

    有6位网友表示赞同!

熏染

这篇文章让我对 Robots.txt 的应用有了更深入的理解。

    有7位网友表示赞同!

江山策

学习robots.txt 可以成为网站管理者必备技能之一。

    有15位网友表示赞同!

麝香味

这个笔记对于希望了解网站技术的人来说很有用!

    有7位网友表示赞同!

孤城暮雨

网站安全和搜索引擎优化都是需要重视的方面!

    有10位网友表示赞同!

珠穆郎马疯@

这篇文章让我知道除了爬虫以外,robots.txt还有其他应用场景。

    有13位网友表示赞同!

轨迹!

学习一些相关知识可以让我们更好地维护自己的网站。

    有11位网友表示赞同!

秒淘你心窝

感谢作者分享这篇有价值的笔记!

    有13位网友表示赞同!

稳妥

将 robots.txt 文件设置得当可以提升网站的安全性和效率!

    有16位网友表示赞同!

古巷青灯

这篇文章让我更加了解了网站管理和技术细节!

    有9位网友表示赞同!

【掌握robots.txt:网站搜索引擎优化基础教程】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活