欢迎来真孝善网,为您提供真孝善正能量书籍故事!

深入解析亚马逊网站的robots.txt文件

时间:11-22 民间故事 提交错误

大家好,关于深入解析亚马逊网站的robots.txt文件很多朋友都还不太明白,今天小编就来为大家分享关于的知识,希望对各位有所帮助!

Disallow: #表示禁止搜索引擎抓取的内容

allow: #表示允许爬取的内容文件部分语法为:

/admin/#代表admin目录的内容

/admin #表示包含admin和admin目录的内容

$#terminator(任何以他结尾的都可以匹配)

* #匹配字符(匹配零个或任意多个字符)

二、亚马逊robots协议

1、国内亚马逊https://www.amazon.cn/robots.txt

亚马逊(中国)机器人协议对所有搜索引擎都有相同的爬虫规则。它只有一个user-agent,唯一允许爬取的内容是愿望清单中的以下六项,大概可以猜到是通用愿望清单目录中的信息和供应商的信息;其他内容如帮助、搜索等无法捕获。

可以推测,当用户浏览其他网页时,广告内容中可能会出现与心愿单中的商品类似的商品信息。

用户代理: *

允许: /愿望清单/通用*

允许: /愿望清单/供应商按钮*

允许: /愿望清单/获取按钮*

允许: /gp/wishlist/universal*

允许: /gp/wishlist/vendor-button*

允许: /gp/wishlist/ipad-install*

至于不允许爬取的部分,我能理解的有四个部分。首先是它的页面设计,即它的CSS和JS目录文件;二是产品信息;第三是用户信息。包括用户的订单信息、登录信息等;四是帮助信息。据推测,部分原因应该是为了保护用户隐私和网络技术。

Disallow: /css #网页技术文件

Disallow: /gp/help/contact-us/general-questions.html*?typeemailskip=true #Help

Disallow: /mn/loginApplication #登录信息

Disallow: /gp/product/rate-this-item #产品信息

2、美国亚马逊https://www.amazon.com/robots.txt

与国内亚马逊网站相比,国际亚马逊网站在robots协议中多了两个爬虫。

用户代理: *

用户代理: Googlebot

用户代理: EtaoSpider

禁止一淘网所有抓取权限。推测可能是由于同一产品在不同国家的价格差异较大而产生干扰;

对于通用引擎爬虫来说,与国内网站相比,增加了会员音乐服务等四个权限:

关于深入解析亚马逊网站的robots.txt文件到此分享完毕,希望能帮助到您。

用户评论

予之欢颜

这篇文章应该讲怎么去理解亚马逊的robots.txt文件吧?

    有12位网友表示赞同!

你瞒我瞒

想弄明白哪些页面不能被爬取,看了这篇就知道了。

    有17位网友表示赞同!

清原

亚马逊的网站代码总是很复杂,需要好好研究一下。

    有13位网友表示赞同!

念旧是个瘾。

爬虫技术很重要,学习一下 robots.txt 文件可以帮助更好地理解互联网工作原理。

    有17位网友表示赞同!

巷雨优美回忆

想要做电商行业相关的数据分析,了解亚马逊的robots.txt文件很有用啊。

    有12位网友表示赞同!

﹏櫻之舞﹏

文章讲清楚了亚马逊网站的限制?

    有13位网友表示赞同!

あ浅浅の嘚僾

对SEO和网站优化来说,了解robots.txt 非常重要吧!

    有5位网友表示赞同!

她的风骚姿势我学不来

看了这篇之后,自己也能查找到类似的文件吗?

    有8位网友表示赞同!

一样剩余

分析robots.txt文件能让我们更好地理解搜索引擎的工作方式吧?

    有5位网友表示赞同!

太难

亚马逊网站这么大,肯定会有很多规则需要遵守。

    有8位网友表示赞同!

桃洛憬

这篇文章对我们学习网络爬虫很有用处吗?

    有8位网友表示赞同!

珠穆郎马疯@

感觉做电商要了解这些技术细节很必要啊。

    有8位网友表示赞同!

没过试用期的爱~

希望能把文章内容总结成简明的要点,方便阅读和理解。

    有10位网友表示赞同!

清羽墨安

亚马逊的网站结构一定非常复杂!

    有17位网友表示赞同!

我要变勇敢℅℅

看了这篇之后,自己可以尝试写robots.txt文件吗?

    有5位网友表示赞同!

咆哮

这篇文章有具体的示例代码吗?

    有15位网友表示赞同!

哭着哭着就萌了°

希望能了解robots.txt文件的应用场景,除了电商网站还有哪些地方需要用到这个技术的?

    有14位网友表示赞同!

◆残留德花瓣

学习robots.txt 文件对前端开发也有用吗?

    有12位网友表示赞同!

殃樾晨

亚马逊的 robots.txt 文件很先进吗?

    有15位网友表示赞同!

【深入解析亚马逊网站的robots.txt文件】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活