大家好,关于深入解析亚马逊网站的robots.txt文件很多朋友都还不太明白,今天小编就来为大家分享关于的知识,希望对各位有所帮助!
Disallow: #表示禁止搜索引擎抓取的内容
allow: #表示允许爬取的内容文件部分语法为:
/admin/#代表admin目录的内容
/admin #表示包含admin和admin目录的内容
$#terminator(任何以他结尾的都可以匹配)
* #匹配字符(匹配零个或任意多个字符)
二、亚马逊robots协议
1、国内亚马逊https://www.amazon.cn/robots.txt
亚马逊(中国)机器人协议对所有搜索引擎都有相同的爬虫规则。它只有一个user-agent,唯一允许爬取的内容是愿望清单中的以下六项,大概可以猜到是通用愿望清单目录中的信息和供应商的信息;其他内容如帮助、搜索等无法捕获。
可以推测,当用户浏览其他网页时,广告内容中可能会出现与心愿单中的商品类似的商品信息。
用户代理: *
允许: /愿望清单/通用*
允许: /愿望清单/供应商按钮*
允许: /愿望清单/获取按钮*
允许: /gp/wishlist/universal*
允许: /gp/wishlist/vendor-button*
允许: /gp/wishlist/ipad-install*
至于不允许爬取的部分,我能理解的有四个部分。首先是它的页面设计,即它的CSS和JS目录文件;二是产品信息;第三是用户信息。包括用户的订单信息、登录信息等;四是帮助信息。据推测,部分原因应该是为了保护用户隐私和网络技术。
Disallow: /css #网页技术文件
Disallow: /gp/help/contact-us/general-questions.html*?typeemailskip=true #Help
Disallow: /mn/loginApplication #登录信息
Disallow: /gp/product/rate-this-item #产品信息
2、美国亚马逊https://www.amazon.com/robots.txt
与国内亚马逊网站相比,国际亚马逊网站在robots协议中多了两个爬虫。
用户代理: *
用户代理: Googlebot
用户代理: EtaoSpider
禁止一淘网所有抓取权限。推测可能是由于同一产品在不同国家的价格差异较大而产生干扰;
对于通用引擎爬虫来说,与国内网站相比,增加了会员音乐服务等四个权限:
关于深入解析亚马逊网站的robots.txt文件到此分享完毕,希望能帮助到您。
【深入解析亚马逊网站的robots.txt文件】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
这篇文章应该讲怎么去理解亚马逊的robots.txt文件吧?
有12位网友表示赞同!
想弄明白哪些页面不能被爬取,看了这篇就知道了。
有17位网友表示赞同!
亚马逊的网站代码总是很复杂,需要好好研究一下。
有13位网友表示赞同!
爬虫技术很重要,学习一下 robots.txt 文件可以帮助更好地理解互联网工作原理。
有17位网友表示赞同!
想要做电商行业相关的数据分析,了解亚马逊的robots.txt文件很有用啊。
有12位网友表示赞同!
文章讲清楚了亚马逊网站的限制?
有13位网友表示赞同!
对SEO和网站优化来说,了解robots.txt 非常重要吧!
有5位网友表示赞同!
看了这篇之后,自己也能查找到类似的文件吗?
有8位网友表示赞同!
分析robots.txt文件能让我们更好地理解搜索引擎的工作方式吧?
有5位网友表示赞同!
亚马逊网站这么大,肯定会有很多规则需要遵守。
有8位网友表示赞同!
这篇文章对我们学习网络爬虫很有用处吗?
有8位网友表示赞同!
感觉做电商要了解这些技术细节很必要啊。
有8位网友表示赞同!
希望能把文章内容总结成简明的要点,方便阅读和理解。
有10位网友表示赞同!
亚马逊的网站结构一定非常复杂!
有17位网友表示赞同!
看了这篇之后,自己可以尝试写robots.txt文件吗?
有5位网友表示赞同!
这篇文章有具体的示例代码吗?
有15位网友表示赞同!
希望能了解robots.txt文件的应用场景,除了电商网站还有哪些地方需要用到这个技术的?
有14位网友表示赞同!
学习robots.txt 文件对前端开发也有用吗?
有12位网友表示赞同!
亚马逊的 robots.txt 文件很先进吗?
有15位网友表示赞同!