大家好,今天来为大家解答Python爬虫教程:提升博客访问量方法二——绕过第三方统计服务技巧这个问题的一些问题点,包括也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~
在这里发现一个特殊的资源,以及一些有关博客的数据。正如您在这里所看到的,当我们访问带有跟踪代码的页面时,会执行页面中的跟踪代码,然后向WordPress 服务器发送1 像素图像请求。为什么是图片?因为图片本身就支持跨域。
从参数直观可以看出,blog参数应该是我的博客在WordPress中注册的博客ID; post参数是post的含义; rand 参数是一个随机数,每次都是不同的值。
那么我们是否可以直接使用这些参数来请求这个地址来增加访问量呢?
测试环境
爬虫环境
Windows 10
蟒蛇3.6.2
python 代码
首先,您需要安装Python的Requests扩展插件。
Requests是一个用Python语言编写的HTTP库,基于urllib,并使用Apache2许可的开源协议。它比urllib更方便,可以节省我们很多工作,完全满足HTTP测试需求。
通过pip 安装
pip 安装请求
或者,下载代码并安装:
$ git克隆git: //github.com/kennethreitz/requests.git
$ cd 请求
$ python setup.py 安装
源代码(使用代理)
以下代码每秒向目标地址发送一次请求。如果WordPress安装了缓存插件,您将需要清除缓存才能看到最新的流量。
导入请求
导入时间
随机导入
# 随机获取浏览器标识符
def get_UA():
UA_列表=[
"Mozilla/5.0(Linux;Android 4.1.1;Nexus 7 Build/JRO03D)AppleWebKit/535.19(KHTML,如Gecko)Chrome/18.0.1025.166 Safari/535.19",
"Mozilla/5.0(Linux;U;Android 4.0.4;en-gb;GT-I9300 Build/IMM76D)AppleWebKit/534.30(KHTML,如Gecko)版本/4.0 Mobile Safari/534.30",
"Mozilla/5.0(Linux;U;Android 2.2;en-gb;GT-P1000 Build/FROYO)AppleWebKit/533.1(KHTML,如Gecko)版本/4.0 Mobile Safari/533.1",
"Mozilla/5.0(Windows NT 6.2;WOW64;rv:21.0)Gecko/20100101 Firefox/21.0",
"Mozilla/5.0(Android;移动;rv:14.0)Gecko/14.0 Firefox/14.0",
"Mozilla/5.0(Windows NT 6.2;WOW64)AppleWebKit/537.36(KHTML,如Gecko)Chrome/27.0.1453.94 Safari/537.36"
]
randnum=random.randint(0, len(UA_list)-1)
h_列表={
"用户代理": UA_list[randnum]
}
返回h_list
# 获取代理IP
def get_ip():
# 这里填写大象代理api地址。 num 参数必须为1。一次只能请求一个IP 地址。
url="http://tvp.daxiangdaili.com/ip/?tid=您的订单号num=1delay=5category=2"
响应=requests.get(url)
响应.close()
代理={
"http":"http://"+response.text
}
打印(代理["http"])
返回代理
如果__name__=="__main__":
# 目标url地址
网址="https://pixel.wp.com/g.gif"
参数
播放量={
"v": "分机",
"j":"1:5.8",
"博客": "124283775",
"后": "158",
"tz": "8",
"srv": "pingxonline.com",
"主机": "pingxonline.com",
"参考": "https://pingxonline.com/",
"rand": random.random()
}
而1:
尝试:
# 开始一个会话
s=requests.session()
# 调用该函数获取浏览器标识符
标头=get_UA()
# 调用该函数获取IP代理地址
代理=get_ip()
# 开始请求。注意,本地测试使用的是本地地址,使用代理是无效的。
web_data=s.get(url, headers=headers, proxies=proxy, params=playload)
# 输出网页内容
打印(web_data.内容)
# 间隔1秒
时间.睡眠(1)
最后:
打印("错误")
系列教程:
Python爬虫提升博客流量教程三:使用Selenium自动化Chrome浏览器
好了,文章到此结束,希望可以帮助到大家。
【Python爬虫教程:提升博客访问量方法二——绕过第三方统计服务技巧】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
学习爬虫真有用,可以多了解技术的另一方面
有12位网友表示赞同!
感觉这篇文章很酷!想做一下实践看看效果
有13位网友表示赞同!
之前没接触过这种技术,这篇教程能让我入门吗?
有19位网友表示赞同!
有点担心这样的方法是不是不太合适呢?会不会影响博客的正常排名?
有13位网友表示赞同!
讲道理,刷アクセス量对网站本身有什么意义?
有20位网友表示赞同!
第三方统计服务应该做好防范措施吧,这篇文章是不是太偏激了?
有5位网友表示赞同!
想了解一下这种方法有哪些风险和危害?
有20位网友表示赞同!
代码难看懂啊,有没有更易于理解的教程?
有13位网友表示赞同!
这个技巧只适合小众平台吗?大平台会不会受到限制?
有9位网友表示赞同!
感觉这个教程很实用,可以提升博客的曝光率。
有7位网友表示赞同!
这种方法的效果是不是短暂的?
有10位网友表示赞同!
刷访问量真的那么有用吗?
有12位网友表示赞同!
需要学习Python才能完成这个教程吗?
有11位网友表示赞同!
好奇一下第三方统计服务的防范措施有哪些?
有13位网友表示赞同!
有没有其他更正规的方法来提高博客的访问量?
有7位网友表示赞同!
感觉这个方法对新手有点难度,有没有新手入门攻略呢?
有9位网友表示赞同!
学习爬虫真是门好学啊!
有18位网友表示赞同!
希望能看到更多关于Python爬虫的教程!
有12位网友表示赞同!
这篇教程写的很详细,感谢分享!
有8位网友表示赞同!
这个方法可以用来刷其他网站的数据吗?
有16位网友表示赞同!