python 爬虫解决403禁止访问错误

在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块
urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//www./qysh123对于这个连接就有可能出现403禁止访问的问题
解决这个问题,需要以下几步骤:
<span style="font-size:18px;">req = urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www./")
其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到
然后
html=urllib2.urlopen(req) print html.read()
就可以把网页代码全部下载下来,而没有了403禁止访问的问题。
对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:
#-*-coding:utf-8-*-
import urllib2
import random
url="//www./article/1.htm"
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
]
def get_content(url,headers):
'''''
@获取403禁止访问的网页
'''
randdom_header=random.choice(headers)
req=urllib2.Request(url)
req.add_header("User-Agent",randdom_header)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www./")
req.add_header("GET",url)
content=urllib2.urlopen(req).read()
return content
print get_content(url,my_headers)
其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。
当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# python爬虫解决403禁止访问错误
# python爬虫403错误
# python爬虫遇到403错误的问题及解决
# Python爬虫403错误的终极解决方案
# python爬虫脚本HTTP 403 Forbidden错误怎么办?(实战经验总
# 就可以
# 解决这个问题
# 自己的
# 进阶
# 这是
# 就有
# 希望能
# 自定义
# 特有的
# 谢谢大家
# 这几个
# 过快
# 可能出现
# 写好
# 源代码
# 比方说
# 没有了
# 网页代码
# add_header
# User
相关文章:
购物网站制作公司有哪些,哪个购物网站比较好?
GML (Geography Markup Language)是什么,它如何用XML来表示地理空间信息?
建站之星代理平台如何选择最佳方案?
如何在自有机房高效搭建专业网站?
建站之星后台密码遗忘如何找回?
javascript基本数据类型及类型检测常用方法小结
SAX解析器是什么,它与DOM在处理大型XML文件时有何不同?
网站制作知乎推荐,想做自己的网站用什么工具比较好?
建站主机选哪家性价比最高?
网站制作哪家好,cc、.co、.cm哪个域名更适合做网站?
建站之星安装后如何配置SEO及设计样式?
如何通过.red域名打造高辨识度品牌网站?
在线ppt制作网站有哪些软件,如何把网页的内容做成ppt?
中山网站制作网页,中山新生登记系统登记流程?
长沙企业网站制作哪家好,长沙水业集团官方网站?
高防服务器租用如何选择配置与防御等级?
网站建设制作需要多少钱费用,自己做一个网站要多少钱,模板一般多少钱?
上海网站制作开发公司,上海买房比较好的网站有哪些?
宠物网站制作html代码,有没有专门介绍宠物如何养的网站啊?
高端企业智能建站程序:SEO优化与响应式模板定制开发
广州营销型建站服务商推荐:技术优势与SEO优化解析
定制建站平台哪家好?企业官网搭建与快速建站方案推荐
三星网站视频制作教程下载,三星w23网页如何全屏?
做企业网站制作流程,企业网站制作基本流程有哪些?
小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?
已有域名和空间如何快速搭建网站?
免费的流程图制作网站有哪些,2025年教师初级职称申报网上流程?
如何自己制作一个网站链接,如何制作一个企业网站,建设网站的基本步骤有哪些?
宝塔面板创建网站无法访问?如何快速排查修复?
怎么将XML数据可视化 D3.js加载XML
如何自定义建站之星模板颜色并下载新样式?
如何在服务器上配置二级域名建站?
重庆网站制作公司哪家好,重庆中考招生办官方网站?
齐河建站公司:营销型网站建设与SEO优化双核驱动策略
建站之星导航配置指南:自助建站与SEO优化全解析
如何高效利用200m空间完成建站?
专业网站设计制作公司,如何制作一个企业网站,建设网站的基本步骤有哪些?
制作国外网站的软件,国外有哪些比较优质的网站推荐?
建站之星如何配置系统实现高效建站?
盘锦网站制作公司,盘锦大洼有多少5G网站?
哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?
建站之星收费标准详解:套餐费用及年费价格表一览
教学论文网站制作软件有哪些,写论文用什么软件
?
制作网站的公司有哪些,做一个公司网站要多少钱?
如何在阿里云完成域名注册与建站?
如何快速查询网站的真实建站时间?
利用JavaScript实现拖拽改变元素大小
c# 在高并发场景下,委托和接口调用的性能对比
小建面朝正北,A点实际方位是否存在偏差?
免费网站制作模板下载,除了易企秀之外还有什么H5平台可以制作H5长页面,最好是免费的?
*请认真填写需求信息,我们会在24小时内与您取得联系。