全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

python 爬虫出现403禁止访问错误详解

python 爬虫解决403禁止访问错误

在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//www./qysh123对于这个连接就有可能出现403禁止访问的问题

解决这个问题,需要以下几步骤:

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","//www./")

其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到

然后

html=urllib2.urlopen(req)


print html.read()

就可以把网页代码全部下载下来,而没有了403禁止访问的问题。

对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="//www./article/1.htm" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
  
] 
def get_content(url,headers): 
 ''''' 
 @获取403禁止访问的网页 
 ''' 
 randdom_header=random.choice(headers) 
 
 req=urllib2.Request(url) 
 req.add_header("User-Agent",randdom_header) 
 req.add_header("Host","blog.csdn.net") 
 req.add_header("Referer","//www./") 
 req.add_header("GET",url) 
 
 content=urllib2.urlopen(req).read() 
 return content 
 
print get_content(url,my_headers) 

其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。

当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!


# python爬虫解决403禁止访问错误  # python爬虫403错误  # python爬虫遇到403错误的问题及解决  # Python爬虫403错误的终极解决方案  # python爬虫脚本HTTP 403 Forbidden错误怎么办?(实战经验总  # 就可以  # 解决这个问题  # 自己的  # 进阶  # 这是  # 就有  # 希望能  # 自定义  # 特有的  # 谢谢大家  # 这几个  # 过快  # 可能出现  # 写好  # 源代码  # 比方说  # 没有了  # 网页代码  # add_header  # User 


相关文章: 购物网站制作公司有哪些,哪个购物网站比较好?  GML (Geography Markup Language)是什么,它如何用XML来表示地理空间信息?  建站之星代理平台如何选择最佳方案?  如何在自有机房高效搭建专业网站?  建站之星后台密码遗忘如何找回?  javascript基本数据类型及类型检测常用方法小结  SAX解析器是什么,它与DOM在处理大型XML文件时有何不同?  网站制作知乎推荐,想做自己的网站用什么工具比较好?  建站主机选哪家性价比最高?  网站制作哪家好,cc、.co、.cm哪个域名更适合做网站?  建站之星安装后如何配置SEO及设计样式?  如何通过.red域名打造高辨识度品牌网站?  在线ppt制作网站有哪些软件,如何把网页的内容做成ppt?  中山网站制作网页,中山新生登记系统登记流程?  长沙企业网站制作哪家好,长沙水业集团官方网站?  高防服务器租用如何选择配置与防御等级?  网站建设制作需要多少钱费用,自己做一个网站要多少钱,模板一般多少钱?  上海网站制作开发公司,上海买房比较好的网站有哪些?  宠物网站制作html代码,有没有专门介绍宠物如何养的网站啊?  高端企业智能建站程序:SEO优化与响应式模板定制开发  广州营销型建站服务商推荐:技术优势与SEO优化解析  定制建站平台哪家好?企业官网搭建与快速建站方案推荐  三星网站视频制作教程下载,三星w23网页如何全屏?  做企业网站制作流程,企业网站制作基本流程有哪些?  小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?  已有域名和空间如何快速搭建网站?  免费的流程图制作网站有哪些,2025年教师初级职称申报网上流程?  如何自己制作一个网站链接,如何制作一个企业网站,建设网站的基本步骤有哪些?  宝塔面板创建网站无法访问?如何快速排查修复?  怎么将XML数据可视化 D3.js加载XML  如何自定义建站之星模板颜色并下载新样式?  如何在服务器上配置二级域名建站?  重庆网站制作公司哪家好,重庆中考招生办官方网站?  齐河建站公司:营销型网站建设与SEO优化双核驱动策略  建站之星导航配置指南:自助建站与SEO优化全解析  如何高效利用200m空间完成建站?  专业网站设计制作公司,如何制作一个企业网站,建设网站的基本步骤有哪些?  制作国外网站的软件,国外有哪些比较优质的网站推荐?  建站之星如何配置系统实现高效建站?  盘锦网站制作公司,盘锦大洼有多少5G网站?  哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?  建站之星收费标准详解:套餐费用及年费价格表一览  教学论文网站制作软件有哪些,写论文用什么软件 ?  制作网站的公司有哪些,做一个公司网站要多少钱?  如何在阿里云完成域名注册与建站?  如何快速查询网站的真实建站时间?  利用JavaScript实现拖拽改变元素大小  c# 在高并发场景下,委托和接口调用的性能对比  小建面朝正北,A点实际方位是否存在偏差?  免费网站制作模板下载,除了易企秀之外还有什么H5平台可以制作H5长页面,最好是免费的? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。