全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python 网页解析HTMLParse的实例详解

Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:

现在一个模拟的html文件:

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html> 

需求是,提取出标题的属性值,以及内容:

代码如下:

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("开始一个标签:",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("  属性值:",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("结束一个标签:",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("得到的数据: ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>  </html>") 
 
p.close() 

运行结果如下:

title 
  属性值: ('id', 'main') 
  属性值: ('mouse', '你好') 
得到的数据: 我是标题 

主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。

解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。

以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!


# Python  # 网页解析HTMLParse  # 网页解析的实例  # Python requests获取网页常用方法解析  # Python爬虫解析网页的4种方式实例及原理解析  # Python大数据之使用lxml库解析html网页文件示例  # python爬取Ajax动态加载网页过程解析  # Python读取本地文件并解析网页元素的方法  # python+django加载静态网页模板解析  # Python网页解析利器BeautifulSoup安装使用介绍  # Python网页解析器使用实例详解  # 我是  # 你好  # 所需要  # 自己的  # 这是  # 如有  # 希望能  # 写了  # 谢谢大家  # 最简单  # 还有很多  # 来完成  # 比较容易  # 就可以  # 疑问请  # 继承了  # gt  # title  # xhtml  # lt 


相关文章: 如何在新浪SAE免费搭建个人博客?  seo网站制作优化,网站SEO优化步骤有哪些?  官网自助建站系统:SEO优化+多语言支持,快速搭建专业网站  如何选择高效稳定的ISP建站解决方案?  建站之星logo尺寸如何设置最合适?  关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)  Thinkphp 中 distinct 的用法解析  如何用低价快速搭建高质量网站?  测试制作网站有哪些,测试性取向的权威测试或者网站?  建站之星官网登录失败?如何快速解决?  如何用西部建站助手快速创建专业网站?  香港服务器网站推广:SEO优化与外贸独立站搭建策略  高配服务器限时抢购:企业级配置与回收服务一站式优惠方案  建站主机数据库如何配置才能提升网站性能?  PHP 500报错的快速解决方法  如何在Tomcat中配置并部署网站项目?  如何在Mac上搭建Golang开发环境_使用Homebrew安装和管理Go版本  怎么制作网站设计模板图片,有电商商品详情页面的免费模板素材网站推荐吗?  如何获取免费开源的自助建站系统源码?  如何用景安虚拟主机手机版绑定域名建站?  免费视频制作网站,更新又快又好的免费电影网站?  海南网站制作公司有哪些,海口网是哪家的?  建站之星如何修改网站生成路径?  php8.4新语法match怎么用_php8.4match表达式替代switch【方法】  高防服务器:AI智能防御DDoS攻击与数据安全保障  网站制作大概多少钱一个,做一个平台网站大概多少钱?  网站制作服务平台,有什么网站可以发布本地服务信息?  网站app免费制作软件,能免费看各大网站视频的手机app?  ,网站推广常用方法?  定制建站模板如何实现SEO优化与智能系统配置?18字教程  可靠的网站设计制作软件,做网站设计需要什么样的电脑配置?  建站主机与虚拟主机有何区别?如何选择最优方案?  如何在云主机快速搭建网站站点?  如何用好域名打造高点击率的自主建站?  网站制作外包价格怎么算,招聘网站上写的“外包”是什么意思?  Python如何创建带属性的XML节点  如何快速生成专业多端适配建站电话?  非常酷的网站设计制作软件,酷培ai教育官方网站?  东莞专业网站制作公司有哪些,东莞招聘网站哪个好?  天河区网站制作公司,广州天河区如何办理身份证?需要什么资料有预约的网站吗?  如何自定义建站之星网站的导航菜单样式?  建站之星后台密码遗忘?如何快速找回?  电商平台网站制作流程,电商网站如何制作?  详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)  历史网站制作软件,华为如何找回被删除的网站?  制作网站的软件免费下载,免费制作app哪个平台好?  微信小程序 input输入框控件详解及实例(多种示例)  如何处理“XML格式不正确”错误 常见XML well-formed问题解决方法  如何高效完成自助建站业务培训?  济南网站建设制作公司,室内设计网站一般都有哪些功能? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。