Python 网页解析HTMLParse的实例详解

使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:
现在一个模拟的html文件:
<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>
需求是,提取出标题的属性值,以及内容:
代码如下:
import html.parser as h
class MyHTMLParser(h.HTMLParser):
a_t=False
def handle_starttag(self, tag, attrs):
#print("开始一个标签:",tag)
print()
if str(tag).startswith("title"):
print(tag)
self.a_t=True
for attr in attrs:
print(" 属性值:",attr)
def handle_endtag(self, tag):
if tag == "title":
self.a_t=False
#print("结束一个标签:",tag)
def handle_data(self, data):
if self.a_t is True:
print("得到的数据: ",data)
p=MyHTMLParser()
p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>")
p.close()
运行结果如下:
title
属性值: ('id', 'main')
属性值: ('mouse', '你好')
得到的数据: 我是标题
主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。
解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。
以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# Python
# 网页解析HTMLParse
# 网页解析的实例
# Python requests获取网页常用方法解析
# Python爬虫解析网页的4种方式实例及原理解析
# Python大数据之使用lxml库解析html网页文件示例
# python爬取Ajax动态加载网页过程解析
# Python读取本地文件并解析网页元素的方法
# python+django加载静态网页模板解析
# Python网页解析利器BeautifulSoup安装使用介绍
# Python网页解析器使用实例详解
# 我是
# 你好
# 所需要
# 自己的
# 这是
# 如有
# 希望能
# 写了
# 谢谢大家
# 最简单
# 还有很多
# 来完成
# 比较容易
# 就可以
# 疑问请
# 继承了
# gt
# title
# xhtml
# lt
相关文章:
如何在新浪SAE免费搭建个人博客?
seo网站制作优化,网站SEO优化步骤有哪些?
官网自助建站系统:SEO优化+多语言支持,快速搭建专业网站
如何选择高效稳定的ISP建站解决方案?
建站之星logo尺寸如何设置最合适?
关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)
Thinkphp 中 distinct 的用法解析
如何用低价快速搭建高质量网站?
测试制作网站有哪些,测试性取向的权威测试或者网站?
建站之星官网登录失败?如何快速解决?
如何用西部建站助手快速创建专业网站?
香港服务器网站推广:SEO优化与外贸独立站搭建策略
高配服务器限时抢购:企业级配置与回收服务一站式优惠方案
建站主机数据库如何配置才能提升网站性能?
PHP 500报错的快速解决方法
如何在Tomcat中配置并部署网站项目?
如何在Mac上搭建Golang开发环境_使用Homebrew安装和管理Go版本
怎么制作网站设计模板图片,有电商商品详情页面的免费模板素材网站推荐吗?
如何获取免费开源的自助建站系统源码?
如何用景安虚拟主机手机版绑定域名建站?
免费视频制作网站,更新又快又好的免费电影网站?
海南网站制作公司有哪些,海口网是哪家的?
建站之星如何修改网站生成路径?
php8.4新语法match怎么用_php8.4match表达式替代switch【方法】
高防服务器:AI智能防御DDoS攻击与数据安全保障
网站制作大概多少钱一个,做一个平台网站大概多少钱?
网站制作服务平台,有什么网站可以发布本地服务信息?
网站app免费制作软件,能免费看各大网站视频的手机app?
,网站推广常用方法?
定制建站模板如何实现SEO优化与智能系统配置?18字教程
可靠的网站设计制作软件,做网站设计需要什么样的电脑配置?
建站主机与虚拟主机有何区别?如何选择最优方案?
如何在云主机快速搭建网站站点?
如何用好域名打造高点击率的自主建站?
网站制作外包价格怎么算,招聘网站上写的“外包”是什么意思?
Python如何创建带属性的XML节点
如何快速生成专业多端适配建站电话?
非常酷的网站设计制作软件,酷培ai教育官方网站?
东莞专业网站制作公司有哪些,东莞招聘网站哪个好?
天河区网站制作公司,广州天河区如何办理身份证?需要什么资料有预约的网站吗?
如何自定义建站之星网站的导航菜单样式?
建站之星后台密码遗忘?如何快速找回?
电商平台网站制作流程,电商网站如何制作?
详解ASP.NET 生成二维码实例(采用ThoughtWorks.QRCode和QrCode.Net两种方式)
历史网站制作软件,华为如何找回被删除的网站?
制作网站的软件免费下载,免费制作app哪个平台好?
微信小程序 input输入框控件详解及实例(多种示例)
如何处理“XML格式不正确”错误 常见XML well-formed问题解决方法
如何高效完成自助建站业务培训?
济南网站建设制作公司,室内设计网站一般都有哪些功能?
*请认真填写需求信息,我们会在24小时内与您取得联系。