全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python API数据提取教程:理解循环与字典创建的缩进陷阱

本文深入探讨了在Python中从嵌套API响应中提取数据时,因循环缩进不当导致字典追加不完整的问题。通过一个具体的PGA高尔夫赛事数据抓取案例,详细分析了错误原因,并提供了正确的代码结构和解决方案。教程强调了Python中缩进的重要性,指导读者如何确保在多层嵌套循环中正确构建并累加所有目标数据记录,最终生成完整的DataFrame。

在处理来自外部API的复杂JSON数据时,开发者经常需要遍历多层嵌套结构来提取所需信息。然而,不正确的代码缩进是导致数据丢失或不完整的一个常见陷阱。本教程将通过一个实际案例,详细剖析这一问题及其解决方案。

API数据提取与不完整的记录:问题场景

假设我们需要从ESPN的PGA高尔夫赛事API中获取所有参赛选手的信息。API返回的JSON数据结构通常是多层嵌套的,例如:events -> competitions -> competitors -> athlete。我们的目标是从中提取每个赛事(event)的ID、日期、名称以及所有参赛选手(playerName)。

初次尝试的代码可能如下所示,旨在遍历赛事和选手并收集数据:

import requests
import pandas as pd

# 定义API端点
api = 'https://site.web.api.espn.com/apis/site/v2/sports/golf/leaderboard?league=pga'

# 发送GET请求并获取JSON响应
response = requests.get(api)
data = response.json()

# 提取事件数据
events = data['events']

# 创建一个空列表来存储游戏数据
games = []

# 遍历每个事件并获取相关信息
for event in events:
    game_id = event['id']
    date = event['date']
    name = event['name']

    for competition in event['competitions']:
        for competitor in competition['competitors']:
            athlete = competitor['athlete']
            playerName = athlete['displayName'] # 每次循环都会更新playerName变量

    # 在循环外部创建字典并追加,此时playerName已是最后一个competitor的值
    game = {
        'game_id': game_id,
        'date': date,
        'name': name,
        'playerName': playerName
    }
    games.append(game)

# 转换为pandas DataFrame
df = pd.DataFrame(games)
print(df)

运行上述代码,我们可能会得到类似以下的结果:

     game_id               date        name playerName
0  401580329  2025-01-04T05:00Z  The Sentry  Sam Burns

从结果中可以看出,尽管API响应中包含多名选手,但最终的DataFrame中却只显示了最后一位选手的记录(例如 "Sam Burns"),并且每场赛事只有一条记录,这显然不是我们期望的。

问题分析:Python缩进与变量作用域的影响

出现上述问题的原因在于Python的缩进规则和变量作用域。在原始代码中:

  1. 最内层的 for competitor in competition['competitors']: 循环确实遍历了所有的 competitor,并且每次迭代都正确地更新了 playerName 变量。
  2. 然而,game 字典的创建和 games.append(game) 操作却被放置在 for competitor 循环的 外部
  3. 这意味着,对于每个 event,当 for competitor 循环结束后,playerName 变量将保留其在 最后一次 迭代中的值。
  4. 随后,game 字典只会被创建 一次,并使用这个最终的 playerName 值,然后被追加到 games 列表中。

因此,对于每个赛事,无论有多少参赛者,我们最终只会得到一条记录,其中包含该赛事下最后一个参赛者的信息。

解决方案:调整字典创建和追加的缩进

要解决这个问题,我们需要确保在每次遍历到新的 competitor 时,都创建一个新的 game 字典并将其追加到 games 列表中。这需要将 game 字典的创建和 games.append(game) 操作移动到 for competitor 循环的 内部,使其成为该循环的一部分。

以下是修正后的代码:

import requests
import pandas as pd

# 定义API端点
api = 'https://site.web.api.espn.com/apis/site/v2/sports/golf/leaderboard?league=pga'

# 发送GET请求并获取JSON响应
response = requests.get(api)
data = response.json()

# 提取事件数据
events = data['events']

# 创建一个空列表来存储游戏数据
games = []

# 遍历每个事件并获取相关信息
for event in events:
    game_id = event['id']
    date = event['date']
    name = event['name']

    for competition in event['competitions']:
        for competitor in competition['competitors']:
            athlete = competitor['athlete']
            playerName = athlete['displayName']

            # 关键修改:将字典创建和追加操作移到最内层循环内部
            game = {
                'game_id': game_id,
                'date': date,
                'name': name,
                'playerName': playerName
            }
            games.append(game) # 每次循环一个competitor,就创建一个字典并追加

# 转换为pandas DataFrame
df = pd.DataFrame(games)
print(df)

通过这次修改,每当代码遍历到一个新的 competitor 时,它都会立即创建一个包含当前 game_id、date、name 和 playerName 的字典,并将其添加到 games 列表中。这样,所有参赛者的信息都将被正确捕获和存储。

关键点与注意事项

  1. Python的缩进规则: Python使用缩进来定义代码块(如循环体、函数体、条件语句等)。理解这一点对于避免逻辑错误至关重要。错误的缩进不会导致语法错误,但会导致程序逻辑与预期不符。
  2. 嵌套循环中的数据累积: 当处理多层嵌套数据结构时,务必清楚在哪个循环层级创建和累积数据。如果需要为内层循环的每个元素生成一条记录,那么字典的创建和列表的追加操作就必须发生在最内层循环内部。
  3. 变量作用域: 变量的生命周期和作用域由其定义位置和缩进决定。在循环外部定义的变量在整个循环过程中保持不变,而在循环内部定义的变量则会在每次迭代时重新创建或更新。
  4. 调试技巧:
    • 使用 print() 语句: 在循环内部的关键位置打印变量的值,可以帮助你追踪数据流和变量状态。例如,在 playerName = athlete['displayName'] 之后立即 print(playerName),可以确认每个 competitor 的名字是否被正确获取。
    • 逐步调试器: 使用IDE(如VS Code、PyCharm)提供的调试器,可以逐行执行代码,观察变量的变化,从而更直观地发现问题。
    • 检查API响应结构: 在开始编码前,仔细检查API返回的JSON结构,明确数据路径,有助于规划循环和数据提取逻辑。

总结

在Python中处理API响应并提取嵌套数据时,正确理解和运用缩进是避免数据丢失的关键。本教程通过一个具体的案例,强调了将字典创建和列表追加操作放置在正确循环层级的重要性。掌握这些基本原则,将有助于你更高效、准确地处理复杂数据,构建健壮的数据处理流程。


# python  # js  # json  # go  # 编码  # app  # pycharm  # vs code  # 作用域  # 数据丢失 


相关文章: 武汉网站制作费用多少,在武汉武昌,建面100平方左右的房子,想装暖气片,费用大概是多少啊?  定制建站如何定义?其核心优势是什么?  建站之星如何助力企业快速打造五合一网站?  香港服务器网站测试全流程:性能评估、SEO加载与移动适配优化  如何在IIS服务器上快速部署高效网站?  娃派WAP自助建站:免费模板+移动优化,快速打造专业网站  相亲简历制作网站推荐大全,新相亲大会主持人小萍萍资料?  如何配置支付宝与微信支付功能?  SQL查询语句优化的实用方法总结  建站之星免费版是否永久可用?  台州网站建设制作公司,浙江手机无犯罪记录证明怎么开?  在线教育网站制作平台,山西立德教育官网?  c# 服务器GC和工作站GC的区别和设置  广州网站设计制作一条龙,广州巨网网络科技有限公司是干什么的?  建站之星多图banner生成与模板自定义指南  seo网站制作优化,网站SEO优化步骤有哪些?  浅谈Javascript中的Label语句  ,柠檬视频怎样兑换vip?  如何基于云服务器快速搭建网站及云盘系统?  如何在IIS中新建站点并解决端口绑定冲突?  家族网站制作贴纸教程视频,用豆子做粘帖画怎么制作?  广州网站制作公司哪家好一点,广州欧莱雅百库网络科技有限公司官网?  如何用低价快速搭建高质量网站?  长春网站建设制作公司,长春的网络公司怎么样主要是能做网站的?  如何有效防御Web建站篡改攻击?  TestNG的testng.xml配置文件怎么写  c++怎么使用类型萃取type_traits_c++ 模板元编程类型判断【方法】  如何快速搭建高效简练网站?  制作网站外包平台,自动化接单网站有哪些?  如何快速搭建自助建站会员专属系统?  香港服务器部署网站为何提示未备案?  如何在香港免费服务器上快速搭建网站?  怎么制作网站设计模板图片,有电商商品详情页面的免费模板素材网站推荐吗?  如何破解联通资金短缺导致的基站建设难题?  *服务器网站为何频现安全漏洞?  如何在Mac上搭建Golang开发环境_使用Homebrew安装和管理Go版本  魔毅自助建站系统:模板定制与SEO优化一键生成指南  已有域名能否直接搭建网站?  如何在IIS7中新建站点?详细步骤解析  电商网站制作价格怎么算,网上拍卖流程以及规则?  如何用PHP快速搭建CMS系统?  如何在云服务器上快速搭建个人网站?  如何在阿里云虚拟机上搭建网站?步骤解析与避坑指南  网站app免费制作软件,能免费看各大网站视频的手机app?  武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?  如何通过西部数码建站助手快速创建专业网站?  如何在云指建站中生成FTP站点?  香港服务器如何优化才能显著提升网站加载速度?  如何通过多用户协作模板快速搭建高效企业网站?  厦门模型网站设计制作公司,厦门航空飞机模型掉色怎么办? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。