Python抓取赛狗数据:指定日期赛道API教程
时间:2025-12-02 16:45:43 347浏览 收藏
想要自动化抓取赛狗数据吗?这篇教程将教你如何使用Python高效抓取GBGB(Great British Greyhound Board)官方API中的指定日期和赛道比赛结果。我们将深入探讨如何动态构建API请求参数,迭代生成日期范围,解析JSON数据,筛选特定赛道数据,并建立健壮的错误处理机制。最终,抓取到的数据将以JSON文件的形式保存,为你提供一个自动化、可扩展的数据获取方案。摆脱手动抓取的低效,利用Python轻松获取所需的赛狗数据,为数据分析和自动化系统提供强力支持!

本教程详细介绍了如何使用Python通过GBGB官方API,高效地抓取指定日期范围内特定赛狗赛道的比赛结果。文章涵盖了API请求参数的动态构建、日期范围的迭代生成、JSON数据解析、特定赛道数据的筛选以及健壮的错误处理机制,最终将抓取到的数据保存为JSON文件,旨在提供一个自动化且可扩展的数据获取方案。
引言:自动化数据抓取的必要性
在进行数据分析或建立自动化系统时,从网站获取大量结构化数据是一项常见任务。对于GBGB(Great British Greyhound Board)的赛狗比赛结果,手动通过网页或硬编码特定比赛ID的方式效率低下且难以扩展。GBGB提供了一个API接口,允许开发者通过结构化的HTTP请求获取数据。本教程将指导您如何利用Python及其requests库,结合API的参数特性,实现对指定日期范围和特定赛道比赛结果的自动化抓取。
理解GBGB API接口
GBGB提供了一个结果查询API,其基础URL为 https://api.gbgb.org.uk/api/results。此API支持通过查询参数来筛选数据,常见的参数包括:
- page: 页码,用于分页。
- itemsPerPage: 每页返回的条目数。
- date: 查询的具体日期,格式为 YYYY-MM-DD。
- race_type: 比赛类型,例如 race。
通过动态修改这些参数,我们可以构建灵活的数据抓取逻辑。
构建动态日期范围
手动输入每个日期的URL显然不可行。Python的datetime模块可以帮助我们轻松生成一个日期序列。为了覆盖一个月的每一天,我们需要一个双层循环:外层循环遍历月份,内层循环遍历该月份的每一天。
from datetime import datetime, timedelta
import requests
import json
# 定义数据存储列表
json_list = []
# API基础URL和固定参数
base_url = "https://api.gbgb.org.uk/api/results"
params = {
'page': '1',
'itemsPerPage': '200', # 假设每页最多200条,可根据实际情况调整
'race_type': 'race'
}
# 定义抓取数据的年份和日期范围
year_to_scrape = 2023
start_month = 10
end_month = 12 # 包含结束月份
for month in range(start_month, end_month + 1):
# 计算当前月份的天数
# 简化处理,不考虑闰年,2月固定28天
if month == 2:
get_days_in_month = 28
elif month in [4, 6, 9, 11]:
get_days_in_month = 30
else:
get_days_in_month = 31
for day in range(1, get_days_in_month + 1):
# 格式化日期为 YYYY-MM-DD
# 使用 f-string 的 :02d 格式化保证月份和日期始终是两位数
params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
# ... 后续进行API请求注意事项:
- 上述代码将年份硬编码为 2023。在实际应用中,您可以将其作为变量,甚至从用户输入获取,以提高灵活性。
- 月份天数的计算是一个简化版本,未考虑闰年对2月份的影响。对于生产级应用,建议使用calendar模块或更精确的日期计算方法。
- itemsPerPage参数决定了单次请求返回的最大条目数。如果某天的比赛结果超过此限制,您可能需要实现分页逻辑(即增加page参数并循环请求,直到没有更多数据)。
发送API请求与数据解析
生成日期参数后,下一步是使用requests库向API发送GET请求,并解析返回的JSON数据。
try:
# 使用requests发送GET请求
response = requests.get(base_url, params=params)
response.raise_for_status() # 检查HTTP请求是否成功 (200 OK)
# 将响应转换为Python字典
page_context_dict = response.json()
items = page_context_dict.get('items', []) # 获取'items'列表,若不存在则为空列表
# ... 后续进行数据筛选
except requests.exceptions.HTTPError as errh:
print(f"HTTP Error for date {params['date']}: {errh}")
except requests.exceptions.ConnectionError as errc:
print(f"Error Connecting for date {params['date']}: {errc}")
except requests.exceptions.Timeout as errt:
print(f"Timeout Error for date {params['date']}: {errt}")
except requests.exceptions.RequestException as err:
print(f"Oops: Something Else for date {params['date']}: {err}")
except json.JSONDecodeError as json_err:
print(f"JSON Decode Error for date {params['date']}: {json_err}")错误处理: 在进行网络请求时,务必包含错误处理机制。try-except块能够捕获各种潜在问题,如网络连接错误、HTTP状态码错误(如404、500)以及JSON解析错误,从而使程序更加健壮。response.raise_for_status()是一个便捷的方法,它会在HTTP请求返回非200状态码时抛出HTTPError异常。
筛选特定赛道数据
API返回的数据通常包含多个赛道的信息。如果只需要特定赛道的数据,我们需要在解析JSON后进行筛选。API响应中的每个比赛结果对象通常包含一个trackName字段。
specific_track_items = []
desired_track = "Swindon" # 指定您想要抓取的赛道名称
for item in items:
# 检查'trackName'是否存在且与目标赛道匹配
if "trackName" in item and item["trackName"] == desired_track:
specific_track_items.append(item)
# 将筛选后的数据添加到总列表中
json_list.extend(specific_track_items)注意事项:
- desired_track变量应设置为您希望筛选的赛道名称,确保大小写和拼写与API返回的数据完全一致。
- get('items', [])的使用是为了防止API响应中缺少items键时程序崩溃。
完整代码示例
将上述所有部分整合,形成一个完整的Python脚本:
import requests
import json
from datetime import datetime, timedelta
import calendar # 用于更精确地获取月份天数
json_list = []
base_url = "https://api.gbgb.org.uk/api/results"
params = {
'page': '1',
'itemsPerPage': '200', # 可根据API限制和需求调整
'race_type': 'race'
}
# --- 配置抓取参数 ---
year_to_scrape = 2023
start_month = 10
end_month = 12 # 包含结束月份
desired_track = "Swindon" # 替换为您想要抓取的赛道名称
output_filename = 'gbgb_results_swindon.json' # 输出文件名
print(f"开始抓取 {year_to_scrape} 年 {start_month} 月到 {end_month} 月,赛道:{desired_track} 的数据...")
for month in range(start_month, end_month + 1):
# 使用calendar模块获取指定月份的天数,考虑闰年
num_days_in_month = calendar.monthrange(year_to_scrape, month)[1]
for day in range(1, num_days_in_month + 1):
# 格式化日期字符串
params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
print(f"正在请求数据:{params['date']}")
try:
response = requests.get(base_url, params=params)
response.raise_for_status()
page_context_dict = response.json()
items = page_context_dict.get('items', [])
specific_track_items = []
for item in items:
if "trackName" in item and item["trackName"] == desired_track:
specific_track_items.append(item)
if specific_track_items:
json_list.extend(specific_track_items)
print(f" - 成功抓取到 {len(specific_track_items)} 条 {desired_track} 赛道数据。")
else:
print(f" - {desired_track} 赛道在 {params['date']} 没有数据或数据为空。")
except requests.exceptions.HTTPError as errh:
print(f" - HTTP Error for date {params['date']}: {errh}")
except requests.exceptions.ConnectionError as errc:
print(f" - Error Connecting for date {params['date']}: {errc}")
except requests.exceptions.Timeout as errt:
print(f" - Timeout Error for date {params['date']}: {errt}")
except requests.exceptions.RequestException as err:
print(f" - Oops: Something Else for date {params['date']}: {err}")
except json.JSONDecodeError as json_err:
print(f" - JSON Decode Error for date {params['date']}: {json_err}")
# 将所有抓取到的数据写入JSON文件
if json_list:
with open(output_filename, 'w', encoding='utf-8') as f:
json.dump(json_list, f, ensure_ascii=False, indent=4)
print(f"\n数据抓取完成!共抓取到 {len(json_list)} 条数据,已保存至 {output_filename}")
else:
print("\n没有抓取到任何数据。请检查日期范围、赛道名称或API连接。")
总结与注意事项
通过本教程,您已经学会了如何利用Python和GBGB API高效地抓取特定日期范围和赛道的数据。这种方法相比手动抓取具有显著的效率和可扩展性优势。
进一步的改进和注意事项:
- API速率限制: 大多数API都有请求速率限制。频繁或大量的请求可能会导致IP被暂时封禁。在实际应用中,考虑在请求之间添加短暂的延迟(例如使用time.sleep())。
- 分页处理: 如果itemsPerPage不足以覆盖某一天所有比赛结果,您需要实现分页逻辑。这意味着在每次请求后检查是否有更多页的数据,并循环请求直到所有页都被抓取。
- 动态年份: 当前代码硬编码了年份。您可以修改代码以支持动态年份输入或抓取多年数据。
- 数据存储格式: 本教程将数据保存为JSON格式。根据您的需求,也可以将其存储到CSV文件、数据库(如SQLite、PostgreSQL)或其他数据结构中。
- 代理IP: 如果遇到IP封禁问题,可以考虑使用代理IP池来轮换请求IP。
- 错误重试机制: 对于临时的网络错误或API服务器问题,可以实现简单的重试逻辑,而不是立即失败。
通过遵循这些指导原则,您可以构建一个稳定、高效的Python脚本,用于从GBGB API获取所需的赛狗比赛数据。
终于介绍完啦!小伙伴们,这篇关于《Python抓取赛狗数据:指定日期赛道API教程》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识,快来关注吧!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
291 收藏
-
204 收藏
-
401 收藏
-
227 收藏
-
400 收藏
-
327 收藏
-
124 收藏
-
450 收藏
-
464 收藏
-
290 收藏
-
112 收藏
-
324 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习