Python卡方检验方法及实例解析
时间:2025-07-20 13:47:39 188浏览 收藏
有志者,事竟成!如果你在学习文章,那么本文《Python如何做卡方检验?》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
要使用Python实现卡方检验,核心步骤是构建列联表并调用scipy.stats.chi2_contingency函数。1. 首先确保数据为分类变量,并整理为列联表形式;2. 使用pandas的crosstab函数生成列联表;3. 将列联表传入chi2_contingency函数,获取卡方统计量、P值、自由度和期望频率;4. 通过比较P值与显著性水平(如0.05)判断变量是否独立;5. 若P值小于显著性水平,则拒绝原假设,表明变量间存在显著关联,否则无法拒绝原假设。此外,scipy.stats.chisquare适用于拟合优度检验,而Pandas、statsmodels及可视化工具可辅助数据处理与分析。
Python中实现卡方检验,通常会用到scipy.stats
模块里的chi2_contingency
函数,它能帮你快速评估分类变量间是否存在显著的关联性。这个函数处理列联表数据非常方便,是统计分析里判断两个分类变量是否独立的一个利器。

解决方案
要用Python实现数据的卡方检验,核心是构建一个列联表(或称频率表),然后将其传入scipy.stats.chi2_contingency
函数。这个函数会返回卡方统计量、P值、自由度和期望频率。
首先,你需要确保你的数据是分类变量,并且已经整理成了列联表的形式。如果你的原始数据是扁平化的(比如DataFrame的两列),你可以用Pandas的crosstab
函数来生成列联表。

这里是一个简单的例子:假设我们想看看性别(男/女)和对某产品A的购买意愿(会买/不会买)之间有没有关联。
import pandas as pd from scipy.stats import chi2_contingency import numpy as np # 模拟一些数据 data = { '性别': ['男', '女', '男', '女', '男', '女', '男', '女', '男', '女', '男', '女', '男', '女', '男', '女', '男', '女', '男', '女'], '购买意愿': ['会买', '不会买', '会买', '会买', '不会买', '会买', '会买', '不会买', '会买', '会买', '会买', '不会买', '会买', '会买', '不会买', '会买', '会买', '不会买', '会买', '会买'] } df = pd.DataFrame(data) # 使用pandas的crosstab生成列联表 # 这步很关键,它把你的原始数据转换成chi2_contingency需要的格式 contingency_table = pd.crosstab(df['性别'], df['购买意愿']) print("生成的列联表:") print(contingency_table) # 执行卡方检验 chi2, p_value, dof, expected_freq = chi2_contingency(contingency_table) print(f"\n卡方统计量 (Chi-square statistic): {chi2:.4f}") print(f"P值 (P-value): {p_value:.4f}") print(f"自由度 (Degrees of freedom): {dof}") print("期望频率 (Expected frequencies):\n", expected_freq) # 解读P值 alpha = 0.05 # 显著性水平,常用的有0.05或0.01 if p_value < alpha: print(f"\n由于P值 ({p_value:.4f}) 小于显著性水平 ({alpha}),我们拒绝原假设。") print("这意味着性别和购买意愿之间存在显著的关联。") else: print(f"\n由于P值 ({p_value:.4f}) 大于或等于显著性水平 ({alpha}),我们无法拒绝原假设。") print("这意味着没有足够的证据表明性别和购买意愿之间存在显著关联。")
这段代码首先用pd.crosstab
把原始的性别和购买意愿数据转换成一个列联表,这个表直观地展示了每个分类组合的频数。然后,chi2_contingency
函数接收这个列联表,并返回我们所需的所有统计量。其中,P值是重中之重,它告诉我们观察到的这种关联性有多大概率是随机发生的。

卡方检验适用于哪些数据类型和场景?
卡方检验,顾名思义,是处理“类别”数据的好手。它主要适用于分析两个或多个分类变量之间的关系。这里的“分类变量”可以是名义型(如性别、血型、颜色)或序数型(如教育程度、满意度等级),但它们的数据形式必须是离散的、可计数的类别。
具体来说,卡方检验最常见的应用场景有两种:
独立性检验(Test of Independence):这也是
scipy.stats.chi2_contingency
函数主要解决的问题。你想知道两个分类变量之间是否存在统计学上的显著关联。比如,吸烟习惯和肺癌发病率是否独立?某个广告策略对不同年龄段人群的吸引力是否一致?这就是我们上面例子里展示的场景。它回答的是“这两个变量之间是不是有关系?”这个问题。拟合优度检验(Goodness-of-Fit Test):这个场景是用来检验一个观察到的频数分布是否与某个理论分布(或期望分布)显著不同。比如,你抛一枚硬币100次,得到55次正面,你想知道这枚硬币是不是均匀的(即正面和反面出现的概率都是0.5)。这时,你不是比较两个变量,而是比较一个变量的实际观察值和你的理论预期值。Python里,
scipy.stats.chisquare
函数更适合处理这类问题。
当然,卡方检验也有一些前提假设,比如样本量要足够大,每个单元格的期望频率不能太小(通常建议不低于5)。如果期望频率过小,检验结果的可靠性可能会受影响,这时候可能需要考虑费舍尔精确检验(Fisher's Exact Test)等替代方法。但在日常的数据分析中,对于大部分中等以上规模的数据集,卡方检验是一个非常实用且直观的选择。
卡方检验的结果如何解读,P值意味着什么?
卡方检验的结果主要看P值,但理解P值之前,我们需要先明白卡方统计量本身以及检验的假设。
卡方统计量 (Chi-square statistic): 这个值衡量的是观察到的频率与期望频率之间的差异程度。期望频率是指在假设两个变量完全独立的情况下,每个单元格应该出现的频数。如果观察到的频率与期望频率相差越大,卡方值就越大,这通常意味着两个变量之间越可能存在关联。但卡方值本身没有直接的解释意义,它需要结合自由度来计算P值。
自由度 (Degrees of Freedom, dof):
在列联表中,自由度通常计算为 (行数 - 1) * (列数 - 1)
。它反映了在计算卡方值时,有多少个数据点是“自由”变化的,而不是被其他数据点或总和所限制的。自由度是确定P值的重要参数。
P值 (P-value): P值是卡方检验结果中最关键的部分。它回答了一个核心问题:“如果原假设(即两个变量之间没有关联,它们是独立的)是真实的,那么我们观察到当前这样的卡方统计量,或者比它更极端的卡方统计量的概率是多少?”
- 原假设 (H0):两个分类变量是相互独立的,它们之间没有显著关联。
- 备择假设 (H1):两个分类变量不是相互独立的,它们之间存在显著关联。
P值的解读:
- 设定显著性水平 (Alpha, α):在进行检验之前,我们通常会设定一个显著性水平,比如0.05(或5%)。这个值代表了我们愿意接受犯“第一类错误”(即在原假设为真时却拒绝了原假设)的最大概率。
- 比较P值与显著性水平:
- 如果 P值 < α:这意味着在原假设成立的情况下,我们观察到当前这种关联性的概率非常小。因此,我们有充分的理由拒绝原假设。结论是:两个变量之间存在统计学上的显著关联。你可以说,它们不是独立的。
- 如果 P值 ≥ α:这意味着在原假设成立的情况下,我们观察到当前这种关联性的概率相对较高。我们没有足够的证据来拒绝原假设。结论是:没有充分证据表明两个变量之间存在显著关联。这不代表它们一定独立,只是现有数据不足以证明它们不独立。
举个例子,如果你的P值是0.001,远小于0.05,你就会非常自信地说性别和购买意愿之间有显著关联。但如果P值是0.25,远大于0.05,你就不能下这个结论。
理解P值时,要避免一个常见误区:P值小不代表关联性强。P值只说明了关联是否显著,也就是它是否可能是随机发生的。关联的强度需要通过其他指标来衡量,比如Cramer's V系数,那又是另一个话题了。
除了scipy.stats.chi2_contingency,还有哪些相关的Python工具或方法?
虽然scipy.stats.chi2_contingency
是进行独立性卡方检验的主力,但在Python的数据科学生态中,还有一些其他工具和方法能辅助或完成相关的任务,让你的分析更加全面。
scipy.stats.chisquare
(拟合优度检验): 正如前面提到的,如果你想检验一个观察到的频数分布是否符合某个理论分布,chisquare
函数是首选。它接收观察频数和可选的期望频数。from scipy.stats import chisquare # 假设你抛硬币100次,得到正面55次,反面45次 observed_frequencies = [55, 45] # 期望如果是均匀硬币,正面和反面各50次 expected_frequencies = [50, 50] chi2_gof, p_value_gof = chisquare(f_obs=observed_frequencies, f_exp=expected_frequencies) print(f"\n拟合优度检验 - 卡方统计量: {chi2_gof:.4f}") print(f"拟合优度检验 - P值: {p_value_gof:.4f}") # 解读方式与独立性检验类似
这个函数在处理单个分类变量的分布符合性时非常有用。
Pandas的
crosstab
函数: 虽然它不是一个统计检验函数,但它是构建列联表的核心工具。在进行卡方检验之前,你几乎总会用到它来将原始的扁平数据转换为chi2_contingency
所需的矩阵格式。它的灵活性很高,可以轻松处理多列,甚至计算百分比。# 示例在解决方案部分已展示,这里不再重复 # contingency_table = pd.crosstab(df['变量1'], df['变量2'])
statsmodels
库: 对于更复杂的统计建模和假设检验,statsmodels
是一个非常强大的库。它提供了更丰富的统计模型,包括广义线性模型(GLM),可以用来处理分类响应变量。虽然直接用它来做简单的卡方检验可能有点“杀鸡用牛刀”,但如果你后续需要进行更深入的分析,比如控制其他变量的影响,或者构建预测模型,statsmodels
会是你的得力助手。例如,它能让你构建Logit回归模型来分析分类变量间的关系。可视化工具 (Matplotlib, Seaborn): 虽然不是直接的统计检验工具,但它们在卡方检验的前期探索和结果展示中扮演着不可或缺的角色。通过条形图、堆叠条形图或马赛克图,你可以直观地看到分类变量之间的频率分布和潜在关联,这有助于你形成假设并更好地理解卡方检验的结果。
import seaborn as sns import matplotlib.pyplot as plt # 假设 df 是你的原始DataFrame plt.figure(figsize=(8, 6)) sns.countplot(data=df, x='性别', hue='购买意愿') plt.title('性别与购买意愿分布') plt.xlabel('性别') plt.ylabel('数量') plt.show()
可视化能让你在跑检验之前,对数据有个直观的感受,也方便你向他人解释检验结果。
这些工具共同构成了一个强大的分析流程:从数据清洗和预处理(Pandas),到统计检验(SciPy),再到更高级的模型构建(Statsmodels),以及结果的可视化(Matplotlib/Seaborn)。在实际工作中,它们往往是配合使用的。
本篇关于《Python卡方检验方法及实例解析》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
420 收藏
-
407 收藏
-
356 收藏
-
357 收藏
-
452 收藏
-
269 收藏
-
442 收藏
-
393 收藏
-
288 收藏
-
119 收藏
-
427 收藏
-
493 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习