登录
首页 >  文章 >  python教程

周统计

时间:2025-01-09 22:39:35 228浏览 收藏

IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《周统计》,聊聊,我们一起来看看吧!

周统计

一周统计学速成:专业级“潜水”指南

本周,我们将以严谨的技术手段,辅以轻松幽默的解读方式,深入浅出地讲解统计学核心概念。本文将详细阐述我的统计学学习历程,涵盖理论知识、实际案例和 Python 代码实现。

1. 描述性统计:数据概览

描述性统计是整理和概括原始数据,使其更易于理解的有效工具。它是数据分析的第一步,为后续分析奠定基础。

数据类型

  1. 名义数据: 定性数据,类别之间无序。例如:颜色(红、绿、蓝)、性别(男、女)。 主要运算:计数、众数。
  2. 顺序数据: 定性数据,类别之间有顺序关系,但数值差异无实际意义。例如:教育程度(小学、中学、大学)、满意度等级(非常满意、满意、一般、不满意)。主要运算:中位数、百分位数。
  3. 区间数据: 定量数据,数值差异有意义,但无绝对零点。例如:摄氏温度、年份。主要运算:加减法、均值、标准差。
  4. 比率数据: 定量数据,数值差异有意义,存在绝对零点。例如:身高、体重、收入。支持所有算术运算。

集中趋势度量

  • 平均数 (均值): 数据值的算术平均数。
  • 中位数: 排序后数据集中间的数值。
  • 众数: 数据集中出现频率最高的数值。

Python 示例:

import numpy as np
from scipy import stats

data = [12, 15, 14, 10, 12, 17, 18]

mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data).mode[0]

print(f"均值: {mean}, 中位数: {median}, 众数: {mode}")

2. 离散度度量:揭示数据波动

集中趋势度量展现了数据的中心位置,而离散度度量则反映了数据的离散程度或变异性。

关键指标

  1. 方差 (σ² 表示总体,s² 表示样本): 数据与均值的平均平方差。总体方差公式:σ² = Σ(xᵢ - μ)² / n;样本方差公式:s² = Σ(xᵢ - x̄)² / (n-1)
  2. 标准差 (σ 表示总体,s 表示样本): 方差的平方根,与数据具有相同的单位,更直观地反映数据的离散程度。
  3. 偏度: 描述数据分布的不对称性。正偏斜:长尾在右侧;负偏斜:长尾在左侧。

Python 示例:

std_dev = np.std(data, ddof=1)  # 样本标准差
variance = np.var(data, ddof=1)  # 样本方差

print(f"标准差: {std_dev}, 方差: {variance}")

3. 概率分布:数据行为模型

概率分布描述了随机变量取值的概率规律。

概率函数

  1. 概率质量函数 (PMF): 用于离散随机变量。例如:掷骰子的结果。
  2. 概率密度函数 (PDF): 用于连续随机变量。例如:人的身高。
  3. 累积分布函数 (CDF): 表示随机变量取值小于或等于某个值的概率。

Python 示例:

from scipy.stats import norm

x = np.linspace(-3, 3, 100)
pdf = norm.pdf(x, loc=0, scale=1)
cdf = norm.cdf(x, loc=0, scale=1)

print(f"x=1 处的概率密度: {norm.pdf(1)}")
print(f"x=1 处的累积概率: {norm.cdf(1)}")

常见分布类型

  1. 正态/高斯分布: 对称的钟形曲线。例如:身高、体重。
  2. 二项分布: n 次独立伯努利试验中成功的次数。例如:抛硬币。
  3. 泊松分布: 固定时间或空间内事件发生的次数。例如:每小时收到的邮件数量。
  4. 对数正态分布: 对数服从正态分布的变量的分布。
  5. 幂律分布: 例如:城市规模、财富分配。

正态分布 Python 示例:

import matplotlib.pyplot as plt
samples = np.random.normal(0, 1, 1000)
plt.hist(samples, bins=30, density=True, alpha=0.6, color='g')
plt.title('正态分布')
plt.show()

4. 推断统计:从样本推断总体

推断统计基于样本数据对总体特征进行推断。

关键概念

  1. 点估计: 对总体参数的单一最佳估计值。
  2. 置信区间: 总体参数可能落入的范围。
  3. 假设检验: 检验关于总体参数的假设。包括原假设 (H₀) 和备择假设 (Hₐ),以及 p 值 (在原假设成立的情况下观察到当前结果或更极端结果的概率)。
  4. t 分布: 用于小样本情况下对均值的假设检验。

假设检验 Python 示例:

from scipy.stats import ttest_1samp

data = [1.83, 1.91, 1.76, 1.77, 1.89]
mean_population = 1.80

stat, p_value = ttest_1samp(data, mean_population)
print(f"t 统计量: {stat}, p 值: {p_value}")

5. 中心极限定理 (CLT)

CLT 指出,无论总体分布如何,样本均值的分布都近似于正态分布(当样本量足够大时)。

Python 示例:

sample_means = [np.mean(np.random.randint(1, 100, 30)) for _ in range(1000)]
plt.hist(sample_means, bins=30, density=True, alpha=0.6, color='b')
plt.title('中心极限定理')
plt.show()

总结

本周我们对统计学进行了深入浅出的探索,从数据描述到概率分布,再到统计推断,学习过程既严谨又生动。 继续关注后续内容,我们将继续用 Python 代码解开数据科学的奥秘。

好了,本文到此结束,带大家了解了《周统计》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>