周统计
时间:2025-01-09 22:39:35 228浏览 收藏
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《周统计》,聊聊,我们一起来看看吧!
一周统计学速成:专业级“潜水”指南
本周,我们将以严谨的技术手段,辅以轻松幽默的解读方式,深入浅出地讲解统计学核心概念。本文将详细阐述我的统计学学习历程,涵盖理论知识、实际案例和 Python 代码实现。
1. 描述性统计:数据概览
描述性统计是整理和概括原始数据,使其更易于理解的有效工具。它是数据分析的第一步,为后续分析奠定基础。
数据类型
- 名义数据: 定性数据,类别之间无序。例如:颜色(红、绿、蓝)、性别(男、女)。 主要运算:计数、众数。
- 顺序数据: 定性数据,类别之间有顺序关系,但数值差异无实际意义。例如:教育程度(小学、中学、大学)、满意度等级(非常满意、满意、一般、不满意)。主要运算:中位数、百分位数。
- 区间数据: 定量数据,数值差异有意义,但无绝对零点。例如:摄氏温度、年份。主要运算:加减法、均值、标准差。
- 比率数据: 定量数据,数值差异有意义,存在绝对零点。例如:身高、体重、收入。支持所有算术运算。
集中趋势度量
- 平均数 (均值): 数据值的算术平均数。
- 中位数: 排序后数据集中间的数值。
- 众数: 数据集中出现频率最高的数值。
Python 示例:
import numpy as np
from scipy import stats
data = [12, 15, 14, 10, 12, 17, 18]
mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data).mode[0]
print(f"均值: {mean}, 中位数: {median}, 众数: {mode}")
2. 离散度度量:揭示数据波动
集中趋势度量展现了数据的中心位置,而离散度度量则反映了数据的离散程度或变异性。
关键指标
- 方差 (σ² 表示总体,s² 表示样本): 数据与均值的平均平方差。总体方差公式:σ² = Σ(xᵢ - μ)² / n;样本方差公式:s² = Σ(xᵢ - x̄)² / (n-1)
- 标准差 (σ 表示总体,s 表示样本): 方差的平方根,与数据具有相同的单位,更直观地反映数据的离散程度。
- 偏度: 描述数据分布的不对称性。正偏斜:长尾在右侧;负偏斜:长尾在左侧。
Python 示例:
std_dev = np.std(data, ddof=1) # 样本标准差
variance = np.var(data, ddof=1) # 样本方差
print(f"标准差: {std_dev}, 方差: {variance}")
3. 概率分布:数据行为模型
概率分布描述了随机变量取值的概率规律。
概率函数
- 概率质量函数 (PMF): 用于离散随机变量。例如:掷骰子的结果。
- 概率密度函数 (PDF): 用于连续随机变量。例如:人的身高。
- 累积分布函数 (CDF): 表示随机变量取值小于或等于某个值的概率。
Python 示例:
from scipy.stats import norm
x = np.linspace(-3, 3, 100)
pdf = norm.pdf(x, loc=0, scale=1)
cdf = norm.cdf(x, loc=0, scale=1)
print(f"x=1 处的概率密度: {norm.pdf(1)}")
print(f"x=1 处的累积概率: {norm.cdf(1)}")
常见分布类型
- 正态/高斯分布: 对称的钟形曲线。例如:身高、体重。
- 二项分布: n 次独立伯努利试验中成功的次数。例如:抛硬币。
- 泊松分布: 固定时间或空间内事件发生的次数。例如:每小时收到的邮件数量。
- 对数正态分布: 对数服从正态分布的变量的分布。
- 幂律分布: 例如:城市规模、财富分配。
正态分布 Python 示例:
import matplotlib.pyplot as plt
samples = np.random.normal(0, 1, 1000)
plt.hist(samples, bins=30, density=True, alpha=0.6, color='g')
plt.title('正态分布')
plt.show()
4. 推断统计:从样本推断总体
推断统计基于样本数据对总体特征进行推断。
关键概念
- 点估计: 对总体参数的单一最佳估计值。
- 置信区间: 总体参数可能落入的范围。
- 假设检验: 检验关于总体参数的假设。包括原假设 (H₀) 和备择假设 (Hₐ),以及 p 值 (在原假设成立的情况下观察到当前结果或更极端结果的概率)。
- t 分布: 用于小样本情况下对均值的假设检验。
假设检验 Python 示例:
from scipy.stats import ttest_1samp
data = [1.83, 1.91, 1.76, 1.77, 1.89]
mean_population = 1.80
stat, p_value = ttest_1samp(data, mean_population)
print(f"t 统计量: {stat}, p 值: {p_value}")
5. 中心极限定理 (CLT)
CLT 指出,无论总体分布如何,样本均值的分布都近似于正态分布(当样本量足够大时)。
Python 示例:
sample_means = [np.mean(np.random.randint(1, 100, 30)) for _ in range(1000)]
plt.hist(sample_means, bins=30, density=True, alpha=0.6, color='b')
plt.title('中心极限定理')
plt.show()
总结
本周我们对统计学进行了深入浅出的探索,从数据描述到概率分布,再到统计推断,学习过程既严谨又生动。 继续关注后续内容,我们将继续用 Python 代码解开数据科学的奥秘。
好了,本文到此结束,带大家了解了《周统计》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!
相关阅读
更多>
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读
更多>
-
435 收藏
-
160 收藏
-
306 收藏
-
376 收藏
-
246 收藏
-
436 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习