首页 > 文章 > python教程

Python常用降维方法有哪些

时间：2026-03-05 22:50:40 413浏览收藏

Python中降维是处理高维数据的关键技术，旨在去除冗余、加速计算、提升模型性能或实现高质量可视化；主流方法各具优势：PCA适合快速线性降维与预处理，t-SNE精于小规模数据的局部结构可视化，UMAP则以更高速度兼顾局部与全局结构保留，而LDA专为有标签的监督任务优化——正确选择方法不仅显著影响分析效果，更直接决定后续建模的成败。

python如何减小维度

在Python中减小数据维度通常用于处理高维数据，比如机器学习中的特征过多或图像数据维度太高。降维的核心目的是去除冗余信息、减少计算开销、提升模型性能或便于可视化。常用的方法包括主成分分析（PCA）、线性判别分析（LDA）、t-SNE、UMAP以及自动编码器等。

使用PCA进行线性降维

PCA（Principal Component Analysis）是最常用的线性降维方法，它通过找出数据中方差最大的方向（主成分），将数据投影到低维空间。

操作步骤：

对数据进行标准化（均值为0，方差为1）
使用sklearn.decomposition.PCA指定目标维度
拟合并转换数据

示例代码：

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np

# 假设X是你的数据，形状为 (n_samples, n_features)
X = np.random.rand(100, 10) # 示例：100个样本，10个特征

# 标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 降到3维
pca = PCA(n_components=3)
X_reduced = pca.fit_transform(X_scaled)

print(X_reduced.shape) # 输出: (100, 3)

使用t-SNE进行非线性降维

t-SNE（t-Distributed Stochastic Neighbor Embedding）适合高维数据的可视化，常用于将数据降到2D或3D。

特点：

非线性方法，能捕捉复杂结构
计算开销大，适合小数据集
主要用于可视化，不适用于后续建模

示例代码：

from sklearn.manifold import TSNE

# 使用t-SNE降到2维
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_tsne = tsne.fit_transform(X_scaled)

print(X_tsne.shape) # 输出: (100, 2)

使用UMAP获得更好的非线性降维效果

UMAP（Uniform Manifold Approximation and Projection）是近年来流行的非线性降维方法，相比t-SNE更快，且能更好地保留全局结构。

安装：pip install umap-learn

示例代码：

import umap

reducer = umap.UMAP(n_components=2, random_state=42)
X_umap = reducer.fit_transform(X_scaled)

print(X_umap.shape) # 输出: (100, 2)

选择合适的方法

不同场景适用不同的降维方式：

需要快速线性降维 → 用PCA
做数据可视化 → 用t-SNE或UMAP
保留局部和全局结构 → UMAP更优
监督任务中降维 → 可考虑LDA（需标签）

基本上就这些。根据数据大小、目标和后续用途选择合适的方法，效果差异会很明显。

终于介绍完啦！小伙伴们，这篇关于《Python常用降维方法有哪些》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！