首页 > 文章 > python教程

Python音频分析：librosa库使用教程

时间：2025-07-12 12:09:22 252浏览收藏

目前golang学习网上已经有很多关于文章的文章了，自己在初次阅读这些文章中，也见识到了很多学习思路；那么本文《Python音频频谱分析：librosa库入门教程》，也希望能帮助到大家，如果阅读完后真的对你学习文章有帮助，欢迎动动手指，评论留言并分享~

如何用 librosa 处理音频频谱？1. 安装 librosa 及其依赖库 numpy、matplotlib、scipy；2. 使用 librosa.load()加载音频文件获取时间序列和采样率；3. 通过 librosa.stft()计算短时傅里叶变换并转换为幅度或分贝谱；4. 利用 matplotlib 绘制频谱图，设置坐标轴和颜色条以增强可视化效果；5. 注意音频格式支持、单双声道选择、参数调整及频谱数据保存。整个流程涵盖加载、变换、可视化等关键步骤，适用于音乐识别、语音识别等领域。

怎样用Python处理音频频谱？librosa库教程

处理音频频谱是音频分析中一个常见任务，比如在音乐识别、语音识别或者音效处理中都有广泛应用。Python 中的 librosa 库是一个非常强大的工具，专门用于音频和音乐信号分析，支持加载音频、提取特征、绘制频谱等操作。

下面我们就来看看怎么用 librosa 来处理音频频谱。

1. 安装与基础准备

使用 librosa 前，需要先安装它：

pip install librosa

除了 librosa，你可能还需要一些辅助库，比如：

numpy：进行数值计算；
matplotlib：用于绘图；
scipy：部分音频处理功能依赖它。

安装这些依赖可以这样：

pip install numpy matplotlib scipy

准备好后，就可以开始加载音频文件了。

2. 加载音频文件并获取原始数据

首先我们需要把音频文件读入 Python 程序中。librosa.load() 可以完成这个任务。

import librosa

# 加载音频文件，sr为目标采样率（默认22050）
y, sr = librosa.load("your_audio_file.mp3", sr=None)

其中：

y 是音频时间序列数组；
sr 是采样率（samples per second）；

提示：如果设置 sr=None，会保留原音频的采样率。

加载完成后，你可以查看一下音频长度：

print(f"采样率: {sr}, 音频时长: {len(y)/sr:.2f} 秒")

3. 计算短时傅里叶变换（STFT）

音频频谱本质上是将音频信号从时域转换到频域的结果。常用的方法是 短时傅里叶变换（STFT）。

import numpy as np

# 执行 STFT
D = librosa.stft(y)

# 转换为幅度谱
magnitude = np.abs(D)

# 或者转为分贝谱（更直观）
db_spec = librosa.amplitude_to_db(magnitude)

这里有几个关键参数可以调整：

n_fft：FFT窗口大小，默认是2048；
hop_length：帧移步长，默认是512；
win_length：窗长，通常设为 n_fft 的值；

这些参数会影响频谱分辨率和时间粒度，根据实际需求灵活调整。

4. 绘制频谱图

有了分贝谱之后，我们就可以用 matplotlib 把它画出来。

import matplotlib.pyplot as plt
import librosa.display

plt.figure(figsize=(10, 6))
librosa.display.specshow(db_spec, sr=sr, x_axis='time', y_axis='hz')
plt.colorbar(format="%+2.0f dB")
plt.title("频谱图")
plt.tight_layout()
plt.show()

这段代码会生成一个横轴为时间、纵轴为频率、颜色表示能量强度的热力图。

如果你想让纵轴显示的是对数频率（如音乐中常用的八度），可以把 y_axis='hz' 改成 y_axis='log'。

5. 实用技巧与注意事项

音频格式问题：librosa 默认支持 WAV 和一些常见格式，MP3 可能需要额外安装 ffmpeg。
单声道 vs 双声道：librosa.load() 默认返回单声道音频，如果是双声道，可以在加载时加 mono=False。
保存频谱数据：可以用 np.save("spec.npy", db_spec) 将频谱数据保存下来，便于后续处理或训练模型使用。
可视化调试建议：绘制频谱时尽量加上坐标轴标签和 colorbar，方便理解图像含义。

基本上就这些操作了。整个流程包括加载音频、计算 STFT、转换为分贝谱、再绘图展示。虽然步骤不多，但每个环节都有一些细节需要注意，尤其是参数的选择和音频格式的支持方面。

如果你只是想快速看一下某个音频的频谱表现，上面的代码已经足够用了。

到这里，我们也就讲完了《Python音频分析：librosa库使用教程》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于的知识点！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载