首页 > 文章 > python教程

单层感知机拟合余弦二次函数解析

时间：2026-03-07 21:45:42 260浏览收藏

本文深入剖析了用单层感知机拟合余弦函数二次多项式的常见误区与优化路径，直击原代码因缺失学习率和梯度符号错误导致不收敛的核心问题，系统讲解了带Sigmoid激活的权重更新数学原理，并指出Sigmoid在值域受限下的适用边界；进一步揭示该架构实际学习的是“多项式经Sigmoid变换”的复合函数，而非目标多项式本身，进而推荐更精准、高效、可解释的线性回归解法——直接解析求解最小二乘系数；文章不仅提供可落地的代码修正与tanh替代方案，更传递一个关键工程理念：面对具体数值逼近任务，应优先选择与问题结构匹配的工具，而非盲目套用神经网络范式。

使用单层感知机拟合余弦函数的二次多项式近似——原理、实现与关键修正

本文详解如何用带Sigmoid激活的单层感知机逼近cos(x)在[0, π/4]上的二次多项式，指出原代码不收敛的根本原因（缺失学习率），并给出数学严谨的梯度更新、激活函数选择建议及更优替代方案。

在函数逼近任务中，将感知机视为“可训练的线性组合器”是一种常见但易被误解的思路。用户试图通过构造输入特征向量 ([x^2, x, 1]) 并用Sigmoid激活的单神经元拟合 (\cos(x))，其直觉合理——即学习映射 (x \mapsto w_0 x^2 + w_1 x + w_2)，再经Sigmoid压缩至 ((0,1)) 区间。然而，原始实现中权重更新公式 w += deltaw 隐含了学习率为1，这在梯度下降中极易导致发散：当梯度幅值较大时，参数一步跃出最优邻域，损失震荡甚至爆炸。

核心修正：引入学习率与符号规范化
首先必须显式引入学习率（如 learning_rate = 0.01），确保权重沿负梯度方向稳定更新。更关键的是，应严格遵循梯度下降的数学定义：
[ \mathbf{w} \leftarrow \mathbf{w} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{w}} ]
其中损失函数取均方误差 (\mathcal{L} = \frac{1}{2} \sum_i (y_i - \sigma(\mathbf{x}_i^\top \mathbf{w}))^2)。经链式法则推导，正确更新应为：

# 正确的梯度下降更新（含学习率与负号）
learning_rate = 0.01
deltaw = -numpy.dot(training_inputs.T, errors * sigmoid_prime(outputs))  # 负梯度
w += learning_rate * deltaw  # 或等价写法：w -= learning_rate * (-deltaw)

✅ 注意：原代码中 deltaw = errors * sigmoid_prime(outputs) 实际计算的是 (\partial \mathcal{L}/\partial z)（对加权和 (z) 的梯度），而 (\partial \mathcal{L}/\partial \mathbf{w} = \mathbf{x}^\top \cdot (\partial \mathcal{L}/\partial z))，故需补全负号与输入转置乘积。

激活函数的适用性边界
Sigmoid输出范围为 ((0,1))，而 (\cos(x)) 在 ([0, \pi/4]) 上取值约为 ([0.707, 1.0])，虽处于其有效区间，但若扩展至 ([0, \pi])（(\cos(x) \in [-1,1])），Sigmoid将完全失效。此时应切换为双曲正切函数 tanh(x)，其输出范围 ((-1,1)) 与目标函数天然匹配：

def tanh(x):
    return numpy.tanh(x)

def tanh_prime(x):
    return 1 - numpy.tanh(x)**2

相应地，训练输出需改为 tanh(cos(x))，且网络前向传播使用 tanh(numpy.dot(training_inputs, w))。

更优实践：线性回归 vs 感知机
需明确一个本质区别：感知机+非线性激活 ≠ 多项式拟合器。当前架构实际学习的是复合函数 (\sigma(w_0 x^2 + w_1 x + w_2))，其输出并非直接等于多项式值，而是该多项式的Sigmoid变换结果。若目标是获得标准二次多项式 (p(x) = a x^2 + b x + c) 近似 (\cos(x))，最直接、高效且理论保障充分的方法是线性回归：

# 无需激活函数，直接求解最小二乘解
X = numpy.column_stack([numpy.array(R)**2, numpy.array(R), numpy.ones(len(R))])
y = numpy.array([math.cos(x) for x in R])
coeffs = numpy.linalg.lstsq(X, y, rcond=None)[0]  # [a, b, c]
print("Linear regression coeffs:", coeffs)

此方法解析求解，无迭代、不收敛、精度高，且系数物理意义清晰——正是所求多项式各项系数。

总结与建议

✅ 必做：为梯度更新添加合理学习率（0.01–0.1），并确保符号符合负梯度方向；
⚠️ 慎选：Sigmoid仅适用于目标值域受限于 ((0,1)) 的场景，跨域逼近优先选用 tanh 或线性输出；
? 优选：函数逼近任务中，若特征已手工设计（如多项式基），线性回归远比单层感知机更简洁、鲁棒、可解释；
? 延伸思考：若坚持使用神经网络，应转向无激活（纯线性输出层）或采用ReLU等现代激活，并配合正规化防止过拟合。

感知机的价值在于其作为神经网络基石的教学意义，但在具体数值逼近问题上，选择与问题结构匹配的工具，才是工程实践的专业体现。

今天带大家了解了的相关知识，希望对你有所帮助；关于文章的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~