单层感知机拟合余弦二次函数解析
时间:2026-03-07 21:45:42 260浏览 收藏
本文深入剖析了用单层感知机拟合余弦函数二次多项式的常见误区与优化路径,直击原代码因缺失学习率和梯度符号错误导致不收敛的核心问题,系统讲解了带Sigmoid激活的权重更新数学原理,并指出Sigmoid在值域受限下的适用边界;进一步揭示该架构实际学习的是“多项式经Sigmoid变换”的复合函数,而非目标多项式本身,进而推荐更精准、高效、可解释的线性回归解法——直接解析求解最小二乘系数;文章不仅提供可落地的代码修正与tanh替代方案,更传递一个关键工程理念:面对具体数值逼近任务,应优先选择与问题结构匹配的工具,而非盲目套用神经网络范式。

本文详解如何用带Sigmoid激活的单层感知机逼近cos(x)在[0, π/4]上的二次多项式,指出原代码不收敛的根本原因(缺失学习率),并给出数学严谨的梯度更新、激活函数选择建议及更优替代方案。
在函数逼近任务中,将感知机视为“可训练的线性组合器”是一种常见但易被误解的思路。用户试图通过构造输入特征向量 ([x^2, x, 1]) 并用Sigmoid激活的单神经元拟合 (\cos(x)),其直觉合理——即学习映射 (x \mapsto w_0 x^2 + w_1 x + w_2),再经Sigmoid压缩至 ((0,1)) 区间。然而,原始实现中权重更新公式 w += deltaw 隐含了学习率为1,这在梯度下降中极易导致发散:当梯度幅值较大时,参数一步跃出最优邻域,损失震荡甚至爆炸。
核心修正:引入学习率与符号规范化
首先必须显式引入学习率(如 learning_rate = 0.01),确保权重沿负梯度方向稳定更新。更关键的是,应严格遵循梯度下降的数学定义:
[
\mathbf{w} \leftarrow \mathbf{w} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{w}}
]
其中损失函数取均方误差 (\mathcal{L} = \frac{1}{2} \sum_i (y_i - \sigma(\mathbf{x}_i^\top \mathbf{w}))^2)。经链式法则推导,正确更新应为:
# 正确的梯度下降更新(含学习率与负号) learning_rate = 0.01 deltaw = -numpy.dot(training_inputs.T, errors * sigmoid_prime(outputs)) # 负梯度 w += learning_rate * deltaw # 或等价写法:w -= learning_rate * (-deltaw)
✅ 注意:原代码中 deltaw = errors * sigmoid_prime(outputs) 实际计算的是 (\partial \mathcal{L}/\partial z)(对加权和 (z) 的梯度),而 (\partial \mathcal{L}/\partial \mathbf{w} = \mathbf{x}^\top \cdot (\partial \mathcal{L}/\partial z)),故需补全负号与输入转置乘积。
激活函数的适用性边界
Sigmoid输出范围为 ((0,1)),而 (\cos(x)) 在 ([0, \pi/4]) 上取值约为 ([0.707, 1.0]),虽处于其有效区间,但若扩展至 ([0, \pi])((\cos(x) \in [-1,1])),Sigmoid将完全失效。此时应切换为双曲正切函数 tanh(x),其输出范围 ((-1,1)) 与目标函数天然匹配:
def tanh(x):
return numpy.tanh(x)
def tanh_prime(x):
return 1 - numpy.tanh(x)**2相应地,训练输出需改为 tanh(cos(x)),且网络前向传播使用 tanh(numpy.dot(training_inputs, w))。
更优实践:线性回归 vs 感知机
需明确一个本质区别:感知机+非线性激活 ≠ 多项式拟合器。当前架构实际学习的是复合函数 (\sigma(w_0 x^2 + w_1 x + w_2)),其输出并非直接等于多项式值,而是该多项式的Sigmoid变换结果。若目标是获得标准二次多项式 (p(x) = a x^2 + b x + c) 近似 (\cos(x)),最直接、高效且理论保障充分的方法是线性回归:
# 无需激活函数,直接求解最小二乘解
X = numpy.column_stack([numpy.array(R)**2, numpy.array(R), numpy.ones(len(R))])
y = numpy.array([math.cos(x) for x in R])
coeffs = numpy.linalg.lstsq(X, y, rcond=None)[0] # [a, b, c]
print("Linear regression coeffs:", coeffs)此方法解析求解,无迭代、不收敛、精度高,且系数物理意义清晰——正是所求多项式各项系数。
总结与建议
- ✅ 必做:为梯度更新添加合理学习率(0.01–0.1),并确保符号符合负梯度方向;
- ⚠️ 慎选:Sigmoid仅适用于目标值域受限于 ((0,1)) 的场景,跨域逼近优先选用 tanh 或线性输出;
- ? 优选:函数逼近任务中,若特征已手工设计(如多项式基),线性回归远比单层感知机更简洁、鲁棒、可解释;
- ? 延伸思考:若坚持使用神经网络,应转向无激活(纯线性输出层)或采用ReLU等现代激活,并配合正规化防止过拟合。
感知机的价值在于其作为神经网络基石的教学意义,但在具体数值逼近问题上,选择与问题结构匹配的工具,才是工程实践的专业体现。
今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
308 收藏
-
195 收藏
-
197 收藏
-
268 收藏
-
101 收藏
-
173 收藏
-
321 收藏
-
499 收藏
-
190 收藏
-
252 收藏
-
130 收藏
-
335 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习