首页 > 科技周边 > 人工智能

当AI大模型在手机上运行，AI未来已来？

时间：2025-01-17 16:55:07 296浏览收藏

知识点掌握了，还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战，手把手教大家学习《当AI大模型在手机上运行，AI未来已来？》，在实现功能的过程中也带大家重新温习相关知识点，温故而知新，回头看看说不定又有不一样的感悟！

高通在2023 WAIC上展示了令人瞩目的AI技术：在搭载第二代骁龙8的手机上运行Stable Diffusion模型，仅用15秒完成20步推理，生成512x512像素的图像。

演示效果媲美云端处理，文本输入无任何限制。此前，庞大的参数规模（超过10亿）限制了Stable Diffusion在终端设备的运行，高通此举证明了其“端云协同”的AI未来观：只有云端和终端协同处理，才能实现AI规模化扩展，发挥最大潜力。

生成式AI高成本推理的挑战

AI已广泛应用于智能手机、PC、XR等终端设备，生成式AI的兴起更是加速了AI市场发展。瑞银预测，生成式AI市场规模将达万亿美元。然而，训练和推理成本高昂，数十亿参数的模型需要在云端部署，推理成本随用户数量和使用频率剧增，给企业带来巨大运营压力。例如，基于生成式AI的搜索引擎，每次搜索成本是传统搜索的十倍，每日百亿次搜索将产生数十亿美元的额外成本。

高通白皮书《混合AI是AI的未来》提出，混合AI架构，如同传统计算从大型主机转向云端和终端结合的模式，将解决这一问题。高通AI负责人Ziad Asghar表示，混合AI将AI工作负载分配到云端和边缘终端，实现更强大、高效的AI。

当AI大模型在手机上运行，AI未来已来？

混合AI：降低成本，提升效率

混合AI将部分处理从云端转移到终端，减轻云基础设施压力，降低成本。开发者可基于完全终端运行的模型创建应用，降低或消除每图像的查询成本。此外，混合AI还具备能耗、性能、隐私和个性化等优势：

低能耗: 终端侧运行更省电。
高性能: 避免云端负载过高导致的排队等待，即使离线也能运行。
高安全性: 保护用户数据隐私。
个性化体验: 基于用户数据提供定制化服务。

高效负载分配：终端处理能力是关键

混合AI的关键在于根据模型和查询复杂度，灵活分配云端和终端的处理负载。简单任务可在终端完成，复杂任务则可在云端和终端协同处理。高通在AI模型压缩和终端处理能力方面进行了大量投入：

模型压缩: 利用VAE技术将模型参数压缩至1亿以下，并在量化、压缩、编译等方面进行优化，实现高性能低功耗。例如，将FP32模型量化压缩到INT4模型，内存和计算能效提升64倍。
终端处理能力: 高通AI引擎，特别是Hexagon处理器，提供强大的AI处理能力，能效是竞品的2倍。Hexagon处理器支持微切片推理和INT4硬件加速，在低内存和低功耗下实现高性能。

当AI大模型在手机上运行，AI未来已来？