登录
首页 >  Golang >  Go教程

深入探讨 CNCF 的云原生 AI 白皮书

来源:dev.to

时间:2024-07-09 18:36:56 297浏览 收藏

小伙伴们对Golang编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《深入探讨 CNCF 的云原生 AI 白皮书》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!

深入探讨 CNCF 的云原生 AI 白皮书

在 KubeCon EU 2024 期间,CNCF 发布了第一份云原生 AI 白皮书。本文对本白皮书的内容进行了深入分析。

2024 年 3 月,在 KubeCon EU 期间,云原生计算基金会(CNCF)发布了第一份关于云原生人工智能(CNAI)的详细白皮书1。本报告广泛探讨了云原生技术与人工智能集成的现状、挑战和未来发展方向。本文将深入探讨这份白皮书的核心内容

本文首发于Medium MPP计划。如果您是Medium用户,请在Medium上关注我。非常感谢。

什么是云原生人工智能?

云原生AI是指使用云原生技术原理构建和部署人工智能应用程序和工作负载。这包括利用微服务、容器化、声明式 API 以及持续集成/持续部署 (CI/CD) 等云原生技术来增强 AI 应用程序的可扩展性、可重用性和可操作性。

下图是根据白皮书重新绘制的云原生AI架构图。

深入探讨 CNCF 的云原生 AI 白皮书

云原生AI与云原生技术的关系

云原生技术提供了灵活、可扩展的平台,使人工智能应用的开发和运营更加高效。通过容器化和微服务架构,开发者可以快速迭代和部署AI模型,同时保证系统的高可用性和可扩展性。 Kuuch 作为资源调度、自动扩展和服务发现。

白皮书提供了两个例子来说明云原生AI和云原生技术之间的关系,即在云原生基础设施上运行AI:

  • Hugging Face 与 Microsoft 合作在 Azure 上推出 Hugging Face 模型目录2
  • OpenAI 将 Kubernetes 扩展到 7,500 个节点3

云原生人工智能的挑战

尽管为人工智能应用程序提供了坚实的基础,但将人工智能工作负载与云原生平台集成时仍然面临挑战。这些挑战包括数据准备复杂性、模型训练资源要求以及在多租户环境中维护模型安全性和隔离性。此外,云原生环境中的资源管理和调度对于大规模人工智能应用至关重要,需要进一步优化以支持高效的模型训练和推理。

云原生AI发展路径

白皮书提出了云原生AI的几条发展路径,包括改进资源调度算法以更好地支持AI工作负载、开发新的服务网格技术以增强AI应用的性能和安全性以及推动云原生AI技术的创新和标准化通过开源项目和社区合作。

云原生AI技术格局

云原生人工智能涉及各种技术,从容器和微服务到服务网格和无服务器计算。 Kubernetes 在部署和管理 AI 应用程序中发挥着核心作用,而 Istio 和 Envoy 等服务网格技术则提供强大的流量管理和安全功能。此外,Prometheus 和 Grafana 等监控工具对于维持 AI 应用程序的性能和可靠性至关重要。

下面是白皮书中提供的云原生AI景观图。

  • Kubernetes
  • 火山
  • 无敌舰队
  • 库伯雷
  • Nvidia NeMo
  • 尤尼克恩
  • 库埃
  • 火焰

分布式训练

  • Kubeflow 培训操作员
  • Pytorch DDP
  • TensorFlow 分布式
  • 打开 MPI
  • 深速
  • 威震天
  • 霍罗沃德
  • 阿普拉

机器学习服务

  • Kserve
  • 谢尔顿
  • VLLM
  • TGT
  • 天空飞行员

CI/CD — 交付

  • Kubeflow 管道
  • ML流
  • TFX
  • 便当ML
  • MLRun

数据科学

  • 朱皮特
  • Kubeflow 笔记本
  • PyTorch
  • TensorFlow
  • 阿帕奇齐柏林飞艇

工作负载可观察性

  • 普罗米修斯
  • Influxdb
  • 格拉法纳
  • 权重和偏差 (wandb)
  • 开放遥测

自动机器学习

  • 超级选择
  • 奥普图纳
  • Kubeflow Katib
  • NNI

治理与政策

  • 基维尔诺
  • Kyverno-JSON
  • OPA/看门人
  • StackRox 管理器

数据架构

  • ClickHouse
  • 阿帕奇皮诺
  • 阿帕奇德鲁伊
  • 卡桑德拉
  • ScyllaDB
  • Hadoop HDFS
  • 阿帕奇 HBase
  • 急板
  • 特里诺
  • 阿帕奇火花
  • 阿帕奇弗林克
  • 卡夫卡
  • 脉冲星
  • 流体
  • Memcached
  • Redis
  • Alluxio
  • 阿帕奇超级集

矢量数据库

  • 色度
  • Weaviate
  • 象限
  • 松果
  • 扩展
  • Redis
  • Postgres SQL
  • 弹性搜索

模型/法学硕士可观察性

  • • 特鲁伦斯
  • 朗福斯
  • 深度检查
  • OpenLLMetry

结论

最后总结出以下几个要点:

  • 开源社区的作用:白皮书指出了开源社区在推进云原生人工智能方面的作用,包括通过开源项目和广泛合作加速创新和降低成本。
  • 云原生技术的重要性:根据云原生原则构建的云原生AI,强调可重复性和可扩展性的重要性。云原生技术为AI应用提供了高效的开发和运行环境,特别是在资源调度和服务扩展方面。
  • 现有挑战 : 尽管云原生AI带来了诸多优势,但在数据准备、模型训练资源需求、模型安全与隔离等方面仍然面临挑战。
  • 未来发展方向:白皮书提出了包括优化资源调度算法以支持AI工作负载、开发新的服务网格技术以增强性能和安全性、通过开源项目和社区协作推动技术创新和标准化等发展路径。
  • 关键技术组件:云原生AI涉及的关键技术包括容器、微服务、服务网格、无服务器计算等。 Kubernetes 在部署和管理 AI 应用程序中发挥着核心作用,而 Istio 和 Envoy 等服务网格技术则提供必要的流量管理和安全性。

更多详情请下载云原生AI白皮书4.

参考链接


  1. 白皮书:↩︎

  2. Hugging Face 与 Microsoft 合作在 Azure 上推出 Hugging Face 模型目录 ↩︎

  3. OpenAI 将 Kubernetes 扩展到 7,500 个节点:↩︎

  4. 云原生AI白皮书:↩︎

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《深入探讨 CNCF 的云原生 AI 白皮书》文章吧,也可关注golang学习网公众号了解相关技术文章。

声明:本文转载于:dev.to 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>