AI绘画入门:SD生成首幅作品教程
时间:2025-09-20 11:20:44 441浏览 收藏
在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《AI绘画入门:StableDiffusion生成首幅作品教程》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!
答案:Stable Diffusion是AI绘画入门最佳选择,因其开源免费、本地运行保障隐私,拥有丰富模型与插件生态,支持从提示词到参数的精细控制,通过WebUI设置模型、正反向提示词、采样器、步数、CFG、分辨率等参数即可生成图像,配合LoRA、ControlNet、高清修复等工具可不断提升创作质量,实现从随机生成到精准表达的进阶。
人工智能绘画的门槛,其实远没有想象中那么高。如果你想快速上手,直接拥抱Stable Diffusion无疑是最高效且最具掌控力的方式。它开源、免费,能让你在自己的电脑上自由探索无限可能。入门的关键在于理解几个核心概念,然后就是大胆尝试,从最简单的文本描述开始,一步步摸索出属于你自己的创作路径。
解决方案
要生成你的第一幅AI画作,我们主要围绕Stable Diffusion WebUI(比如AUTOMATIC1111或ComfyUI,但对于初学者,WebUI更直观)来展开。假设你已经完成了基本的安装配置(这部分往往有现成的一键安装包,或者跟着社区教程走,比你想象的要容易)。
首先,打开你的Stable Diffusion WebUI界面。你会看到很多选项,但别慌,我们只关注几个核心的:
- 选择模型(Checkpoint): 这是你的“画风”基底。WebUI左上角通常有个下拉菜单,里面是你下载好的各种模型(比如
sd_xl_base_1.0.safetensors
或一些二次元、写实风格的模型)。选一个你喜欢的,比如Anything-V5
或Realistic Vision
,它们各有侧重。 - 输入正向提示词(Positive Prompt): 这是你告诉AI“我想画什么”的地方。用英文描述,越具体越好,但初期可以简单点。
- 例如:
masterpiece, best quality, 1girl, solo, long hair, blue eyes, sitting on a bench, autumn leaves, park, soft lighting
(杰作,最佳画质,一个女孩,独身,长发,蓝眼睛,坐在长凳上,秋叶,公园,柔和的光线)
- 例如:
- 输入反向提示词(Negative Prompt): 告诉AI“我不想看到什么”。这非常重要,能有效去除常见的瑕疵。
- 例如:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name
(低分辨率,糟糕的解剖结构,糟糕的手,文字,错误,缺少手指,多余的数字,更少的数字,裁剪,最差质量,低质量,普通质量,jpeg伪影,签名,水印,用户名,模糊,艺术家姓名)
- 例如:
- 调整参数:
- 采样方法(Sampler): 推荐
DPM++ 2M Karras
或Euler a
,它们通常效果不错且速度适中。 - 迭代步数(Sampling Steps): 20-30步是比较好的平衡点,太少细节不足,太多提升不明显且耗时。
- CFG Scale(提示词引导系数): 7-12是常用范围。数值越高,AI越会严格遵循你的提示词;数值越低,AI的创作自由度越大。初次尝试可以设为7。
- 分辨率(Width & Height): 对于SD 1.5模型,通常是512x512;对于SDXL模型,推荐1024x1024。分辨率过高可能会导致显存不足(OOM)。
- 种子(Seed): 默认是-1(随机)。如果你想复现某张图或在此基础上微调,记住它的种子值。
- 采样方法(Sampler): 推荐
- 点击“生成”(Generate): 等待几秒或几十秒,你的第一幅AI画作就诞生了!
刚开始生成的图片可能不尽如人意,这很正常。AI绘画就是一个不断尝试、调整、迭代的过程。多换换提示词,微调参数,你会很快找到感觉。

为什么Stable Diffusion是AI绘画入门的最佳选择?
在我看来,如果你真的想深入AI绘画领域,而不仅仅是玩玩手机APP,Stable Diffusion几乎是唯一的答案。它提供了一种无与伦比的自由度和控制力,这是其他许多在线AI绘画服务无法比拟的。
首先,它是开源且免费的。这意味着你不需要支付任何订阅费,所有的模型、代码和工具都是开放给所有人使用的。这不仅降低了入门成本,也促进了社区的快速发展和创新。你可以在本地运行,完全掌控你的数据和创作过程,不用担心隐私问题或内容审查。
其次,Stable Diffusion的生态系统极其庞大且活跃。它不仅仅是一个生成器,更是一个平台。社区贡献了数不清的Checkpoint模型(决定画风的基础大模型)、LoRA(局部微调模型,用于特定角色、服装或风格)、Textual Inversion(文本反转,学习特定概念)以及各种脚本和插件(如ControlNet、Inpaint等)。这种丰富性意味着你几乎可以实现任何你想要的创意,从写实摄影到二次元动漫,从概念艺术到抽象表现,都有对应的工具和资源。
此外,通过使用Stable Diffusion,你实际上是在学习AI绘画的核心原理。你会逐渐理解提示词的构成、不同采样器的效果、CFG Scale的意义、种子值的应用等。这些知识是通用的,即使未来出现新的AI绘画技术,你也能更快地适应和掌握。它不是一个“黑箱”工具,而是一个让你能真正理解并参与到创作过程中的伙伴。这种学习曲线虽然初期略显陡峭,但它带来的回报是巨大的,远超那些一键生成、但缺乏深度和灵活性的工具。

掌握这些核心参数,让你的AI画作更出彩
生成第一幅画作只是开始,要让你的AI作品真正“出彩”,理解并灵活运用核心参数至关重要。这就像学画画,你知道了笔和纸,但要画好,还得懂构图、色彩和光影。
1. 提示词(Prompt)和反向提示词(Negative Prompt)的艺术: 这是AI绘画的灵魂。好的提示词不是简单堆砌关键词,而是一种“沟通”。
- 结构化: 可以尝试
主体, 细节, 场景, 风格, 情绪, 光照, 质量
这样的顺序。例如:a beautiful young woman, intricate details, standing in a cyberpunk city, neon lights, rainy night, highly detailed, cinematic lighting, 8k, masterpiece
。 - 关键词权重: 在WebUI中,你可以用
()
和[]
来调整关键词的权重,((word))
增强,[word]
减弱。 - 避免歧义: 尽量用具体名词和形容词,避免模糊的表述。
- 反向提示词: 永远不要忽视它。除了通用的
bad anatomy, low quality
,你还可以根据生成结果,针对性地添加反向词,比如发现总有“模糊的背景”,就加blurry background
。这是去除瑕疵、提升画面纯净度的利器。
2. 采样方法(Sampler)的选择: 不同的采样器在相同步数下,生成速度和图像风格会有差异。
Euler a
: 速度快,效果自然,适合快速预览和探索。DPM++ 2M Karras
/DPM++ SDE Karras
: 通常被认为是效果最好的采样器之一,细节丰富,画质细腻,但相对较慢。DDIM
/PLMS
: 较老的采样器,现在用得少了,但了解一下无妨。 我的建议是,先用Euler a
快速迭代,找到大致满意的构图和元素,然后切换到DPM++ 2M Karras
来生成最终的精细版本。
3. 迭代步数(Sampling Steps)的平衡: 这不是越多越好。对于大多数模型,20-30步通常能获得不错的细节和清晰度。超过30步,画面的提升会变得不明显,甚至可能引入一些不自然的细节,同时生成时间大大增加。SDXL模型有时需要更多步数,比如30-40步。
4. CFG Scale(提示词引导系数)的微妙影响: 这个参数决定了AI对你的提示词的“听从”程度。
- 低CFG(2-6): AI有更大的自由发挥空间,图像可能更具创意和艺术性,但可能偏离你的提示词。
- 中CFG(7-12): 这是最常用的范围,AI在遵循提示词的同时,也保留了一定的创作弹性。
- 高CFG(13+): AI会非常严格地遵循提示词,图像可能更锐利、对比度更高,但也可能显得生硬,甚至出现“提示词溢出”的现象(比如画面中出现提示词的文字)。 多尝试不同的CFG值,你会发现它对画面氛围和细节的影响非常大。
5. 种子(Seed)的魔力: 种子值是生成图像的“起点”。相同的模型、提示词和参数,加上相同的种子值,会生成完全相同的图像。
- 复现: 如果你喜欢某张图的构图或光影,但想修改其他部分,记住它的种子值,然后调整提示词或反向提示词。
- 探索: 将种子值设为-1(随机),每次都会生成不同的图像。当你找到一张不错的图后,可以点击“小骰子”旁边的“回形针”图标,它会自动帮你填入当前图像的种子值,方便你在此基础上进行微调。
6. 分辨率(Resolution)与显存: 这是硬件瓶颈最直接的体现。
- SD 1.5模型: 默认512x512是其训练分辨率,直接生成更高分辨率(如768x768)可能会出现“多头多肢”的问题,因为它没见过这么大的图像。通常是先生成512x512,再通过“高清修复”(Hires. fix)或后期放大(Upscale)来提升分辨率。
- SDXL模型: 训练分辨率更高,通常是1024x1024,直接生成这个分辨率效果最好。
如果你的显存不足,生成高分辨率图片会导致程序崩溃(OOM)。这时,降低分辨率,或者使用一些显存优化参数(如
--xformers
)是有效的方法。

从入门到进阶:提升AI画作质量的实用技巧
当你掌握了基础参数,并能生成一些像样的图片后,自然会想让作品更上一层楼。AI绘画的进阶之路充满乐趣,以下是一些我个人觉得非常实用的技巧:
1. 高清修复(Hires. fix)与图片放大(Upscaling):
这是提升画面细节和清晰度的必经之路。WebUI的txt2img
选项卡里就有Hires. fix
功能。它会先生成一张低分辨率的图,然后通过算法将其放大,并在此过程中添加更多细节。
- 放大算法(Upscaler): 尝试
Latent
、ESRGAN_4x
、R-ESRGAN 4x+ Anime6B
等,不同的算法对不同画风有奇效。 - 重绘幅度(Denoising strength): 这个参数决定了放大过程中AI会修改多少原图。0意味着完全保留原图细节,1意味着完全重绘。通常0.5-0.7是比较好的范围,既能增加细节,又能保持原图构图。
如果显存实在不够,也可以先生成低分辨率图,再到
Extras
选项卡进行单独的放大操作。
2. LoRA模型(Low-Rank Adaptation): LoRA是Stable Diffusion生态系统中最具革命性的发明之一。它是一种轻量级的微调模型,可以让你在不改变基础模型的情况下,实现特定的风格、角色、服装或姿势。
- 获取: Civitai是寻找LoRA模型的主要网站。
- 使用: 下载后放到
stable-diffusion-webui/models/lora
文件夹,然后在提示词中用
这样的格式调用。weight
通常在0.6-0.9之间效果最好。 LoRA极大地扩展了Stable Diffusion的表现力,是实现特定创作意图的关键。
3. ControlNet的精准控制: ControlNet是另一个改变游戏规则的工具。它允许你通过输入额外的图像(如线稿、深度图、姿态骨架、边缘检测图等)来精确控制生成图像的构图、姿态和细节。
- 应用场景:
- 姿态控制: 用
OpenPose
模型上传一张人物照片或骨架图,让AI生成相同姿态的人物。 - 构图控制: 用
Canny
或Lineart
模型上传一张线稿或草图,让AI在此基础上填充细节。 - 深度控制: 用
Depth
模型保持画面的景深和空间感。 ControlNet的出现,让AI绘画从“随机生成”走向了“精准创作”,极大地提升了创作者的掌控力。
- 姿态控制: 用
4. 局部重绘(Inpainting)与画面拓展(Outpainting):
这两个功能在img2img
选项卡下。
- Inpainting: 允许你选择图像的某个区域,然后用新的提示词对其进行局部修改。比如,你画了一个人物,但手部细节不好,就可以框选手部,重新输入提示词,让AI只修改手部。
- Outpainting: 允许你拓展图像的边界,让AI根据现有画面内容,智能地填充周围的空白区域,实现画面的无缝扩展。 这两个工具能让你像传统画家一样,对作品进行细致的“修修改改”,直到满意为止。
5. 学习与迭代: AI绘画是一个快速发展的领域,新的模型、技术和技巧层出不穷。
- 多看多学: 关注Civitai、Discord社区、B站等平台上的优秀作品和教程。学习别人是如何写提示词、如何搭配LoRA和ControlNet的。
- 不断尝试: 不要害怕失败,每一次生成都是一次学习。记录你觉得效果好的提示词和参数组合。
- 善用随机: 偶尔把种子值设为-1,让AI给你带来一些意想不到的惊喜。
AI绘画的魅力在于它融合了技术与艺术,它不是取代你的创造力,而是放大你的想象力。从第一幅画作开始,你已经踏上了一段充满探索和惊喜的旅程。
到这里,我们也就讲完了《AI绘画入门:SD生成首幅作品教程》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI绘画,WebUI,提示词,StableDiffusion,ControlNet的知识点!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
285 收藏
-
135 收藏
-
476 收藏
-
106 收藏
-
488 收藏
-
339 收藏
-
194 收藏
-
370 收藏
-
428 收藏
-
343 收藏
-
106 收藏
-
292 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习