只用不到 10% 的测验参数【APAE-041】怒涛のイラマチオ奴隷 SEXコレクション,就能完结 ControlNet 一样的可控生成!并且 SDXL、SD1.5 等 Stable Diffusion 家眷的常见模子都能适配,照旧即插即用。
同期还能搭配 SVD 戒指视频生成,手脚细节戒指得精确成功指。
在这些图像和视频的背后,等于港汉文贾佳亚团队推出的开源图像 / 视频生成开采器具 ——ControlNeXt。
从这个名字当中就能看出,研发团队给它的定位,等于下一代的 ControlNet。
像大神何恺明与谢赛宁的经典大作 ResNeXt(ResNet 的一种推广),起名字亦然用的这个路数。
有网友以为这个名字是实至名归,如实是下一代的居品,将 ControlNet 提高了一个层次。
还有东谈主直言 ControlNeXt 是规定改变者,让可控生成的效劳栽培了一大截,期待看到东谈主们用它创作的作品。
蜘蛛侠跳起好意思女跳舞ControlNeXt 支持多款 SD 系模子,并且即插即用。
其中包括了图像生成模子 SD1.5、SDXL、SD3(支持 Super Resolution),还有视频生成模子 SVD。
话未几说,成功看恶果。
可以看到,在 SDXL 中加入边际(Canny)开采,绘画出的二次元青娥和戒指线条险些完好贴合。
即使戒指空洞又多又细碎,模子已经可以绘画出适当要求的图片。
并且无需稀奇测验就可与其他 LoRA 权重无缝集成。
比如在 SD1.5 中,可以把姿势(Pose)戒指条款与各式 LoRA 搭配使用,造成立场迥异乃至跳动次元,但手脚换取的扮装。
另外,ControlNeXt 也支持遮罩(mask)和景深(depth)的戒指模式。
在 SD3 当中还支持 Super Resolution(超瓜分辨率),可生成超高了了度的图像。
百家乐涩涩快播视频生成当中,ControlNeXt 可以完结对东谈主物手脚的戒指。
比如让蜘蛛侠也跳起 TikTok 中的好意思女跳舞,就连手指的手脚也师法得荒谬精确。
以至让一把椅子也长脱手跳雷同的跳舞,固然是抽象了一些,但单看手脚复刻得还算可以。
并且比较于原始的 ControlNet,ControlNeXt 需要的测验参数更少,敛迹速率也更快。
比如在 SD1.5 和 SDXL 中,ControlNet 需要的可学习参数分散是 3.61 亿和 12.51 亿,但 ControlNeXt 分散只需要 3 千万和 1.08 亿,不到 ControlNet 的 10%。
而在测验过程中,ControlNeXt 在 400 步傍边就已接近敛迹,但 ControlNet 却需要十倍以至数十倍的步数。
生成的速率也比 ControlNet 更快,平均下来 ControlNet 荒谬于基础模子会带来 41.9% 的延时,但 ControlNeXt 只好 10.4%。
那么,ControlNeXt 是怎么完结的,对 ControlNet 进行了哪些矫正呢?
更轻量化的条款戒指模块最初用一张图来了解一下 ControlNeXt 的通盘责任经过。
其中轻量化的关键,是 ControlNeXt 移除了 ControlNet 中的庞杂戒指分支,改为引入一个由极少 ResNet 块构成的轻量级卷积模块。
这个模块精良索要戒指条款(如语义分割掩码、关键点先验等)的特征暗示。
其中的测验参数目常常不到 ControlNet 中预测验模子的 10%,但仍能很好地学习将输入的条款戒指信息,这种想象大大裁汰了盘算支出和内存占用。
具体来说,它从预测验模子的不同辘集层的中等距采样,造成用于测验的参数子集,其余参数则被冻结。
另外皮想象 ControlNeXt 的架构时,计划团队还保握了模子结构与原始架构的一致性,从而完结了即插即用。
不管是 ControlNet 照旧 ControlNeXt,条款戒指信息的注入都是一个伏击法子。
在这个过程中,ControlNeXt 计划团队主要针对两个关键问题进行了深刻计划 —— 注入位置的遴选和注入姿色的想象。
计划团队不雅察发现,在大精深可控生成任务中,率领生成的条款信息阵势相对肤浅,且与去噪过程中的特征高度有关。
是以团队以为,莫得必要在去噪辘集的每一层都注入戒指信息,于是遴选了只在辘集的中间层将条款特征与去噪特征团员。
团员的姿色也尽可能肤浅 —— 在用交叉归一化对皆两组特征的漫衍后,成功将其相加。
这么既能确保戒指信号影响去噪过程,又幸免了扫视力机制等复杂操作引入稀奇的学习参数和不褂讪性。
这之中的交叉归一化,亦然 ControlNeXt 的另一项中枢本事,替代了此前常用的 zero-convolution 等渐进式启动化战术。
传统要领通过从零脱手徐徐开释新模块的影响力来缓解坍弛问题,但经常导致的完毕等于敛迹速率慢。
交叉归一化则成功欺诈骨干辘集去噪特征的均值 μ 和方差 σ 对戒指模块输出的特征作念归一化,使二者的数据漫衍尽量对皆。
(注:ϵ 是为数值褂讪性而添加的小常数,γ 为缩放参数。)
归一化后的戒指特征再通过表率和偏移参数转变幅度和基线,再与去噪特征相加,既幸免了参数启动化的敏锐性,又能在测验初期就让戒指条款进展作用,加速敛迹进度。
此外,ControlNeXt 还借助戒指模块学习条款信息到隐空间特征的映射,使其愈加抽象和语义化,更有益于泛化到未见过的戒指条款。
技俩主页:
https://pbihao.github.io/projects/controlnext/index.html
论文地址:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt
本文来自微信公众号:量子位(ID:QbitAI),作家:克雷西
告白声明:文内含有的对外跳转鸠合(包括不限于超鸠合、二维码、口令等阵势),用于传递更多信息【APAE-041】怒涛のイラマチオ奴隷 SEXコレクション,勤俭甄选时辰,完毕仅供参考,IT之家总共著作均包含本声明。