习气了 Stable Diffusion,苹果如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模子 ,文生仍是图大套娃苹果做的 。
在天生式 AI 时期 ,模亮漫反散漫模子已经成为图像 、相俄视频、式散说率3D 、对于音频以及文本天生等天生式 AI 运用的苹果盛行工具 。可是文生将散漫模子拓展到高分说带规模依然面临重大挑战,这是图大套娃由于模子必需在每一个步骤重新编码所有的高分说率输入。处置这些挑战需要运用带有留意力块的模亮漫反深层架构 ,这使患上优化更难题,相俄破费的式散说率算力以及内存也更多。
奈何样办呢 ?最近的对于一些使命专一于钻研用于高分说率图像的高效收集架构 。可是苹果现有措施都不揭示出逾越 512×512 分说率的下场,而且天生品质落伍于主流的级联或者 latent 措施。
咱们以 OpenAI DALL-E 二、google IMAGEN 以及英伟达 eDiffI 为例 ,它们经由学习一个低分说率模子以及多个超分说率散漫模子来节约算力 ,其中每一个组件都径自磨炼 。另一方面,latent 散漫模子(LDM)仅学习低分说率散漫模子,并依赖径自磨炼的高分说率自编码器。对于这两种妄想 ,多阶段式 pipeline 使磨炼与推理重大化 ,从而每一每一需要精心调解或者妨碍超参 。
本文中 ,钻研者提出了俄罗斯套娃式散漫模子(Matryoshka Diffusion Models ,MDM)它是用于端到端高分说率图像天生的全新散漫模子 。代码很快将释出。

论文地址:https://arxiv.org/pdf/2310.15111.pdf
该钻研提出的主要意见是将低分说率散漫历程作为高分说率天生的一部份 ,经由运用嵌套 UNet 架构在多个分说率上实施散漫散漫历程 。
该钻研发现 :MDM 与嵌套 UNet 架构一起实现为了 1)多分说率损失 :大猛后退了高分说率输入去噪的收敛速率;2)高效的渐进式磨炼妄想