Free
发布日期:2025-01-04 12:26 点击次数:56
Free-form Flows: Make Any Architecture a Normalizing Flow模型在生成稳定分子的速度超过之前模型两个数量级。见第5节。目标是,本文介绍的方法将允许从业者将更多时间用于将领域知识整合到他们的模型中,并允许通过最大限度似然估计解决更多问题。是否可以将FFF解释为VAE。在附录A.2中,我们提供了一个论点,即它可以,但它具有非常灵活的后验分布与最近基于样条spline-based的和基于ODE的正规化流相竞争的性能此作者之前的论文:自由形态流:使任何架构成为正规化流Normalizing Flow摘要正规化流Normalizing Flow是直接最大化似然的生成模型。以前,正规化流的设计在很大程度上受到分析可逆性需求的限制。我们通过一种训练过程克服了这一限制,该过程使用变量变换公式梯度的高效估计器。这使得任何保持维度的神经网络都可以通过最大似然训练作为生成模型。我们的方法允许将重点放在精确地调整归纳偏差以适应手头任务。具体来说,我们在分子生成基准测试中取得了优异的结果,利用E(n)-等变网络大大改善了采样速度。此外,我们的方法在逆问题基准测试中具有竞争力,同时采用现成的ResNet架构。我们在 https://github.com/vislearn/FFF 上发布了我们的代码。1 引言生成模型已经在各种应用中积极展示了它们的实用性,成功地扩展到高维数据分布的场景,从图像合成到分子生成(Rombach等人,2022; Hoogeboom等人,2022)。正规化流(Dinh等人,2015; Rezende和Mohamed,2015)推动了这一进展,特别是在科学领域,使从业者能够直接优化数据似然,从而促进了学习复杂数据分布的统计严谨方法。限制正规化流Normalizing Flow的其他生成模型(特别是扩散模型)的表达力和受欢迎程度的主要因素是,它们的表达力受到架构约束的极大限制,即确保双射性和计算雅可比行列式的必要性。在这项工作中,我们提出了一种方法,使正规化流摆脱了传统的架构限制,因此引入了一类灵活的新的最大限度似然模型。对于模型构建者来说,这将重点从满足可逆性要求转移到结合最佳归纳偏差以解决手头问题。我们的目标是,本文介绍的方法将允许从业者将更多时间用于将领域知识整合到他们的模型中,并允许通过最大限度似然估计解决更多问题。关键的方法论创新是将最近提出的一种用于训练自编码器的方法(Sorrenson等人,2024)适应到保持维度的模型上。诀窍是通过编码器和解码器雅可比的一对向量-雅可比和雅可比-向量乘积来估计编码器雅可比行列式的梯度,这些乘积在标准自动微分软件库中很容易获得。我们展示了在全维背景下,许多困扰瓶颈自编码器模型解释的理论困难消失了,优化可以被解释为正规化流Normalizing Flow训练的放松,这在原始解上是紧密的。在分子生成中,旋转等变性已经被证明是一个关键的归纳偏差,我们的方法优于传统的正规化流,并且比以往的方法快一个数量级以上的速度生成有效样本。此外,基于模拟的推断(SBI simulation-based inference (SBI))的实验强调了模型的多功能性。我们发现,我们的训练方法在最小化微调要求的情况下取得了竞争性能。总结我们的贡献如下:我们通过引入最大限度似然训练来去除正规化流Normalizing Flow的所有架构约束。我们称我们的模型为自由形态流(FFF free-form flow),见图1和第3节。我们证明了训练在重建损失最小的情况下与传统正规化流优化具有相同的最小值,见第4节。我们在逆问题和分子生成基准测试上展示了最小化微调的竞争性能,超越了基于ODE的模型。与扩散模型相比,我们的模型生成稳定分子的速度超过两个数量级。见第5节。2 相关工作正规化流通常依赖于专门的架构,这些架构是可逆的,并且具有易于管理的雅可比行列式(见第3.1节)。见Papamakarios等人(2021);Kobyzev等人(2021)的概述。一类工作通过将简单层(耦合块)串联起来构建可逆架构,这些层很容易逆转,并且具有三角形的雅可比矩阵,这使得计算行列式变得容易(Dinh等人,2015)。通过堆叠许多层及其通用性已经在理论上得到了确认(Huang等人,2020;Teshima等人,2020;Koehler等人,2021;Draxler等人,2022,2023)。已经提出了许多耦合块的选择,如MAF(Papamakarios等人,2017)、RealNVP(Dinh等人,2017)、Glow(Kingma和Dhariwal,2018)、神经样条流(Durkan等人,2019),见Kobyzev等人(2021)的概述。与分析可逆性不同,我们的模型依赖于重建损失来强制近似可逆性。另一线工作通过使用ResNet结构并限制每个残差层的Lipschitz常数来确保可逆性(Behrmann等人,2019;Chen等人,2019)。类似地,神经ODE(Chen等人,2018;Grathwohl等人,2019)采用ResNets的连续极限,保证在温和条件下的可逆性。这些模型在训练期间需要评估多个步骤,因此变得相当昂贵。此外,雅可比行列式必须估计,增加了开销。像这些方法一样,我们必须估计雅可比行列式的梯度,但可以更有效地做到这一点。流匹配Lipman等人(2023);Liu等人(2023);Albergo和Vanden-Eijnden(2023)提高了这些连续正规化流的训练速度和质量,但仍然涉及昂贵的多步骤采样过程。从构造上讲,我们的方法由单一模型评估组成,我们对架构没有限制,除了由任务手头指示的归纳偏差。两个有趣的方法(Gresele等人,2020;Keller等人,2021)计算或估计雅可比行列式的梯度,但严格限制在仅包含纯方阵权重矩阵且没有残差块的架构中。我们除了保持维度外没有架构限制。中间激活和权重矩阵可以有任何维度,允许任何网络拓扑。3 方法3.1 正规化流正规化流(Rezende和Mohamed,2015)是一类生成模型,它们学习一个可逆函数fθ(x) : RD → RD,将来自给定数据分布q(x)的样本x映射到潜在代码z。目标是让z遵循一个简单的目标分布,通常是多变量标准正态分布。从生成模型pθ(x)中获得的样本通过将简单目标分布p(z)的样本通过学习到的函数的逆映射来获得:(下图截图)这需要一个可处理的逆函数。传统上,这是通过可逆层(如耦合块)(Dinh等人,2015)或以其他方式限制函数类来实现的。我们通过一个简单的重建损失来替换这个约束,并学习第二个函数gϕ ≈ f−1 θ 作为确切逆函数的近似。需要一个可处理的雅可比行列式的行列式,以考虑密度的变化。因此,模型似然的值由可逆函数的变量变换公式给出:pθ(x) = p(Z = fθ(x))|Jθ(x)|。1这里,Jθ(x)表示fθ在x处的雅可比矩阵,|·|表示其行列式的绝对值。正规化流通过最小化真实分布和学习分布之间的Kullback-Leibler (KL) 散度来训练。这等价于最大化训练数据的似然:DKL(q(x)∥pθ(x)) = Ex∼q(x)[log q(x) − log pθ(x)] = Ex[− log p(fθ(x)) − log |Jθ(x)|] + const。通过等式(1),这需要在x处计算fθ的雅可比矩阵Jθ(x)的行列式。如果我们想准确计算这个值,我们需要计算完整的雅可比矩阵,这需要通过fθ进行D次反向传播,这对于大多数现代应用来说是禁止的。因此,正规化流文献的大部分内容都涉及到构建可逆架构,这些架构具有表现力并允许更有效地计算雅可比行列式的行列式。我们通过一个技巧来绕过这个问题,这个技巧允许我们有效地估计梯度∇θ log |Jθ(x)|,注意到这个量足以进行梯度下降。3.2 梯度技巧本节的结果是对Caterini等人(2021)和Sorrenson等人(2024)的结果的改编。这里,我们推导了如何有效地估计方程(2)中最大似然损失的梯度,即使架构不提供一种有效的方式来计算变量变换项log |Jθ(x)|。我们通过估计log |Jθ(x)|的梯度来避免这个计算,通过一对向量-雅可比和雅可比-向量乘积来估计,这些乘积在标准自动微分软件库中很容易获得。梯度通过迹估计器 Gradient via trace estimator定理3.1。让fθ : RD → RD是一个由θ参数化的C1可逆函数。那么,对于所有x ∈ RD:∇θi log |Jθ(x)| = tr((∇θiJθ(x))(Jθ(x))−1)。证明是通过直接应用雅可比公式,见附录A.1。这本身并不是一个简化,因为等式(3)的右侧现在涉及到计算雅可比矩阵及其逆矩阵。然而,我们可以通过Hutchinson迹估计器来估计它(这里我们为了简单省略了对x的依赖):tr((∇θiJθ)J−1 θ ) = Ev[vT(∇θiJθ)J−1 θ v] ≈ 1/K ∑k=1K vT k (∇θiJθ)J−1 θ vk。现在我们需要计算的就是点积vT(∇θiJθ)和J−1 θ v,其中随机向量v ∈ RD必须具有单位协方差。通过函数逆矩阵求逆矩阵 Matrix inverse via function inverse为了计算J−1 θ v,我们注意到,当fθ是可逆的时,fθ的雅可比矩阵的逆矩阵是逆函数f−1 θ的雅可比矩阵:J−1 θ (x) = (∇xfθ(x))−1 = ∇zf −1 θ (z = fθ(x))。这意味着J−1 θ v只是一个与向量v的雅可比矩阵f−1 θ的点积。这个雅可比-向量乘积可以通过前向自动微分很容易地获得。使用stop-gradient4 理论在本节中,我们提供了三个定理,这些定理强调了我们方法的有效性。首先,我们展示了使用精确逆的Lf^-1优化是数据分布和生成分布之间扩散散度的一个界限。其次,我们展示了在什么条件下,放松的Lg(使用非精确逆的损失)的梯度等于Lf^-1的梯度。最后,也是最重要的,我们展示了Lf^-1的解是最大似然解,其中pθ(x) = q(x)。此外,Lf^-1的每个临界点也是Lg的临界点,这意味着优化Lg在实践中等同于优化Lf^-1,除了一些额外的临界点,我们认为这些临界点在实践中并不重要。请参考附录A以获取本节结果的详细推导和证明。4.1 损失推导除了前几节中给出的直观发展,Lf^-1(等式(7))可以严格地推导为数据的噪声版本和模型的噪声版本之间的KL散度的界限,称为扩散KL散度(Zhang等人,2020)。这个界限是一种证据下界(ELBO)的形式,如VAEs(Kingma和Welling,2014)中所使用的。由于上述推导类似于ELBO,我们可以问是否可以将FFF解释为VAE。在附录A.2中,我们提供了一个论点,即它可以,但它具有非常灵活的后验分布,与VAE后验中通常使用的简单分布(如高斯分布)形成对比。因此,它不会受到典型的VAE失败模式的影响,例如糟糕的重建和过度正则化。请注意,上述定理陈述的是解码器分布pϕ(x)的结果,而不是用于激励损失函数的编码器分布pθ(x)。虽然这似乎起初是反生产的,但实际上,优化pϕ(x)以匹配数据分布比优化pθ(x)以匹配数据分布更有用,因为pϕ(x)是我们用于从数据生成的模型。无论如何,可以简单地证明D' ≥ DKL(q(x)