当前位置: 首页 > news >正文

【T2I】RB: REGION AND BOUNDARY AWARE ZERO-SHOT GROUNDED TEXT-TO-IMAGE GENERATION

CODE: 2309
https://github.com/StevenShaw1999/RnB

ABSTRACT

近期的文本到图像(T2I)扩散模型在以文本提示作为输入生成高质量图像方面取得了显著进展。然而,这些模型无法传达布局指令所指定的合适空间构图。在这项工作中,我们探索了使用扩散模型进行零样本接地T2I生成,即无需训练辅助模块或微调扩散模型就能生成与输入布局信息相对应的图像。我们提出了一种区域与边界(R&B)感知的交叉注意力引导方法,该方法在生成过程中逐步调整扩散模型的注意力图,并协助模型合成高保真、与文本输入高度兼容且能准确解读布局指令的图像。具体而言,我们利用离散采样来弥合连续注意力图和离散布局约束之间的差距,并设计了一种区域感知损失,以在扩散过程中优化生成的布局。我们进一步提出了一种边界感知损失,以增强相应区域内对象的可区分性。实验结果表明,在多个基准测试中,我们的方法在定性和定量方面都大幅优于现有的零样本接地T2I生成方法。

INTRODUCTION

最近的研究(Chen等,2023;Phung等,2023;Epstein等,2023;Couairon等,2023;Mou等,2023;Xie等,2023)表明,扩散模型的自注意力和交叉注意力图编码了丰富的结构信息(Hertz等,2022),对注意力图进行操作可以得到相应图像的编辑结果。受分类器引导(Dhariwal & Nichol,2021)的启发,他们通过将空间引导信号转化为梯度,在注意力图上设计能量函数,以实现零样本布局控制。虽然这些方法在解读布局指令方面取得了有竞争力的结果,但仍存在两个关键问题。首先,这些方法无法提供准确的空间引导,表现为合成图像与布局信息之间的对齐误差。其次,它们继承了原始文本到图像(T2I)模型中的语义不一致问题(例如,物体缺失、概念绑定错误)。
为缓解上述问题,我们为接地文本到图像(T2I)生成提出了区域和边界(R&B)感知的交叉注意力引导方法。在区域感知引导方面,我们发现先前方法输出不准确是因为忽略了交叉注意力图与真实边界框之间的差异。前者能够精细地描绘物体的形状和位置,而后者仅提供粗粒度的空间线索。为解决这一问题,我们首先利用动态阈值突出交叉注意力图中与物体相关的区域,并将其扩展为最小边界矩形(MBR)。然后,受深度网络离散采样理论(Jang等,2016;Sohn等,2015)的启发,我们通过直通估计器构建了一条从二值化的最小边界矩形到连续注意力图的可微路径。此外,我们设计了一种区域感知损失函数,直接衡量最小边界矩形与真实边界框之间的差异,以强制注意力图的分布与布局条件保持一致。在边界感知引导方面,我们发现细化物体区域内注意力图的边界可以增强与文本提示的语义一致性,并进一步确保符合布局约束。为此,我们提出了一种边界感知损失函数,用于锐化注意力图的边界,以促使不同概念在正确的区域中得以表达,并提高合成图像的保真度。
贡献:

  • 为实现扩散模型的零样本接地文本到图像(T2I)生成,我们提出了 R&B,一种用于布局生成的新型注意力引导方法,该方法无需辅助模块或额外训练。
  • 我们分别从区域和边界的角度对不同对象进行注意力控制。相应地,我们设计了区域感知损失和边界感知损失。前者促使交叉注意力图的激活区域与布局指令准确对齐,而后者增强了精细定位中不同概念的表现力,并更好地与文本语义相配合。我们进行了实验和消融研究,以更好地理解所提出的方法。
  • 实验结果表明,我们提出的 R&B 在零样本接地 T2I生成方面表现出色,具有较高的空间准确性和生成保真度,并且在定性和定量方面都大幅超越了现有的最先进方法。

BACKGROUND

Diffusion models.
L ( θ ) = E x 0 , t , ϵ t ∼ N ( 0 , 1 ) [ ∥ ϵ t − ϵ θ ( z t , t ) ∥ 2 ] L(\theta) = \mathbb{E}_{x_0,t,\epsilon_t\sim\mathcal{N}(0,1)}[\|\epsilon_t - \epsilon_{\theta}(z_t, t)\|^2] L(θ)=Ex0,t,ϵtN(0,1)[ϵtϵθ(zt,t)2]
L ( θ ) L(\theta) L(θ)等于 x 0 x_0 x0 t t t ϵ t \epsilon_t ϵt服从 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1)分布时的期望 [ ∥ ϵ t − ϵ θ ( z t , t ) ∥ 2 ] [\|\epsilon_t - \epsilon_{\theta}(z_t, t)\|^2] [ϵtϵθ(zt,t)2]
Controllable diffusion.
∇ z t log ⁡ p t ( z t , y ) = ∇ z t log ⁡ p t ( z t ) + ∇ z t log ⁡ p t ( y ∣ z t ) \nabla_{z_t}\log p_t(z_t, y) = \nabla_{z_t} \log p_t(z_t) + \nabla_{z_t} \log p_t(y|z_t) ztlogpt(zt,y)=ztlogpt(zt)+ztlogpt(yzt)
Text-to-image generation with layout guidance. 近期许多研究将布局引导信息融入强大的Stable Diffusion(SD)模型中,实现了满足用户偏好的交互式生成。其中一些研究(Zhang和Agrawala,2023;Li等,2023a)训练辅助模块,将布局信息嵌入到SD UNet的中间特征中,从而影响模型的输出。其他研究则提供了一种交叉注意力调制的解决方案(Tu等,2023b;2023a),以正向或反向的方式注入布局引导信息。正向方法(Liu等,2023;Kim等,2023;Balaji等,2022)在正向传播过程中直接操纵SD交叉注意力图的值,这需要更精细的布局信息(例如分割图)或额外的训练。反向方法(Chen等,2023;Xie等,2023;Phung等,2023)利用能量函数将布局约束转化为梯度,并在采样过程中更新含噪隐变量。我们提出的R&B方法可被视为一种反向方法。

METHOD

在这里插入图片描述
图2:我们用于基于扩散的零样本基础文本到图像(T2I)生成的区域感知交叉注意力引导的总体框架。在每个时间步,我们通过优化能量函数 g(z_t; t, B)来更新噪声潜变量,该能量函数是区域感知损失 L_r 和边界感知损失 L_b 的总和。这有助于:使交叉注意力图的分布与布局指令对齐;更好地融入语义信息;生成具有更好空间准确性和保真度的图像。
Zero-shot grounded T2I generation. 零样本接地文本到图像生成(Chen等,2023;Phung等,2023;Xie等,2023;Lian等,2023)旨在基于文本提示和接地信息生成图像,而无需额外的训练过程。考虑一个文本提示 T = { T 1 , . . . , T N } T = \{T_1, ..., T_N\} T={T1,...,TN},以及一组边界框 B = { B 1 , . . . , B K } B = \{B_1, ..., B_K\} B={B1,...,BK}。每个边界框 B i B_i Bi对应于一个子集 T i ⊂ T T_i \subset T TiT。生成的图像应与文本提示高度一致,并满足边界框施加的布局约束。图2展示了一个直观的可视化示例,给定文本输入“一个手提包放在木长椅上”以及分别与“手提包”和“长椅”相关联的两个边界框的布局指令,我们的方法合成了一张图像,其中一个手提包位于木长椅的中间,并且手提包和长椅的物体大小与两个相应的边界框相匹配。
Attention map extraction and aggregation. 如图2所示,在每个去噪步骤 t,含噪隐变量 z t z_t zt被输入到扩散 U-Net中。在每个交叉注意力层 l,图像特征和文本特征会进行融合以实现跨模态交互,其中深度图像特征 ϕ l ( z t ) \phi_l(z_t) ϕl(zt) 和文本嵌入分别被投影到查询矩阵 Q l Q_l Ql 和键矩阵 K l K_l Kl(为简单起见,这里我们不考虑多头注意力的情况)。关于层 l处 N个文本标记的交叉注意力 A l ∈ R H l × W l × N A_l \in \mathbb{R}^{H_l\times W_l\times N} AlRHl×Wl×N计算如下:
A l = Softmax ( Q l K l ⊤ d ) A_l = \text{Softmax}\left(\frac{Q_lK_l^{\top}}{\sqrt{d}}\right) Al=Softmax(d QlKl)
其中,维度 d d d用于对 softmax 值进行归一化。 H l H_l Hl W l W_l Wl表示交叉注意力图的分辨率。将 { A j l ∈ R H l × W l ∣ T j ∈ T i } \{A_{j}^l \in \mathbb{R}^{H_l\times W_l} | T_j \in T_i\} {AjlRHl×WlTjTi}表示为关于第 i i i个概念 T i T_i Ti 的交叉注意力图,我们通过对不同层的交叉注意力图求平均值来计算聚合注意力图(Couairon等,2023) M i M_i Mi
M i = ∑ l = 1 L ∑ j = 1 N 1 T i ( T j ) ⋅ A j l M_i = \sum_{l=1}^{L} \sum_{j=1}^{N} \frac{1}{T_i (T_j)} \cdot A_{jl} Mi=l=1Lj=1NTi(Tj)1Ajl
其中 1 T i ( ⋅ ) 1_Ti(\cdot) 1Ti()是一个指示函数。由于每一层的交叉注意力图 A l A_l Al具有不同的分辨率,我们首先将它们上采样到统一的分辨率 64 × 64 64 \times64 64×64,然后对它们求平均值以得到 M i M_i Mi。先前的工作(Hertz等,2022;Epstein等,2023;Tang等,2023)表明,扩散 U-Net 的交叉注意力图包含了生成图像丰富的语义和几何信息。基于上述特性,我们进行基于条件的生成的交叉注意力引导。
Dynamic thresholding. 在采用聚合交叉注意力图之后,我们的目标是以零样本的方式准确描述特定概念的形状和位置。先前的工作(Epstein等,2023)对归一化的注意力图应用固定阈值来突出前景对象,并进行自引导图像编辑。然而,这种方法在基于布局生成的情况下效果不佳,因为注意力图的分布在布局生成过程中会发生变化。为了解决这个问题,我们提出了一种动态阈值方法来突出第 i i i个对象的前景区域 M ^ i \hat{M}_i M^i
M n o r m i = M i − min ⁡ h , w ( M i ) max ⁡ h , w ( M i ) − min ⁡ h , w ( M i ) M_{norm}^i = \frac{M^i - \min_{h,w}(M^i)}{\max_{h,w}(M^i) - \min_{h,w}(M^i)} Mnormi=maxh,w(Mi)minh,w(Mi)Miminh,w(Mi)
τ i = λ P h , w M n o r m i ⊙ B i P h , w B i + ( 1 − λ ) P h , w M n o r m i ⊙ ( 1 − B i ) P h , w ( 1 − B i ) \tau_i = \lambda \frac{P_{h,w} M_{norm}^i \odot B_i}{P_{h,w} B_i} + (1 - \lambda) \frac{P_{h,w} M_{norm}^i \odot (1 - B_i)}{P_{h,w} (1 - B_i)} τi=λPh,wBiPh,wMnormiBi+(1λ)Ph,w(1Bi)Ph,wMnormi(1Bi)
( M ^ i ) h , w = { 1 , if  ( M i norm ) h , w ≥ τ i 0 , if  ( M i norm ) h , w < τ i ( \hat{M}_i)_{h,w} = \begin{cases}1, & \text{if } (M^{\text{norm}}_{i})_{h,w} \geq \tau_i \\0, & \text{if } (M^{\text{norm}}_{i})_{h,w} < \tau_i \end{cases} (M^i)h,w={1,0,if (Minorm)h,wτiif (Minorm)h,w<τi
其中, τ i \tau_i τi 通过对式 (6)中相应边界框 B i B_i Bi内外的激活值进行加权平均来计算。元组 ( h , w ) (h,w) (h,w)表示注意力图的一个空间项。
Box selection. 式 (7)中的二值掩码 M ^ i \hat{M}_i M^i突出显示了与第 i i i个概念相关的前景区域。然而, M ^ i \hat{M}_i M^i与真实边界框 B i B_i Bi之间仍存在差距,因为后者仅通过矩形二值掩码来描述对象的形状、大小和位置。为了弥合这一差距,我们通过将 M ^ i \hat{M}_i M^i扩展为其最小边界矩形 (MBR) B ^ i \hat{B}_i B^i以匹配 B i B_i Bi来进行框选择,如图2所示。尽管如此,直接将 B ^ i \hat{B}_i B^i优化为其真实值 B i B_i Bi是不可行的,因为最小边界矩形是硬掩码且不可微。为了实现实际应用,我们首先采用 M i M_i Mi 的两种变体:形状感知注意力图 M i s M^s_i Mis(Epstein等,2023)和外观感知注意力图 M i a M^a_i Mia(详细信息见附录 C)。然后,我们通过直通估计器 (STE)构建一条从硬掩码 B ^ i \hat{B}_i B^i到两个连续注意力图的可微路径,用于区域感知交叉注意力引导:
B ^ s i = stopgrad ( B ^ i − M s i ) + M s i \hat{B}_{s_i} = \text{stopgrad}(\hat{B}_i - M_{s_i}) + M_{s_i} B^si=stopgrad(B^iMsi)+Msi
B ^ a i = stopgrad ( B ^ i − M a i ) + M a i \hat{B}_{a_i} = \text{stopgrad}(\hat{B}_i - M_{a_i}) + M_{a_i} B^ai=stopgrad(B^iMai)+Mai
在数值上,式 (8) 和式 (9)中的两个二值掩码 B ^ s i \hat{B}_{s i} B^si B ^ a i \hat{B}_{a i} B^ai等于 B ^ i \hat{B}_{i} B^i。然而,由于 B ^ s i \hat{B}_{s i} B^si B ^ a i \hat{B}_{a i} B^ai是可微的,我们可以直接在上述两个二值掩码上设计损失函数,将布局条件转化为梯度,并通过误差反向传播来优化输入的含噪隐变量,以实现布局控制。
Region-aware loss for attention guidance. 在获得上述可微边界框后,我们通过区域感知损失将它们与真实边界框 B i B_i Bi对齐:
I o U i = ∑ h , w B ^ i ⊙ B i ∑ h , w B ^ i + ( 1 − B ^ i ) ⊙ B i IoU_i = \frac{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i \odot \mathbf{B}_i}{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i + (1 - \hat{\mathbf{B}}_i) \odot \mathbf{B}_i} IoUi=h,wB^i+(1B^i)Bih,wB^iBi
L i r ( z t ; B i ) = ( 1 − I o U i ) ⋅ ( λ s ( 1 − ∑ h , w B ^ i s ⊙ B i ∑ h , w B ^ i s ) + λ a ( 1 − ∑ h , w B ^ i a ⊙ B i ∑ h , w B ^ i a ) ) L_i^r(z_t; \mathbf{B}_i) = (1 - IoU_i) \cdot \left(\lambda_s\left(1 - \frac{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i^s \odot \mathbf{B}_i}{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i^s}\right) + \lambda_a\left(1 - \frac{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i^a \odot \mathbf{B}_i}{\mathbf\sum_{h,w} \hat{\mathbf{B}}_i^a}\right)\right) Lir(zt;Bi)=(1IoUi)(λs(1h,wB^ish,wB^isBi)+λa(1h,wB^iah,wB^iaBi))
Li r中的分数促使注意力图将其最大值从当前的高激活区域转移到目标区域。式 (10)中的IoUi衡量了生成布局的空间准确性,并控制着Li r的规模。当 B ^ i \hat{B}_i B^i B i B_i Bi完全一致时,Li r降至0。与之前方法(Phung等,2023;Chen等,2023;Xie等,2023)提出的能量函数不同,式 (11)中的Li r直接衡量了预测的最小边界矩形(MBR)与真实值 B i B_i Bi之间的差异,这为扩散模型提供了更准确的引导路径,从而使生成结果在布局约束方面具有更好的准确性。
Boundary-aware loss for attention guidance. 近期工作(Li等,2023b)提出通过最大化交叉注意力图的总变差来激励物体的存在,从而提高合成图像的忠实性,这会促进注意力图的局部变化,并促使图像中出现具有区分性的物体相关区域。受此启发,我们提出一种边界感知损失,以增大对应不同物体的区域内交叉注意力图的变化:
E i = Sobel ( M i ) E_i = \text{Sobel}(M_i) Ei=Sobel(Mi)
L i b ( z t ; B i ) = ( 1 − I o U i ) ⋅ ( 1 − ∑ h , w E i ⊙ B i ∑ h , w E i ) L_i^b(z_t; B_i) = (1 - I_{oU_i}) \cdot \left(1 - \frac{\sum_{h,w} E_i \odot B_i}{\sum_{h,w} E_i}\right) Lib(zt;Bi)=(1IoUi)(1h,wEih,wEiBi)
其中 Sobel(·)表示 Sobel算子, E i E_i Ei是从聚合注意力图中提取的边缘图。直观地说, L i b L_{i}^b Lib增大了 B i B_i Bi中的变化总和并抑制了外部激活,从而将物体约束在边界框内表达,并更好地遵循语义信息。通过这种方式,第2节中用于分类器引导的整体能量函数可以写成:
g ( z t ; t , y ) = g ( z t ; t , B ) = ∑ B i ∈ B L r i ( z t ; B i ) + L b i ( z t ; B i ) g(z_t; t, y) = g(z_t; t, \mathcal{B}) = \sum_{B_i\in\mathcal{B}} L^i _r(z_t; B_i) + L_b^i(z_t; B_i) g(zt;t,y)=g(zt;t,B)=BiBLri(zt;Bi)+Lbi(zt;Bi)
在每个去噪步骤中,我们计算 g ( z t ; t , B ) g(z_t; t, B) g(zt;t,B) 的梯度并更新隐变量 z t z_t zt
z t ← z t − η g ∇ z t g ( z t ; t , B ) z_t \leftarrow z_t - \eta_g \nabla_{z_t} g(z_t; t, B) ztztηgztg(zt;t,B)
交叉注意力图控制过程的可视化示例见附录 D(图7)。所提出的 R&B 在采样过程中对交叉注意力图进行迭代优化,并有效地促使高响应集中在相应的边界框内。

EXPERIMENTS

EXPERIMENTAL SETUP

Dataset. 我们利用不同的数据集对我们方法的有效性进行定量验证。首先,我们从生成准确性的角度将我们的模型性能与不同的先进方法进行比较。我们使用了两个基准数据集:HRS(Bakr等,2023)和Drawbench(Saharia等,2022)。HRS数据集由各种标注了物体名称和相应标签的提示组成。我们选择了三个类别来验证我们提出的方法的有效性:空间/大小/颜色,每个类别的提示数量分别为1002/501/501。Drawbench数据集包含39个提示,每个提示都有手动标注的标签。为了评估空间准确性,我们从该基准数据集中选取了20个样本的子集。上述两个基准数据集的边界框标注是借助GPT -4(Phung等,2023)根据文本提示生成的。其次,我们根据所有方法与文本输入的一致性对它们进行评估。我们从MS - COCO(Lin等,2014)数据集中选取了100个样本,并创建了由图像描述、物体短语和边界框组成的三元组。为每个样本随机生成五张图像,以衡量其与图像描述的一致性。评估指标。
Metrics. 为了评估生成准确性,我们采用了HRS(Bakr等,2023)中使用的方法。该方法利用一个目标检测模型来检测合成图像中的物体。因此,当所有检测到的物体都正确,并且它们的空间关系、大小或颜色与提示中的相应短语一致时,一张图像就被视为正确预测。对于与布局条件的对齐情况,我们报告检测模型预测的边界框与真实边界框之间的平均交并比(IoU)分数。对于与文本输入的一致性,我们使用CLIP分数来衡量输入文本特征与生成图像特征之间的距离。
Competing methods. 不同基线方法的详细信息和讨论可在附录 B中找到。

EXPERIMENTAL RESULTS

为了验证所提出方法的鲁棒性,我们通过改变文本输入和边界框约束来生成不同的图像。可视化结果如图3所示,我们选择“一个带有水果 topping 的生日蛋糕”作为基本文本提示。在第一行中,根据框指令,生日蛋糕的位置从图像底部移动到顶部。在中间一行中,蛋糕从左到右变高,并且水果 topping 的位置也相应改变。这些结果表明,我们合成的图像在一系列大小和位置变化上与框信息高度一致。在最后一行中,我们通过交替提示和调整框进行了多种更改,而 R&B分别呈现出了精细的结果。这表明我们的方法能够从不同方面稳健地模拟布局控制,保持较高的生成保真度和准确性。
Quantitative comparison. 我们验证了我们的方法以及现有最先进的零样本 grounded T2I方法的生成准确性(详细信息见附录 B)。比较结果如表1所示。在空间类别方面,我们的方法在 HRS上比最佳方法高出5.69%,在 DrawBench上高出11.50%。在大小和颜色类别方面,我们提出的方法也大幅领先于基线方法,分别高出9.77% 和8.5%。我们提出的区域感知损失引导生成过程更忠实地遵循布局,这是提高空间和大小类别性能的关键。我们提出的边界感知损失使得能够根据布局生成更多的物体,这提升了在包含3个或4个物体的困难案例上的性能。与布局约束和文本输入对齐情况的定量比较见附录 F(表5)。
在这里插入图片描述
Visual comparisons. 在图4中,我们展示了我们的方法与几种对比基线方法的可视化比较。我们观察到,在没有额外布局约束的情况下,普通的Stable Diffusion会出现物体缺失和物体数量统计错误的问题,因此生成的图像无法传达给定的布局信息。借助针对布局输入精心设计的能量函数,现有方法通过扩散引导实现了零样本定位文本到图像(T2I)生成,并呈现出具有竞争力的结果,能更好地反映物体布局。尽管如此,上述T2I方法的关键问题在现有方法中仍然存在。例如,BoxDiff未能生成杯子,Attention - refocusing未能生成手包和椅子,Layout - guidance未能生成椅子,并且BoxDiff和Layout - guidance生成的马的数量都不正确。此外,许多合成图像与布局约束的契合度不高。
相比之下,我们提出的 R&B能很好地处理语义缺失问题,生成的图像能更好地与边界框对齐,且能更好地反映给定文本提示的语义(例如,女人手中用来牵马的绳子)。我们的 R&B方法的有效性可归因于区域感知损失和边界感知损失提供的可靠引导。区域感知损失能准确捕捉生成布局与真实框之间的差异,而边界感知损失则通过促使不同对象在其相应区域内表达来校准生成过程。我们注意到,尽管注意力重聚焦在 HRS 和 Drawbench基准测试中取得了较高的定量性能,但生成的图像与框约束的对齐效果不佳。原因在于上述两个基准测试仅从粗粒度方面评估模型的生成准确性。在评估中,与边界框未对齐的图像仍可能被视为正确。竞争方法在不同随机种子下的更多生成结果可在附录 F(图9)中找到。
在这里插入图片描述

ABLATION STUDY

Impact of different loss components. 在图5中,我们展示了对我们提出的区域感知损失 L r L_r Lr 和边界感知损失 L b L_b Lb理解的可视化结果。我们观察到, L r L_r Lr(第二列)有助于实现良好的空间准确性,但不能很好地处理一些复杂的语义信息。例如,汽车数量错误,以及骑马的人缺失。另一方面,仅使用 L b L_b Lb时,生成的图像(第三列)能更好地符合文本语义,但与真实边界框的对齐效果不佳。第四列展示了两种损失相结合的可视化结果。我们发现它们能很好地相互补充,并呈现出在空间和语义准确性上都有所提升的生成结果。关于这两种损失的定量分析,请参考附录 E中的表4。
在这里插入图片描述
Impact of the guidance ratio. 我们从定量的角度分析了公式 (15)中引导比率 η g \eta_g ηg对能量函数 g g g 的影响。在 MS - COCO数据集上的数值结果如表2所示。我们将 η g \eta_g ηg 的取值范围从20调整到300,并报告平均交并比(IoU)和文本到图像(T2I)相似度,分别用于衡量与布局和文本输入的对齐程度。我们使用 UniDet(Zhou等,2022)来检测合成图像中的物体,并计算预测物体边界框与其对应的真实边界框之间的平均 IoU分数。由于文本提示中的一些短语不属于 UniDet 的测试类别,平均 IoU 的上限为0.875。至于文本到图像的相似度,我们计算图像特征和相应文本提示特征的 CLIP分数。我们观察到,随着 η g \eta_g ηg 的增大,这两个分数起初有所提高,然后迅速下降。原因是过强的约束会极大地损害生成的保真度,导致评估结果变差。实际上,为了平衡生成的准确性和保真度,我们在所有实验中都选择 η g \eta_g ηg为70。由于篇幅限制,我们在附录 E中详细讨论了额外的消融实验结果。
在这里插入图片描述

http://www.lqws.cn/news/580321.html

相关文章:

  • RK3588高性能处理器核心技术解析
  • 从0开始学习计算机视觉--Day06--反向传播算法
  • chatshare最新激活码分享
  • OpenCV计算机视觉实战(14)——直方图均衡化
  • Windows环境下Docker容器化的安装与设置指南
  • MySQL DATETIME 类型时间精度陷阱:一次由毫秒引发的数据“消失”之谜
  • 计算机网络第一章——计算机网络体系结构
  • Pandas5(数据清洗1)——缺失值处理、数据去重/转换/替换、离散化/分箱、检测和过滤异常值
  • 【Kafka】docker 中配置带 Kerberos 认证的 Kafka 环境(全过程)
  • NIO 工作原理
  • C++ cstring 库解析:C 风格字符串函数
  • 【甲方安全建设】SDL基线建设及审计评估
  • API接口安全-2:签名、时间戳与Token如何联手抵御攻击
  • 【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(1)线性回归模型
  • Web攻防-SSRF服务端伪造功能逻辑SRC实践复盘参数盲测自动化检测流量插件
  • 【ArcGISPro】解决Pro不能导入AppData下的site-packages
  • MySQL数据库--SQL DDL语句
  • 大学专业科普 | 云计算、大数据
  • 淘宝API接口在数据分析中的应用
  • [springboot系列] 探秘 JUnit 5:现代 Java 单元测试利器
  • 2025年数据治理平台排名及功能对比分析
  • Nacos 3.0 架构全景解读,AI 时代服务注册中心的演进
  • 通过案列理解js中的深拷贝和浅拷贝
  • Server-Sent Events (SSE) 技术详解
  • 【原创】【5】【视频二创工具发布】基于视觉模型+FFmpeg+MoviePy实现短视频自动化二次编辑+多赛道
  • Windows 开发环境部署指南:WSL、Docker Desktop、Podman Desktop 部署顺序与存储路径迁移指南
  • PreparedStatement详解
  • Vue3静态文档资源展示的实现和使用总结
  • 【CS创世SD NAND征文】SD NAND赋能新一代儿童智能玩具
  • js代码04