RGAN:混合Transformer与生成对抗网络

结合的地貌写景图风格迁移方法

研究背景与意义

地貌写景图

  • 侧视视角绘画写景形式
  • 概括表示地形起伏特征
  • 直观准确再现地貌形态
  • 具有较好艺术性

传统方法局限

  • 主要依靠手工绘制
  • 对绘画功底要求高
  • 耗费时间较多
  • 难以批量生产

传统GAN的关键问题

问题① 上下文关系

难以获取图像长距离像素之间的上下文关系,导致风格迁移效果不佳

问题② 高频信息丢失

训练过程中易丢失高频信息,造成图像模糊、边缘特征丢失,无法保证地貌表达准确性

RGAN模型创新

Revolutionary GAN Architecture

针对传统GAN的问题,提出RGAN模型,通过混合Transformer拉普拉斯高频损失实现地貌写景图的高质量风格迁移。

MixTrans模块

混合卷积-Transformer特征提取,增强长距离上下文关系提取能力

LPCLoss模块

拉普拉斯高频损失,减少训练过程中图像高频细节丢失

MixTrans特征提取模块

混合卷积-Transformer架构,结合CNN的局部特征提取能力与Transformer的全局建模能力。

卷积层

  • 提取局部特征
  • 保留空间信息

Transformer

  • 捕获全局依赖
  • 长距离建模

混合优势

  • 局部+全局特征
  • 增强表达能力

LPCLoss拉普拉斯高频损失

通过拉普拉斯算子提取图像高频信息,构建高频损失函数,保留边缘细节和纹理特征。

拉普拉斯算子

二阶微分算子,对图像进行高频滤波

  • • 突出图像边缘
  • • 提取高频细节
  • • 增强纹理特征

损失函数改进

在传统损失基础上增加高频约束

  • • 减少细节丢失
  • • 保持边缘清晰
  • • 提升图像质量

千里江山图数据集

基于北宋王希孟的《千里江山图》,人工构建训练数据集,实现中国传统山水画风格迁移。

艺术价值

北宋青绿山水画代表作,色彩绚丽、构图宏大

数据构建

人工标注、裁剪、配对,构建训练数据集

风格特征

青绿设色、层峦叠嶂、气势磅礴

实验结果

与主流风格迁移模型(CycleGAN、StyTr、ArtFlow)对比,RGAN在所有指标上均达到最优值。

定量指标

MSE(均方误差) 0.0178

相比CycleGAN降低23.9%

PSNR(峰值信噪比) 17.90

相比CycleGAN提升3%

SSIM(结构相似度) 0.324

相比CycleGAN提升2.6%

LPIPS(感知距离) 0.3711

相比CycleGAN降低4.6%

性能对比

相比CycleGAN
  • ✓ MSE降低23.9%
  • ✓ PSNR提升3%
  • ✓ SSIM提升2.6%
  • ✓ LPIPS降低4.6%
综合优势

所有指标均为最优值,显著优于其他模型

应用案例

江西庐山、四川凉山、福建武夷山三个不同地貌类型区域成功生成千里江山图风格地貌写景图。

江西庐山

地貌类型

断块山地貌

生成效果

成功迁移千里江山图风格

四川凉山

地貌类型

高原山地地貌

生成效果

展现良好适应性

福建武夷山

地貌类型

丹霞地貌

生成效果

保持地貌特征准确性

RGAN模型架构

生成器(Generator)

编码器

MixTrans特征提取

残差块

深层特征学习

解码器

图像重建生成

判别器(Discriminator)

PatchGAN架构,判别图像真实性,引导生成器优化

损失函数

对抗损失

GAN基础损失

循环一致性损失

保持内容一致

LPCLoss

高频细节保留

核心创新与优势

Core Innovation and Advantages

架构创新

  • 混合Transformer架构
  • 局部+全局特征融合
  • 长距离依赖建模

损失函数创新

  • 拉普拉斯高频损失
  • 保留边缘细节
  • 减少高频信息丢失

性能优势

  • 所有指标最优
  • 显著优于CycleGAN
  • 多地貌类型适应

性能提升总结

MSE

降低23.9%

PSNR

提升3%

SSIM

提升2.6%

LPIPS

降低4.6%