针对单条文本描述生成的图像质量不高且存在结构错误的问题进行研究,采用多阶段生成对抗网络模型,并提出对不同文本序列进行插值操作,从多条文本描述中提取特征,以丰富给定的文本描述,使生成图像具有更多细节。为了生成与文本更为相关的图像,引入了多文本深度注意多模态相似度模型以得到注意力特征,并与上一层视觉特征联合作为下一层的输入,从而提升生成图像的真实程度和文本描述之间的语义一致性。为了能够让模型学会协调每个位置的细节,引入了自注意力机制,让生成器生成更加符合真实场景的图像。优化后的模型在CUB和MS-COCO数据集上进行验证,生成的图像不仅结构完整,语义一致性更强,视觉上的效果更加丰富多样。
农元君 Nong Yuanjun王俊杰 Wang Junjie
杨昊 Yang Hao史圣兵 Shi Shengbing姚亮亮 Yao Liangliang桂甸 Gui Dian时璐 Shi Lu赵金宇 Zhao Jinyu孟浩然 Meng Haoran
Xiangzeng LiuTian ZhengWeidong YanXifa Duan
谭威 Tan Wei宋闯 Song Chuang赵佳佳 Zhao Jiajia梁欣凯 Liang Xinkai