基于多文本描述的图像生成方法

聂开琴, 倪郑威

ScienceGate Book Chapters

JOURNAL ARTICLE

基于多文本描述的图像生成方法

聂开琴, 倪郑威

Year: 2024 Journal: DOAJ (DOAJ: Directory of Open Access Journals)

Get Full-Text PDF Get Analytical Report

Abstract

针对单条文本描述生成的图像质量不高且存在结构错误的问题进行研究，采用多阶段生成对抗网络模型，并提出对不同文本序列进行插值操作，从多条文本描述中提取特征，以丰富给定的文本描述，使生成图像具有更多细节。为了生成与文本更为相关的图像，引入了多文本深度注意多模态相似度模型以得到注意力特征，并与上一层视觉特征联合作为下一层的输入，从而提升生成图像的真实程度和文本描述之间的语义一致性。为了能够让模型学会协调每个位置的细节，引入了自注意力机制，让生成器生成更加符合真实场景的图像。优化后的模型在CUB和MS-COCO数据集上进行验证，生成的图像不仅结构完整，语义一致性更强，视觉上的效果更加丰富多样。

Keywords:

Process (computing) Identification (biology) Product (mathematics)

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.60

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Communism, Protests, Social Movements

Social Sciences → Social Sciences → Sociology and Political Science

German History and Society

Social Sciences → Arts and Humanities → History

German Social Sciences and History

Social Sciences → Social Sciences → Sociology and Political Science

基于多文本描述的图像生成方法

Abstract

Metrics

Topics

Related Documents

基于注意力和强化学习的遥感图像描述方法

基于稳定扩散模型的遥感图像生成方法

基于成像模型和傅里叶描述符的微生物轮廓分割方法

基于KW-SIFT描述子的遥感图像配准

基于多层级图像分解的图像融合算法