Scene Text Image Super-resolution based on Text-conditional Diffusion Models

Chihiro Noguchi; Shun Fukuda; Masao Yamanaka

doi:10.1109/wacv57701.2024.00151

ScienceGate Book Chapters

JOURNAL ARTICLE

Scene Text Image Super-resolution based on Text-conditional Diffusion Models

Chihiro Noguchi Shun Fukuda Masao Yamanaka

Year: 2024 Pages: 1474-1484

DOI: 10.1109/wacv57701.2024.00151

Get Full-Text PDF Get Analytical Report

Abstract

Scene Text Image Super-resolution (STISR) has recently achieved great success as a preprocessing method for scene text recognition. STISR aims to transform blurred and noisy low-resolution (LR) text images in real-world settings into clear high-resolution (HR) text images suitable for scene text recognition. In this study, we leverage text-conditional diffusion models (DMs), known for their impressive text-to-image synthesis capabilities, for STISR tasks. Our experimental results revealed that text-conditional DMs notably surpass existing STISR methods. Especially when texts from LR text images are given as input, the text-conditional DMs are able to produce superior quality super-resolution text images. Utilizing this capability, we propose a novel framework for synthesizing LR-HR paired text image datasets. This framework consists of three specialized text-conditional DMs, each dedicated to text image synthesis, super-resolution, and image degradation. These three modules are vital for synthesizing distinct LR and HR paired images, which are more suitable for training STISR methods. Our experiments confirmed that these synthesized image pairs significantly enhance the performance of STISR methods in the TextZoom evaluation.

Keywords:

Computer science Artificial intelligence Diffusion Image (mathematics) Resolution (logic) Image resolution Computer vision Pattern recognition (psychology) Natural language processing Physics

Metrics

Cited By

9.01

FWCI (Field Weighted Citation Impact)

Refs

0.96

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Advanced Image Processing Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Scene Text Image Super-resolution based on Text-conditional Diffusion Models

Abstract

Metrics

Citation History

Topics

Related Documents

Multiscale Structure Prompted Diffusion Models for Scene Text Image Super-Resolution

Scene Text Telescope: Text-Focused Scene Image Super-Resolution

Text Prior Guided Scene Text Image Super-Resolution

STSR: Sequence-Based Scene Text Image Super-Resolution

Diffusion-based Blind Text Image Super-Resolution