Multi-font printed Mongolian document recognition system

Liangrui Peng; Changsong Liu; Xiaoqing Ding; Hua Wang; Jian‐Ming Jin

doi:10.1117/12.805864

ScienceGate Book Chapters

JOURNAL ARTICLE

Multi-font printed Mongolian document recognition system

Liangrui Peng Changsong Liu Xiaoqing Ding Hua Wang Jian‐Ming Jin

Year: 2008 Journal: Proceedings of SPIE, the International Society for Optical Engineering/Proceedings of SPIE Vol: 7247 Pages: 72470J-72470J Publisher: SPIE

DOI: 10.1117/12.805864

Get Full-Text PDF Get Analytical Report

Abstract

Mongolian is one of the major ethnic languages in China. Large amount of Mongolian printed documents need to be digitized in digital library and various applications. Traditional Mongolian script has unique writing style and multi-font-type variations, which bring challenges to Mongolian OCR research. As traditional Mongolian script has some characteristics, for example, one character may be part of another character, we define the character set for recognition according to the segmented components, and the components are combined into characters by rule-based post-processing module. For character recognition, a method based on visual directional feature and multi-level classifiers is presented. For character segmentation, a scheme is used to find the segmentation point by analyzing the properties of projection and connected components. As Mongolian has different font-types which are categorized into two major groups, the parameter of segmentation is adjusted for each group. A font-type classification method for the two font-type group is introduced. For recognition of Mongolian text mixed with Chinese and English, language identification and relevant character recognition kernels are integrated. Experiments show that the presented methods are effective. The text recognition rate is 96.9% on the test samples from practical documents with multi-font-types and mixed scripts.

Keywords:

Font Computer science Scripting language Character (mathematics) Segmentation Optical character recognition Artificial intelligence Character encoding Chinese characters Point (geometry) Natural language processing Projection (relational algebra) Feature (linguistics) Pattern recognition (psychology) Set (abstract data type) Feature extraction Speech recognition Linguistics Image (mathematics) Mathematics

Metrics

Cited By

0.29

FWCI (Field Weighted Citation Impact)

Refs

0.71

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Image Retrieval and Classification Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Handwritten Text Recognition Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multi-font printed Mongolian document recognition system

Abstract

Metrics

Citation History

Topics

Related Documents

Multi-font printed Mongolian document recognition system

MULTI-AGENT BASED RECOGNITION SYSTEM OF PRINTED MONGOLIAN CHARACTERS

Convolutional Neural Network for Machine-Printed Traditional Mongolian Font Recognition

Optical font recognition for multi-font OCR and document processing

Multi-font recognition of printed Arabic using the BBN BYBLOS speech recognition system