Japanese large-vocabulary continuous-speech recognition using a business-newspaper corpus

T. Matsuoka; Katsutoshi Ohtsuki; Takeshi Mori; Sadaoki Furui; Koun Shirai

doi:10.1109/icslp.1996.607005

ScienceGate Book Chapters

JOURNAL ARTICLE

Japanese large-vocabulary continuous-speech recognition using a business-newspaper corpus

T. Matsuoka Katsutoshi Ohtsuki Takeshi Mori Sadaoki Furui Koun Shirai

Year: 2002 Vol: 1 Pages: 22-25

DOI: 10.1109/icslp.1996.607005

Get Full-Text PDF Get Analytical Report

Abstract

Studies Japanese large-vocabulary continuous-speech recognition (LV CSR) for a Japanese business newspaper. To enable word N-grams to be used, sentences were first segmented into words (morphemes) using a morphological analyzer. About five years of newspaper articles were used to train N-gram language models. To evaluate our recognition system, we recorded speech data for sentences from another set of articles. Using the speech corpus, LV CSR experiments were conducted. For a 7k vocabulary, the word error rate was 82.8% when no grammar and context-independent acoustic models were used. This improved to 20.0% when both bigram language models and context-dependent acoustic models were used.

Keywords:

Bigram Computer science Vocabulary Speech recognition Newspaper Morpheme Natural language processing Word error rate Artificial intelligence Context (archaeology) Language model Speech corpus Hidden Markov model Grammar Acoustic model Speech processing Linguistics Speech synthesis

Metrics

Cited By

1.11

FWCI (Field Weighted Citation Impact)

Refs

0.82

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Speech and dialogue systems

Physical Sciences → Computer Science → Artificial Intelligence

Japanese large-vocabulary continuous-speech recognition using a business-newspaper corpus

Abstract

Metrics

Citation History

Topics

Related Documents

Japanese large-vocabulary continuous-speech recognition using a business-newspaper corpus

Japanese large-vocabulary continuous-speech recognition using a business-newspaper corpus

Japanese large-vocabulary continuous-speech recognition using a newspaper corpus and broadcast news

The design of the newspaper-based Japanese large vocabulary continuous speech recognition corpus

JNAS: Japanese speech corpus for large vocabulary continuous speech recognition research.