Independent Component Analysis for Environmentally Robust Speech Recognition

Dorothea Kolossa

doi:10.14279/depositonce-1877

ScienceGate Book Chapters

DISSERTATION

Independent Component Analysis for Environmentally Robust Speech Recognition

Dorothea Kolossa

Year: 2008 University: Deposit Once (Technische Universität Berlin) Publisher: Technische Universität Berlin

DOI: 10.14279/depositonce-1877

Get Full-Text PDF Get Analytical Report

Abstract

Automatische Spracherkennungssysteme haben in den letzten Jahren rapide Fortschritte gemacht und sind in vielen Fällen vom Prototyp zu einem tatsächlich verwendbaren Werkzeug geworden. Allerdings sind diese Systeme nach wie vor äußerst empfindlich gegenüber Störgeräuschen, besonders, wenn sie instationär sind und im Frequenzbereich große Überlappungen mit dem Nutzsignal aufweisen. Um automatische Spracherkennung auch in solchen Fällen zu ermöglichen, wird in dieser Dissertation die Verwendung der Independent Component Analysis (ICA) zur Trennung von mehreren, gleichzeitig aktiven, Sprechersignalen untersucht und auf die Anwendung in der Spracherkennung hin optimiert. Zu diesem Zweck werden drei Neuerungen vorgeschlagen. Zuerst wird eine neue Lösung für das Permutationsproblem vorgeschlagen, das den Einsatz von ICA-Methoden in realen Räumen stark erschwert. Dieses Problem tritt auf, wenn die ICA in jedem Frequenzband separat angewandt wird, da die ICA zu zufälligen Vertauschungen in der Reihenfolge der Ausgangssignale führt. Mit Hilfe eines statistischen Modells für die Einfallsrichtung des Nutz- und des Störsignals wird in dieser Dissertation eine Lösung angeboten, die eine Konvergenzgarantie, zumindest zu einem lokalen Optimum, liefern kann. Zum zweiten wird die Verwendung von Zeit-Frequenzmaskierung für ICA-Ausgangssignale beschrieben und untersucht. Zur Verbesserung der ICA-Ergebnisse wird dazu geschätzt, in welchen Zeit-Frequenzstützstellen der Zielsprecher und in welchen der Störsprecher bzw. das Störsignal dominiert. Aufgrund dessen kann mit einer nichtlinearen Nachverarbeitung die Trennungsqualität deutlich verbessert werden. Gegenüber anderen Zeit-Frequenzmaskierungsmethoden hat diese Vorgehensweise den Vorteil einer größeren Robustheit gegenüber Störungen und Rauschen. Weiterhin können mit der vorgeschlagenen Methode auch verhallte Signale verarbeitet werden. Während so durch Zeit-Frequenzmaskierung die ICA-Ergebnisse in Bezug auf das Signal-Störverhältnis deutlich verbessert werden können, erhöht sich die Leistung des Spracherkenners nicht wesentlich und kann in einigen Situationen sogar sinken. Dieses Problem lässt sich durch die starken Veränderungen in den für den Erkennungsprozess relevanten Sprachmerkmalen erklären, die die Maskierung mit sich bringt. Deswegen wird als dritter Aspekt dieser Arbeit eine neue Methode vorgeschlagen, statistische Informationen von der Vorverarbeitungsstufe, also der zeit-frequenzmaskierten ICA, zum Spracherkennungssystem zu übertragen und dort zur verbesserten Erkennung zu verwenden. Dadurch wird es möglich, dem Spracherkenner Konfidenzwerte für jedes Sprachmerkmal in jedem Zeitfenster zu übertragen. Die vorgeschlagene Methode basiert auf der “Unscented Transformation”, wodurch der Rechenaufwand vergleichsweise gering gehalten und eine große Flexibilität in Bezug auf die Art der Spracherkennermerkmale ermöglicht wird. Mit Hilfe der so übertragenen Unsicherheitsinformation wird dann eine robuste Erkennung des gestörten Sprachsignals unter Berücksichtigung der durch die Maskierung entstandenen Verfälschungen möglich. Insgesamt werden mit den neuen Methoden bessere Erkennungsraten erreicht, als es entweder mit ICA allein oder mit einer Kombination von ICA und Zeit-Frequenzmaskierung möglich ist. Um dies zu belegen, werden Ergebnisse für künstlich überlagerte verrauschte Sprachsignale und für reale Überlagerungen zweier Sprecher aus Kraftfahrzeug- und Laboraufnahmen präsentiert und mit den Ergebnissen von Standard-ICA-Verfahren in Bezug auf die Trennungsqualität und Erkennungsrate verglichen.

Keywords:

Component (thermodynamics) Speech recognition Independent component analysis Computer science Artificial intelligence Physics

Metrics

Cited By

0.67

FWCI (Field Weighted Citation Impact)

Refs

0.76

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Blind Source Separation Techniques

Physical Sciences → Computer Science → Signal Processing

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Neural Networks and Applications

Physical Sciences → Computer Science → Artificial Intelligence

Independent Component Analysis for Environmentally Robust Speech Recognition

Abstract

Metrics

Topics

Related Documents

Model-based independent component analysis for robust multi-microphone automatic speech recognition

Data-driven temporal processing using independent component analysis for robust speech recognition

Independent component analysis for noisy speech recognition

Robust speech recognition using data-driven temporal filters based on independent component analysis

Deep Learning for Environmentally Robust Speech Recognition