Automatische Spracherkennungssysteme haben in den letzten Jahren rapide Fortschritte gemacht und sind in vielen Fällen vom Prototyp zu einem tatsächlich verwendbaren Werkzeug geworden. Allerdings sind diese Systeme nach wie vor äußerst empfindlich gegenüber Störgeräuschen, besonders, wenn sie instationär sind und im Frequenzbereich große Überlappungen mit dem Nutzsignal aufweisen. Um automatische Spracherkennung auch in solchen Fällen zu ermöglichen, wird in dieser Dissertation die Verwendung der Independent Component Analysis (ICA) zur Trennung von mehreren, gleichzeitig aktiven, Sprechersignalen untersucht und auf die Anwendung in der Spracherkennung hin optimiert. Zu diesem Zweck werden drei Neuerungen vorgeschlagen. Zuerst wird eine neue Lösung für das Permutationsproblem vorgeschlagen, das den Einsatz von ICA-Methoden in realen Räumen stark erschwert. Dieses Problem tritt auf, wenn die ICA in jedem Frequenzband separat angewandt wird, da die ICA zu zufälligen Vertauschungen in der Reihenfolge der Ausgangssignale führt. Mit Hilfe eines statistischen Modells für die Einfallsrichtung des Nutz- und des Störsignals wird in dieser Dissertation eine Lösung angeboten, die eine Konvergenzgarantie, zumindest zu einem lokalen Optimum, liefern kann. Zum zweiten wird die Verwendung von Zeit-Frequenzmaskierung für ICA-Ausgangssignale beschrieben und untersucht. Zur Verbesserung der ICA-Ergebnisse wird dazu geschätzt, in welchen Zeit-Frequenzstützstellen der Zielsprecher und in welchen der Störsprecher bzw. das Störsignal dominiert. Aufgrund dessen kann mit einer nichtlinearen Nachverarbeitung die Trennungsqualität deutlich verbessert werden. Gegenüber anderen Zeit-Frequenzmaskierungsmethoden hat diese Vorgehensweise den Vorteil einer größeren Robustheit gegenüber Störungen und Rauschen. Weiterhin können mit der vorgeschlagenen Methode auch verhallte Signale verarbeitet werden. Während so durch Zeit-Frequenzmaskierung die ICA-Ergebnisse in Bezug auf das Signal-Störverhältnis deutlich verbessert werden können, erhöht sich die Leistung des Spracherkenners nicht wesentlich und kann in einigen Situationen sogar sinken. Dieses Problem lässt sich durch die starken Veränderungen in den für den Erkennungsprozess relevanten Sprachmerkmalen erklären, die die Maskierung mit sich bringt. Deswegen wird als dritter Aspekt dieser Arbeit eine neue Methode vorgeschlagen, statistische Informationen von der Vorverarbeitungsstufe, also der zeit-frequenzmaskierten ICA, zum Spracherkennungssystem zu übertragen und dort zur verbesserten Erkennung zu verwenden. Dadurch wird es möglich, dem Spracherkenner Konfidenzwerte für jedes Sprachmerkmal in jedem Zeitfenster zu übertragen. Die vorgeschlagene Methode basiert auf der “Unscented Transformation”, wodurch der Rechenaufwand vergleichsweise gering gehalten und eine große Flexibilität in Bezug auf die Art der Spracherkennermerkmale ermöglicht wird. Mit Hilfe der so übertragenen Unsicherheitsinformation wird dann eine robuste Erkennung des gestörten Sprachsignals unter Berücksichtigung der durch die Maskierung entstandenen Verfälschungen möglich. Insgesamt werden mit den neuen Methoden bessere Erkennungsraten erreicht, als es entweder mit ICA allein oder mit einer Kombination von ICA und Zeit-Frequenzmaskierung möglich ist. Um dies zu belegen, werden Ergebnisse für künstlich überlagerte verrauschte Sprachsignale und für reale Überlagerungen zweier Sprecher aus Kraftfahrzeug- und Laboraufnahmen präsentiert und mit den Ergebnissen von Standard-ICA-Verfahren in Bezug auf die Trennungsqualität und Erkennungsrate verglichen.
Laurent CouvreurChristophe Ris
Junhui ZhaoJingming KuangXiang Xie
Hsin-Lung HsiehJen‐Tzung ChienKoichi ShinodaSadaoki Furui
Junhui ZhaoJingming KuangXiang Xie
Zixing ZhangJürgen T. GeigerJouni PohjalainenAmr El-Desoky MousaWenyu JinBjörn W. Schuller