Die Spracherkennung ist ein Teilgebiet der angewandten Informatik, der Ingenieurwissenschaften und der Computerlinguistik. Es geht hierbei um die Untersuchung und Entwicklung von Verfahren, welche Computern das vom Menschen Gesprochene der automatischen Datenerfassung zugänglich macht. Je Größer das Vokabular einer Software, desto höher ist auch die Wahrscheinlichkeit, das Gesprochene zuverlässig zu erfassen.
Derzeit unterscheidet man zwischen zwei Formen der Spracherkennung:
Sprecherunabhängige Spracherkennung: Ohne vorherige Trainingsphase kann der Benutzer diese Technologie in Anspruch nehmen (zB. Call-Center)
Sprecherabhängige Spracherkennung: Hierbei muss der Benutzer vor der Verwendung die Software auf die eigenen Besonderheiten der individuellen Tonalität eichen (zum Beispiel Siri)
Spätestens seitdem Alexa jeden Kommenar bequem per Sprachbefehl ausführt, die Uhr auf Zuruf die Zeit angibt oder das Telefon im Auto per Voice-Command bedienbar ist, ist die Spracherkennung in unserem Alltag fest integriert. Problemlos lassen sich ganze Bücher diktieren oder jegliche Funktionen des Handys per Google-Anweisung ausführen. Auch die Hörgeräteindustrie hat die Spracherkennung in den letzten Jahren revolutioniert, denn durch die neue Technologie kann Sprache selbst in lauten Hörsituationen optimal verstanden werden.
Die Hauptherausforderung bei einer Hörgeräteversorgung ist es, Sprache auch in lauten Hörsituationen verständlich zu machen. Um diese Herausforderung zu meistern, muss das Gerät feststellen können, wie viel Sprach- und wie viel Lärmanteile im Eingangssignal sind. Der Lärmanteil des Signals wird anschließend reduziert, während der Sprachanteil verstärkt wird. Die Verarbeitung der aufgenommenen Signale erfolgt in einem Mikrochip, welcher im Hörgerät verbaut ist. Abhängig vom herstellenden Unternehmen und dem Modell gibt es heutzutage schon Software, welche in der Lage ist, bis zu 32.000 Datenpunkte pro Sekunde auszuwerten.
Bisher nutzten Hörgeräte die sogenannte Modulationsanalyse, um die antreffenden Schallsignale zu verarbeiten. Hierbei wird anhand der Modulation, also der Wellenform und - tiefe, analysiert, um welche Signalart es sich handelt. Bei einem gering modulierten Audiosignal handelt es sich in der Regel um Lärm und bei stark modulierten Schallwellen eher um Gesprochenes. Treten beide Formen auf, ist Sprache bei Lärm zu hören. Dieses Verfahren kann allerdings nur sehr schlecht Lärm von Gesprochenem unterscheiden, wenn diese die gleiche Lautstärke haben. Auch bei sehr starkem Lärm erkennt die Modulationsanalyse den Sprachanteil im Signal nicht mehr.
Um trotz Hörverlust Sprache auch bei Lärm verstehen zu können, haben die Hörgerätehersteller eine neue Form der Spracherkennung entwickelt. Um diese Herausforderung zu meistern, kann das Hörgerät den Sprach- und Lärmanteil im Eingangssignal analysieren. Dieses Verfahren erkennt Sprache an der besonderen Charakteristik der Vokale. Vokale bestehen aus einem energiereichen Grundton, welcher harmonische Obertöne erzeugen. Für den Vokal A beispielsweise liegt der Grundton bei etwa 200 Hz, wobei die Obertöne bis zu 7 kHz erreichen können. Analysiert das Hörgerät also tiefe Grundtöne in Verbindung mit einer bestimmten Struktur von Obertönen, erkennt es Sprache und verstärkt die entsprechenden Frequenzen auch in schwierigen Hörsituationen zuverlässig.
Besonders in Situationen oder bei Unternehmungen mit mehreren Sprechern und störenden Hintergrundgeräuschen verlieren Betroffene einer Hörminderung schnell die Übersicht und haben Probleme damit, Gesprochenes dem Sprecher zuzuordnen und zu verstehen. Umso wichtiger ist es, dass diese Funktion vom Hörgerät so gut wie möglich erfüllt wird.
Weiteres
Aus unserem Blog
Sie haben eine Frage?
Lassen Sie sich jetzt kostenlos und unabhängig beraten.