Über unsTechnologieProdukteImpressumDatenschutzerklärung
| de

Zur Technologie

Erkennung von Sprache und Geräuschen

Vergleich von Spracherkennung und Geräuscherkennung

Spracherkennung ist nicht gleich Spracherkennung. Die Spracherkennungssysteme der bekannten virtuellen Assistenten der Internetkonzerne analysieren den Inhalt dessen, was die Benutzer sprechen. Dazu wird sehr leistungsfähige Hardware und eine Internetverbindung zum Hersteller benötigt, damit die Spracheingaben der Benutzer an die Betreiber übertragen und von diesen analysiert und ausgewertet werden können.

Spracherkennung, die den Inhalt des Gesagten versteht, ist für manche Anwendungen einfach eine Notwendigkeit. Allerdings hat diese Form der künstlichen Intelligenz auch klare Nachteile, wie den hohen Energieverbrauch und den Verlust an Privatsphäre. Weiterhin müssen Geräte die mit dem Internet verbunden sind permanent mit Sicherheitsupdates versorgt werden. Endet dieser Support, so wird das Gerät zu einem großen Sicherheitsrisiko und einem Einfallstor für Hacker. Des Weiteren veralten IT-Geräte schnell, da sich die technischen Standards ständig weiterentwickeln. Veraltete Geräte müssen entsorgt werden, und das, obwohl die Hardware meist noch perfekt funktioniert. Das ist nicht nur lästig, sondern auch eine erhebliche Belastung für die Umwelt.

Für einfache Anwendungen ist es daher ziemlich attraktiv statt einer echten Spracherkennung eine einfachere Geräuscherkennung zu verwenden. Diese kann in ihrer Funktionsweise mit der Spracherkennung bei einem trainierten Hund verglichen werden, welcher das Gesagte inhaltlich zwar nicht versteht, aber trotzdem weiß, dass er auf ein bestimmtes Kommando mit einer bestimmten Aktionen reagieren soll.

Eigenschaften unserer Geräuscherkennung

Für das Schalten mit Sprachkommandos aus der Entfernung benötigt man besondere akustische Vorverarbeitungsverfahren. Unsere Technologie wurde von uns selbst entwickelt und im Laufe von etwa 15 Jahren immer weiter verbessert und optimiert. Sie zeichnet sich dadurch aus, dass sie

Funktionsweise einer Geräuscherkennung

Toleranz gegen Klangänderungen

Wie sich etwas anhört, hängt stark davon ab, wo sich die Quelle befindet. Das liegt vor allem daran, dass der Schall viele verschiedene Wege nimmt und dabei verschieden oft reflektiert wird. Jede Reflexion nimmt dem Schall etwas von seiner Energie. Zusammen mit den unterschiedlichen Laufzeiten bewirkt das einen Effekt, den man Nachhall nennt.

Unsere Geräuscherkennung ist auf Grund ihres Funktionsprinzips immun gegen Nachhall. Das ermöglicht eine freie Bewegung im Raum und hat den positiven Nebeneffekt, dass der Benutzer auch dann noch erkannt wird, wenn er sich erkältet hat.

Unterschiede zwischen Spracherkennung und Geräuscherkennung

Unsere Technologie ist daraufhin optimiert ein einzelnes Geräusch zu erkennen. Sie versteht nicht den Inhalt des Gesagten, obwohl sie für Sprachgeräusche optimiert wurde.

Eine echte Spracherkennung basiert hingegen auf dem Vergleich einzelner Geräuschbestandteile mit sehr vielen verschiedenen Referenzmustern. Anschließend entscheidet sich die Spracherkennung für das jeweils Wahrscheinlichste. Nach der phonetischen Erkennung folgen weitere Verarbeitungsstufen. Zum Abschluss wird eine grammatikalische, inhaltliche und sogar kontextuelle Analyse des Gesagten durchgeführt. Die künstliche Intelligenz versteht also gewissermaßen wirklich was gesagt wurde, genau wie ein Mensch. Und genau wie ein Mensch, muss sie dazu prinzipiell auch zwischen den Zeilen lesen und die Persönlichkeit des Sprechers analysieren.

Damit das gut funktioniert, werden außerordentlich viele Vergleichsdaten benötigt. Das Grundprinzip einer Spracherkennung basiert also auf viel Rechenleistung und dem massiven Sammeln von Daten, welche die Benutzer permanent an die Internetkonzerne übertragen.

Störgeräuschtoleranz

Störgeräusche überlagern sich mit dem Kommando, das erkannt werden soll. Ein Geräuscherkenner hat daher die Entscheidung zu treffen, ob es sich bei einem Kommando plus Störung noch um das zu erkennende Kommando oder schon um etwas anderes handelt. Unsere Geräuscherkennung ist dahingehend optimiert, Hintergrundgeräusche, die nicht Sprache sind, so gut wie möglich herauszufiltern. Moderates Hintergrundgeräusch stellt daher kein Problem dar.

Ungewollte Erkennungen

Unsere Geräuscherkennung ist sehr robust. Bei Kommandos mit genügend vielen Silben treten unabhängig vom vorhandenen Hintergrundgeräusch keine Fehlerkennungen auf.

Um zu verstehen, weshalb die Silbenanzahl von Bedeutung ist, muss man sich klarmachen, dass jede Silbe für sich allein genommen eine gewisse Wahrscheinlichkeit besitzt pro Stunde erkannt zu werden, obwohl sie gar nicht gesagt wurde. Bei mehreren Silben hintereinander multipliziert sich diese Fehlerkennungswahrscheinlichkeit, d.h. sie nimmt exponentiell ab. Bei Kommandos mit etwas mehr als zehn Silben ist die Wahrscheinlichkeit für eine Falscherkennung dann so klein, dass sie selbst für einen Zeitraum von hundertausenden von Jahren immer noch praktisch Null ist. In der Praxis reichen bei unserer Geräuscherkennung 5 Silben in der Regel aus.