Wie funktioniert eine Offline Spracherkennung?

Spracherkennung ist heutzutage weit verbreitet. Was vor noch nicht allzu langer Zeit wie Science Fiction klang, ist heute selbst für unsere Großeltern nicht mehr unbekannt. Gerade der Einzug der Smartphones und seiner Funktionalitäten in alle Bereiche unserer Lebenswelt hat hieran einen großen Anteil.

Spracherkennung = Spracherkennung?

Doch bei den meisten dieser Dienste handelt es sich im Spracherkenner, die ausschließlich im Internet arbeiten. Wie steht es da um die Offline Spracherkennung?

Die Spracherkennungsdienste von Google und Apple sind allseits bekannt und werden viel genutzt. Aber auch spezialisierte Anwendung wie Alexa von Amazon Echo drängen aktuell in die alltägliche Lebenswelt des Menschen. Der Mensch ist es dadurch immer mehr gewohnt, Spracherkennungsdienste zu nutzen.

Doch den genannten Diensten ist ein Merkmal gemeinsam: sie arbeiten auf großen Servern, die im Hintergrund ihre Spracherkennungsleistung über mächtige Rechenkapazitäten bereitstellen. Dazwischen geschaltet ist eine Verbindung zwischen Nutzergerät und sprachverarbeitender Recheneinheit, die über das Internet bereitgestellt wird. Die Geräte selbst, wie z.B. Smartphones oder sogenannte Smart Speaker wie Amazon Echo, können gar keine Spracherkennung. Sie fungieren lediglich als Spracheingabe- und Sprachausgabe-Gerät. Die eigentliche Verarbeitung der Sprache findet im Hintergrund auf den Servern statt. Darum wird diese Form der Spracherkennung auch serverbasierte Spracherkennung genannt.

Diese Mechanik des online Datenaustauschs über das Internet bietet viele Möglichkeiten, ist aber in einigen Punkten deutlich begrenzt. Der wichtigste Punkt: Es ist immer eine Internetverbindung notwendig. Keine Internetverbindung, keine Spracherkennungsleistung.

Spracherkennung ohne Internet

Aber Spracherkennung ist auch jenseits des Internets und angebundener Server möglich. Eine solche Offline Spracherkennung greift auf die notwendigen Ressourcen und Rechenkapazitäten über eine lokale Lösung zu. So sind auch die Sprachdaten lokal gespeichert und werden ebenso lokal abgerufen. Alles befindet sich innerhalb eines geschlossenen Systems und arbeitet damit sozusagen offline.

In unserem Lingufino ist eine solche Offline Spracherkennung implementiert. In der Elektronikeinheit von Lingufino gibt es nur das Mikrofon, einen Lautsprecher und den auswechselbaren Speicher als Schnittstellen. Es gibt keine Verbindung nach außen. Alles wird über den Controller mit seinen Kapazitäten gesteuert und verarbeitet.

Worauf man besonders bei der Spracherkennung von Kindern achten muss, erklären wir euch in unserem Blogbeitrag „Kindersprache – eine Herausforderung für Spracherkennung“.

Lingufino Basis Set*