Mit dem Artikel von Ralf Whisper: eine freie Speech-to-Text Engine - GNU/Linux.ch wurde ich das erste Mal inspiriert mit meinem Computer zu sprechen, doch leider habe ich nicht die Fähigkeit druckfertig zu artikulieren. Der Podcast Captain it's Wednesday - Folge 147 - Alternative Eingaben - GNU/Linux.ch erinnerte mich das wieder anzugehen, dieses Mal habe ich nach einer freien App gesucht die mir das ermöglicht.
Mit Whisper+ aus dem F-Droid lässt sich ein richtiges Start-Trek Feeling erzeugen: Man spricht in seinen Kommunikator und die Sätze werden nach den Regeln der gewählten Sprache getippt - so der Wunsch. Ohne Server, ohne Netzwerk ohne Abhängigkeiten. Alles wird lokal berechnet.
Das dafür verwendete Modell ist von OpenAI - Whisper - wie der Name der App schon vermuten lässt. Nach der Installation der App muss das neuronale Netz des kleinen Whisper Modells geladen werden. Die Version des Modells im ONNX Format wurde durch das Projekt RTranslator für Smartphones angepasst und bereitgestellt. Es wird über das Projekt HuggingFace geladen und ist ~ 270MB groß.
Screenshot: Integration des von HuggingFace geladenen Whisper-Modells
Die Applikation selbst steht unter der GPL-3.0 und das Modell unter Apache-2.0.
Whisper+ kann als weitere Eingebmethode verwendet werden und bis zu 30s lange Aufnahmen in Text umwandeln. Die Umwandlung dauert nur wenige Sekunden und ist erstaunlich präzise, mein gesprochenes Wort verursacht weniger Fehler als meine Daumen, schneller ist es auch. Das Modell ist Multilingual, es werden vielerlei Sprachen unterstützt. Meine Tests Deutsch und Englisch zu mischen und zwischen den Sätzen die Sprache zu wechseln funktioniert reibungslos.
Screenshot: Whisper+ geöffnet, nachdem die Einrichtung abgeschlossen wurde
Screenshot: Whisper+ als Eingabesystem für FluffyChat
Probleme hat das Modell mit Eigennamen, so kann es sich selbst nicht erkennen: Whisper im Sinne eines Eigennamens wird von der App immer verunstaltet, im Kontext eines Verbs ("Flüstern") dagegen wird anstandslos verarbeitet. Ebenso die Fähigkeit der deutschen Sprache immer längere Substantive zu bauen wird nur bis zu einer gewissen Komplexität unterstützt. Lehnwörter aus dem Französischen, die der deutschen Aussprache angepasst wurden, werden prinzipiell verunstaltet. Begriffe aus dem Englischen erkennt das Modell weitestgehend. Dialekte fallen genauso raus, ein leichter Einschlag funktioniert. Die Worterkennung hängt stark von dem verwendeten Kontext ab.
Alles in allem ist die App sehr angenehm zu verwenden. Man lernt schnell in welchen Bereichen das Modell fehlerhaft arbeitet und kann beim Überfliegen der Nachricht diese anpassen. Ich würde aber auch bei der einfachsten Kommunikation nicht empfehlen die Texte ungelesen zu verwenden.
Hauptbild: Pixabay - IgorKocka
Was ist denn jetzt der Unterschied zu Whisper (ohne Plus) auf Android? Sehe ich den nur grad nicht?
Ich denke, es geht da eher um die Weiterentwicklung hinsichtlich Effizienz und Verarbeitungsgeschwindigkeit. Es ändert sich die Technologie des Modellformats und des verwendeten Models.
😱 Scheisse. funktioniert das gut. Und so vorbildlich, Whisper+ möchte kein Internet zugriff haben.
Und wieder ein Beispiel von KI-Diebstahl im Titelbild.
Wie gesagt, ich werde es immer und immer wieder erwähnen bis ihr selbst offiziell sagt "jo wir unterstützen Diebstahl, akzeptiere es" oder ihr eure Praxis anpasst. Bei ersterem werde ich dann schlussendlich gehen.
Quelle des Bildes. https://pixabay.com/de/illustrations/fl%C3%BCstern-geheimnis-kommunikation-9502661/ Offiziell KI generiertes Bild.
Ich sehe das nicht als Diebstahl an und werde diese Bilder in meinen Artikeln weiter verwenden. Solange die Politik von GNU/Linux.ch sich dazu nicht ändert, verwende ich sie weiter. Du kannst damit alle Artikel von mir ignorieren.
Unsere Autoren sind angehalten, Bilder von freien Stock-Agenturen zu verwenden, um Copyright-seitig keine Probleme zu verursachen. Wir können nicht bei jedem Bild kontrollieren, ob es nicht KI-generiert ist. Zudem ist unsere Policy zu KI-generierten Bildern, dass dies grundsätzlich in der Bildquelle angegeben sein muss, das bezieht sich aber genau genommen nur auf selber generierte Bilder. Das müssen wir eventuell anpassen.
Solange die Bildquelle angegeben wurde, was hier der Fall ist, wurden keine unserer Richtlinien verletzt.
Gerne hören wir von dir, wenn du einen konstruktiven Vorschlag zur Anpassung unserer Richtlinien und Praktiken hast.