Bei GNU/Linux.ch gibt es die Möglichkeit, Artikelvorschläge einzureichen, zu denen dann von interessierten Autoren ein Beitrag geschrieben werden kann. Als ich auf die Anwendung Speech Note aufmerksam wurde, kam mir dieser Artikelvorschlag in den Sinn:
Libre Office Texte unter Linux diktieren
Gibt es oder habt Ihr Erfahrungen mit einer Software wo man die Texte unter Libre Office diktieren kann, das ist ja glaube ich in Office 365 mit eingebaut. Ich hatte schon mal gegoogelt, aber nichts richtiges gefunden. Die meiste Software ist scheinbar nicht Open Source.
Jörg M. hatte diesen Vorschlag eingereicht. Danke Jörg.
Nach meinem Kenntnisstand, gibt es keine Integration von Speech Note in Libre Office. Das macht aber nichts, weil man den transkribierten Text ganz einfach in jede beliebige Anwendung kopieren kann.
Mit Speech Note kannst du Notizen in mehreren Sprachen erstellen, lesen und übersetzen. Dazu werden die Funktionen „Sprache in Text“, „Text in Sprache“ und „Maschinelle Übersetzung“ verwendet. Die Text- und Sprachverarbeitung erfolgt vollständig offline, lokal auf deinem Computer, ohne Verwendung einer Netzwerkverbindung. Deine Privatsphäre wird stets respektiert. Es werden keine Daten ins Internet übertragen.
Ich habe Speech Note als Flatpak installiert. Nach der Installation belegt das Programm knapp 4 GB auf der SSD. Wer knappen Massenspeicher hat, sollte sich dessen bewusst sein. Doch damit nicht genug; beim ersten Starten der Anwendung darf man eine Sprache und ein KI-Modell auswählen. Ich habe mich für Deutsch und das Modell "FasterWhisper CrisperWhisper" entschieden, ohne das begründen zu können.
Nach der Auswahl wird das KI-Modell lokal installiert, was noch einmal ca. 1 GB auf die Festplatte drückt. Dann noch schnell das Headset ins Notebook einstecken und los geht der Test. In Speech Note klickt man auf "Zuhören" und fängt an zu labern. Ich habe diesen Text eingesprochen:
Heute haben Campax und die Digitale Gesellschaft dem Vorsteher des Eidgenössischen Justiz- und Polizeidepartements, Bundesrat Beat Jans, über 15’000 Unterschriften der Petition «Demokratie statt Überwachungsstaat!» übergeben. Die Unterzeichnenden fordern den sofortigen Stopp der geplanten Verschärfungen der Verordnung über die Überwachung des Post- und Fernmeldeverkehrs und der Verordnung des Bundesrates zur Überwachung des Post- und Fernmeldeverkehrs.
Die geplanten Änderungen würden faktisch sämtliche Anbieterinnen von Kommunikationsdiensten in der Schweiz – darunter auch kleine Unternehmen, Non-Profit-Organisationen und Open-Source-Projekte – zu weitreichenden Identifikations- und Überwachungspflichten zwingen. Nutzer:innen müssten sich künftig mit Ausweis, Führerschein oder verknüpfter Telefonnummer identifizieren; die Daten würden mindestens sechs Monate gespeichert und könnten von Behörden standardisiert abgefragt werden.
Der Text besteht aus 105 Wörtern und 941 Zeichen. Das Einsprechen dauerte 1 Minute und 7 Sekunden. Für die Umwandlung der Sprache in Text brauchte Speech Note ca. 3 Minuten, also Faktor 1:3. Das lief auf meinem drei Jahre alten Notebook mit dieser Spezifikation:
TUXEDO InfinityBook S 17 - Gen6
16 GB DDR4 RAM
Intel Core i7-11390H CPU
Intel Iris Xe Graphics G7 GPU
Mit einer dedizierten CUDA-fähigen Grafikkarte wäre das wohl schneller gegangen. Doch werfen wir einen Blick auf das Ergebnis:
Wie ihr seht, wurde das gesprochene Wort einwandfrei in geschriebenen Text umgewandelt. Lediglich der letzte Halbsatz wurde verschluckt – warum auch immer. Diesen Text kann man selbstverständlich in LibreOffice kopieren, womit Jörgs Artikelvorschlag Genüge getan sein dürfte.
Speech Note beherrscht noch andere Disziplinen, wie etwa die umgekehrte Richtung: Text to Speech, doch das habe ich nicht ausprobiert. Ob man mit anderen lokalen KI-Modell aus dem Fundus dieser Anwendung bessere oder schnellere Ergebnisse erzielen kann, überlasse ich eurem Forschungsdrang.
Titelbild: KI-generiert (Copilot: "Person spricht in ein Mikrofon, dessen Ausgang zu einem Textdokument führt.")
Quellen: stehen im Text
überraschender Weise hatte ich eben genau nach solchen self-host Systemen gesucht , da ich mir überlegt habe, ob sowas ins home-assistant integrierbar sein könnte und bin auf dem Blog gelandet: https://fosspost.org/open-source-speech-recognition
Da ist wohl viel los.
aber bei Home-assistant wohl nicht so: https://www.home-assistant.io/integrations/stt/#the-state-of-a-speech-to-text-entity
Ich benutze hierfür gerade meinen relativ einfachen Tonaufzeichner auf meinem alten ThinkPad T4 mit einem I5-4300U, vier Kernen und nicht so nämlich schnell. Ich benutze das mit dem großen Bispa-Modell. Leider hatte ich schon Probleme bei der Anwendung mit dem Laden oder Aufzeichnen der Sounddateien, sodass ich das nur durch eine externe Anwendung mache und dann später dem Sprachtextmodell verfüttere. Im Prinzip will ich auch gerade mal überlegen, ob man da nicht für sich so, als alter Trekkie-Fan ist das natürlich besonders toll, eine Art Logbuch für sich selbst aufnehmen kann, um das angenehme in der Star Trek-Feeling mit dem nützlichen Flair in der Art von Tagebuch, eine einfache Form von Tagebuch für sich aufzunehmen und einfach dann zu wissen, dass man das, was einem durch den Kopf geht, direkt sagen kann. Sehr habe ich allerdings auch Probleme, Worte zu finden, die druckreif sind. Ich habe jetzt hier in den Artikel-Kommentaren meine Worte kopiert, die ich so gesagt habe, mit allen grammatikalischen Fehlern, die es gibt. Ich denke, dass man in Zukunft wahrscheinlich besser sein muss beim Diktieren, um wirklich druckfähige Sätze zu sprechen und diese nicht nur einfach schreiben zu können.
Wer eine AMD-Graka nutzt, sollte noch das Flatpak "net.mkiol.SpeechNote.Addon.amd" nachinstallieren, worauf man auch beim Programmstart hingewiesen wird.