Im Fediverse tauchen jeden Tag unzählige Bilder auf. Fotos, Screenshots, Memes, Grafiken und Videos. Das Problem kennt man: Oft fehlt der Alt-Text komplett. Für viele ist das nur ein kleines Versäumnis. Ich selber vergesse es leider auch immer wieder. :-/ Für blinde Menschen ist es aber ein echter Ausschluss, weil der Screenreader dann eben nur sagt, dass da ein Bild ist. Mehr nicht. Korrigiert mich da gern, wenn das nicht stimmen sollte, aber ich habe niemanden in meinem privaten Umfeld, der einen Screenreader benötigt.
Gerade weil nicht jeder Alt-Texte schreibt, finde ich Alt-Bots wichtig für die Kommunikation. Die Idee ist simpel: Ein Bot erkennt Bilder ohne Bildbeschreibung, erstellt automatisch einen Alt-Text per KI und setzt ihn unter den Beitrag. Das ist natürlich nicht perfekt. Aber ganz ehrlich, ein brauchbarer automatischer Alt-Text ist immer noch deutlich besser als gar keiner.
Im Fediverse gibt es davon nach meinem Eindruck aktuell drei Stück, die man nennen kann. Mein eigener Bot ist Altbot_DE@fulda.social. Dann gibt es noch @Altbot@fuzzies.wtf (worauf mein Bot basiert) und außerdem @altbot@meerjungfrauengrotte.de. Ich mag an der Sache, dass sie ziemlich gut zum Fediverse passt. Statt ewig darüber zu reden, wie wichtig Barrierefreiheit ist, bauen Leute einfach Werkzeuge, die konkret helfen. Vielen Dank an dieser Stelle an Micr0byte für die Idee und die Umsetzung des Projekts bei GitHub.
Ich finde das Thema auch deshalb wichtig, weil Bilder in sozialen Netzwerken oft schnell rausgehauen werden. Ein Foto hier, ein Screenshot da, vielleicht noch ein lustiges Meme. Niemand denkt in dem Moment groß über Accessibility nach. Das ist meistens keine böse Absicht, sondern einfach Gewohnheit. Trotzdem bleibt am Ende ein Teil der Menschen außen vor. Und genau da können Alt-Bots einspringen.
Was kann der Bot, was nicht?
So ein Bot versteht nicht alles. Das ist der Haken. Eine KI kann beschreiben, was vermutlich zu sehen ist. Sie erkennt vielleicht „eine Person mit Hund im Park“ oder „ein Screenshot einer Website“. Aber Ironie, Stimmung, Running Gags oder der eigentliche Witz eines Memes gehen dabei schnell verloren. Manchmal liegt sie auch schlicht daneben. Das sollte man nicht verschweigen.
Trotzdem sehe ich den Nutzen. Ein Alt-Bot ersetzt keinen bewusst geschriebenen Alt-Text von der Person, die das Bild gepostet hat. Er ist eher ein Sicherheitsnetz. Eins, das genau dann hilft, wenn sonst gar nichts da wäre. Und das ist im Alltag eben öfter der Fall, als viele zugeben würden.
Ollama oder API-Schnittstelle?
Bei meinem Bot läuft das aktuell über eine OpenAI-Schnittstelle. Das funktioniert im Moment ordentlich. Ich überlege aber, ob ich das Ganze nicht in Richtung Ollama erweitere oder vielleicht teilweise umstelle. Der Reiz liegt für mich auf der Hand: weniger Abhängigkeit von einem externen Dienst, mehr Kontrolle auf dem eigenen Server und natürlich auch die Frage, wie gut sich so etwas mit freier Infrastruktur verbinden lässt. Gerade im Fediverse fühlt sich ein lokaler Ansatz einfach passend an. Der Bot von Micr0byte nutzt wohl Ollama auf einem dedicated GPU-Server. Dieser kann auch Videos transkribieren.
Wie funktioniert das Ganze?
Technisch ist das am Ende gar nicht so mystisch, wie es vielleicht klingt. Der Bot muss im Grunde nur merken, dass ein Bild ohne Alt-Text gepostet wurde, das Bild an ein Modell geben und die Antwort wieder sauber als Beschreibung ausgeben. In der Praxis steckt der Aufwand eher in den Details. Der Text soll knapp sein, brauchbar wirken und nicht anfangen, wilde Vermutungen als Fakten zu verkaufen.
Ich glaube, genau da liegt der Punkt: Alt-Bots müssen nicht perfekt sein, um nützlich zu sein. Sie müssen nur oft genug helfen. Und wenn am Ende mehr Bilder beschrieben sind als vorher, dann ist das schon ein Gewinn. Nicht theoretisch, sondern ganz praktisch für die Menschen, die auf solche Beschreibungen angewiesen sind.
Für mich sind Alt-Bots deshalb kein nettes Bastelprojekt am Rand. Sie zeigen ziemlich gut, wie man im Fediverse mit überschaubarem Aufwand Barrieren abbauen kann. Nicht komplett, nicht endgültig, aber spürbar. Und manchmal ist genau das der Unterschied zwischen „eigentlich gute Idee“ und echter Verbesserung.
Hand aufs Herz, nutzt ihr bereits einen der Altbots, oder schreibt ihr für jedes Bild die Bildbeschreibung selbst?
Dieser Artikel ist ebenso erschienen unter dasnetzundich.de

Als blinder habe ich mich sehr gefreut, sowohl über Deinen Bot als auch über den Artikel, dem ich nur voll zustimmen kann. Natürlich besteht bei automatisch generierten Bildbeschreibungen die Gefahr, daß ein falscher Fokus gesetzt und unwesentliches beschrieben oder wesentliches nicht beschrieben wird. In sehr vielen Fällen sind die generierten Bildbeschreibungen aber eben doch hilfreich und wenn die Alternative überhaupt keine Info ist, braucht man gar nicht lange diskutieren. Ich möchte allerdings noch auf die Gefahr hinweisen, daß so ein Bot auch ein Anreiz sein könnte, noch weniger auf Bildbeschreibungen in seinen Posts zu achten, weil das ja schließlich der Bot erledigt. Das einzige was da helfen würde wäre das Erzwingen von Bildbeschreibungen im Client bzw. im Web-Interface vor dem posten. Ollama kommt übrigens auch mit einem OpenAI-kompatiblen API, Dein Bot sollte somit auch ohne Umbau mit Ollama funktionieren, solange der Basis-URL konfigurierbar ist.
Hallo,
danke für deinen Kommentar. Der eigentliche Bot ist nicht von mir, betreibe nur den Fork. Aber das Projekt ist toll. Ja, es verleiht weniger Bildbeschreibungen, zu erstellen und den Bot das machen zu lassen. Wenn ich von unterwegs was poste und wenig Zeit habe, dann lasse ich das den Bot machen, ansonsten schreibe ich selbst. Die offizielle OpenAI API wurde gestern in das offizielle Repository übernommen, nachdem ein anderer Nutzer via separatem Fork das Ganze kompatibel gemacht hat zu OpenAI.
Ich finde den Satz super, dass das Tun für Barrierefreiheit im Vordergrund steht und nicht das ewig darüber lamentieren. Alt-Tags halte ich für eine der guten Ideen bei der Barrierefreiheit, gerade da sie einfach zu setzen sind.
Aus beruflichen Gründen interessiert mich aber, wie die rechtliche Seite dabei aussieht. Wenn der Anbieter von einem Mastodon-Server alle Bilder ohne Alt-Tag durch eine KI schickt und sei es das eigene Sprachmodell, dann wird dieser ja laut der KI-Verordnung zum Anbieter/Betreiber (?) der KI und fällt ggf. in die Kategorie "hohes Risiko", da er ja Biometrische Daten verarbeitet (z. B. Gesichter). Die Betroffenen Mastodon-Nutzer müssten dann ja auch gut informiert werden, damit sie ihre Betroffenenrechte der DSGVO geltend machen können und sich am Ende für einen Server mit oder ohne KI-Bot (je nach Vorliebe) entscheiden können.
Oder bin ich auf dem falschen Pferd und KI-Verordnung und DSGVO gelten für private Anbietern von Mastodonservern nicht oder anders?
Hallo,
Vielen Dank für deinen Kommentar. Der Nutzer wird bei erstmaligen Kontakt mit diesen Bot darüber informiert. Das ganze ist immer ein Opt-in.
Folgendes wird im angezeigt.
„ I need your explicit consent to process your requests. As part of GDPR compliance:
✅ I collect: Request timestamps, processing times, and language preferences ❌ I don't store: Images, personal information, or content of your posts
To provide consent, please reply "Yes" or "I agree" To revoke consent at any time, simply block this account.“
Laut Privacy Policy werden Daten verarbeitet aber nur temporär und nicht gespeichert. Also sehe ich da kein Problem seitens der DSGVO. https://github.com/micr0-dev/Altbot/blob/main/PRIVACY.md
Ich sehe KI-generierte Alt-Texte kritisch. Stattdessen nutze ich einen Bot, der mich per PM darauf hinweist, dass ich ein Bild ohne Alt-Text gepostet habe. Dann ergänze ich den Alt-Text selbst im Nachhinein. Das hat einen klaren Vorteil: Es schafft Bewusstsein und sorgt dafür, dass ich mir angewöhne, Alt-Texte von Anfang an mitzudenken, statt mich auf Automatik zu verlassen.
Hallo,
Vielen Dank für deinen Kommentar. Der Bor weist den nutzer erst daraufhin, dass ein Alttext fehlt, nach einer kurzen Wartezeit wird der Alttext dann ergänzt,
Ich stimme dir zu. Selbst den Text zu schreiben ist immer besser.