Zum Wochenende: von Hunden und Alpakas

  Ralf Hersel   Lesezeit: 9 Minuten  🗪 7 Kommentare Auf Mastodon ansehen

Lokale KI-Modelle erhöhen den Schutz Deiner Privatsphäre und sind dennoch schlecht für Dich und das Internet.

zum wochenende: von hunden und alpakas

In dieser Woche sind mir zwei Berichte über den Weg gelaufen, die mich nachdenklich gestimmt haben, weshalb ich zum Wochenende darüber schreibe. Beginnen möchte ich mit einer neuen Anwendung namens Alpaca, die die Verwendung von verschiedenen Large Language Models (LLM) auf dem lokalen Rechner ermöglicht. Das könnte für alle interessant sein, die ihre KI-Anfragen nicht in die Wolken schicken möchten.

Alpaca bietet eine grafische Anwendung für das CLI-Werkzeug Ollama, welches den Betrieb von einigen LLMs auf dem lokalen Computer ermöglicht. Wer sich nicht mit der Installation und der Terminalbedienung von Ollama herumschlagen möchte, erhält mit Alpaca eine bequeme Option. Ollama bietet drölfzig LLMs zum Herunterladen an. Hier seht ihr eine kleine Auswahl mit Grössenangaben:

Falls ihr das Ausprobieren möchtet, solltet ihr unbedingt auf die Modellgrösse achten, da diese vollständig in den Arbeitsspeicher geladen werden. Wenn ihr weniger als 16 GB RAM habt, würde ich gar nicht erst damit anfangen.

Die Bedienung von Alpaca ist selbsterklärend: gewünschte LLMs herunterladen und den Chat beginnen. Im linken Panel seht ihr eure Anfragen, während rechts der Prompt und die Antworten stehen. Ich habe die Anwendung nicht installiert und getestet, sondern lediglich aufgrund von anderen Artikeln darüber geschrieben. Deshalb kann ich nichts zur Qualität der angebotenen Modelle sagen.

So viel zum Alpaca; jetzt komme ich zu den Hunden, bzw. zum Golden Retriever. Wer regelmässig den Podcast Minkorrekt hört, kann an dieser Stelle den Browser schliessen und sich in den Liegestuhl legen.

In der Folge 308 hat Reini über die Studie "AI models collapse when trained on recursively generated data" von Yarin Gal (et al.), die am 24. Juli 2024 bei Nature publiziert wurde, gesprochen. Ausserdem wird in der Folge über die Veröffentlichung "AI returns gibberish when trained on generated data" von Emily Wenger berichtet; veröffentlicht am 25. Juli 2024 in Nature.

Unwichtige Nebenbemerkung: Die Nature-Seite ist bei mir in Firefox völlig kaputt. Nur in der Leseansicht kann ich damit etwas anfangen.

Übersetzt lautet der Titel der Studien: "KI-Modelle kollabieren bei rekursiv generierten Daten" und "KI gibt Kauderwelsch zurück, wenn mit generierten Daten trainiert wird".

Und noch ein Einschub: Für die Übersetzung des Titels habe ich die parzielle Übersetzungsfunktion von Firefox 129 verwendet. Eine sehr willkommende Funktion des Browsers.

In der zweiten Studie wurde untersucht, wie sich die Generierung von Hundebildern nach mehreren Lernläufen verändert. Das Ergebnis einer Generierung wurde in mehreren Modell-Generationen wieder als Eingabe für das Training des Modells verwendet. Das führte dazu, dass nach wenigen Generationen (Trainingsläufen) alle Hunde als Golden Retriever dargestellt wurden.

Golden Retriever sind beliebte Hunde, weshalb man auch überproportional viele Bilder dieser Hunderasse im Internet findet. Trainiert man ein KI-Modell mit Bildern aus dem Internet, so wirkt sich der Bias (Tendenz) schnell darauf aus, was das Modell für einen Hund hält. Die Studie hat weitere Untersuchungen mit Texten gemacht. Auch dort ergab sich nach wenigen Trainingsgenerationen das Inzest-Problem.

Führt man das Experiment in dieser Art durch: 100 % der KI-Ausgaben werden für den nächsten Lauf als Eingabe verwendet, schlägt der Bias schnell auf die Ergebnisse durch. Doch es geht noch schlimmer. Nach weiteren Trainingsläufen bleibt es nicht beim Golden Retriever; die typischen Merkmale dieser Hunderasse werden so weit verstärkt, dass nach weiteren Generationen nur noch ein Bild-Brei übrigbleibt. Hier seht ihr Ergebnisse von vier Modell-Generationen:


Die Studie zeigt in drastischer Weise auf, was passiert, wenn das Ergebnis von KI-Resultaten wieder als Eingabe für KI-Modelle verwendet wird: nach wenigen Generationen kollabieren die Modelle und liefern nur noch Unsinn. Was in der Studie verstärkt wurde, findet im realen Internet nicht so statt. Doch die Entwicklung geht in diese Richtung. Leute verwenden KI-Tools, um Ergebnisse zu produzieren. Diese Ergebnisse landen wiederum im Internet, worauf sie für das Training der nächsten Versionen der Modelle verwendet werden.

In der ersten Studie wird ein ähnliches Problem behandelt. Darin geht es nicht um Bilder, sondern um das Zusammenfassen von Texten. Auch dort zeigt sich, dass LLMs nach wenigen Generationen kollabieren, falls man die Generationen nur, oder überwiegend mit den Ergebnissen der vorherigen Modell-Generation trainiert.

Schon heute haben Firmen wie Google, Apple, Microsoft, Meta und OpenAI Probleme, saubere Trainingsdaten zu finden, weil das Internet bereits abgegrast wurde. Die Firmen kaufen sich in geschützte Inhalte ein: Reddit, Verlage, ... Je mehr KI-generierte Inhalte zurück ins Internet gespült werden, desto inzestuöser werden die Ausgaben der Modelle. Es ist ein sich selbst verstärkender Kreislauf, der nicht nur negative Auswirkungen auf die Leistung der Chatbots und Bild-Generatoren hat, sondern auch auf die gesamte Qualität des Internets.

Fazit

Es gibt Spezialanwendungen im KI-Umfeld, die mit qualitativ hochwertigen und themenbezogen Daten trainiert werden. Zum Beispiel im medizinischen Bereich, um Krankheiten zu entdecken. Das ist gut und nützlich. Wenn es um GPTs (Generative pre-trained transformers) geht, sehe ich eher schwarz. Bei den GPTs geht es um Masse, nicht um Klasse. Vielleicht solltet ihr Alpaca nicht verwenden.

Mein Blick in die Glaskugel sagt, dass sich die GPTs innerhalb der nächsten 5 Jahre selbst zerstören werden. Bis dahin könnt ihr noch Produkte kaufen, die ein KI-Label haben :)

Friend

Update

In den Kommentaren wurde darauf hingewiesen, dass in der ersten Studie gar keine Hunde vorkommen. Das ist korrekt, weil in der Podcast-Folge von "Methodisch inkorrekt" in den Quellen nur die Studie mit der Textzusammenfassung angegeben wurde, nicht jedoch die "Hunde-Studie". Diese habe ich nun selbst gefunden und den Artikel entsprechend ergänzt. Daher gibt es jetzt auch eine Grafik, in der die Degeneration gezeigt wird.

Ein weiterer Kommentar bemängelt, dass ich nicht näher darauf eingehe, warum "lokale KI-Modelle ... schlecht für Dich und das Internet sind". Im selben Kommentar heisst es "leider werden hier mitten im Artikel Anwender und Programmierer mit einer Studie durcheinander gewürfelt". Beiden Anmerkungen kann ich mit einer Antwort begegnen: KI-Modelle (egal ob lokal oder nicht) sind schlecht für Dich und das Internet, weil Anwender:innen damit Inhalte erzeugen, die (zumindest teilweise) wieder im Internet landen. Damit dienen sie als Trainingsmaterial für die nächste Modell-Generation und machen deren Ergebnisse schlechter. Von Programmierern ist im Artikel keine Rede; vermutlich meinte der Kommentator "Trainer".

Quellen:

https://www.forbes.com/sites/jasonevangelho/2024/08/07/alpaca-makes-it-easy-to-run-powerful-ai-language-models-on-linux/

https://flathub.org/apps/com.jeffser.Alpaca

https://github.com/ollama/ollama?tab=readme-ov-file

https://minkorrekt.de/mi308-ramschkirchen/

https://www.nature.com/articles/s41586-024-07566-y

https://media.nature.com/original/magazine-assets/d41586-024-02355-z/d41586-024-02355-z.pdf

https://www.friend.com/product.html

Tags

KI, AI, Alpaca, Ollama, Künstliche Intelligenz, Minkorrekt

Stefan
Geschrieben von Stefan am 9. August 2024 um 20:43

Dagegen war mein persönliches Fazit zu dieser Studie: Jetzt also so viele KI-Inhalte wie möglich generieren und ins Netz stellen. Und vielleicht sogar wieder einen Reddit-Account dafür anlegen.

Wladimir
Geschrieben von Wladimir am 10. August 2024 um 09:38

Der Einleitungssatz "Lokale KI-Modelle ... sind schlecht für Dich und das Internet." wird gar nicht näher (aufge-)erklärt. Ausserdem sind KI-Systeme "benutzen" und "trainieren" zwei völlig verschiedene Paar Schuhe. Leider werden hier werden mitten im Artikel Anwender und Programmierer mit einer Studie durcheinander gewürfelt.

Was die Zukunftsausichten betrifft, stimmen wir allerdings überein: Momentan erstellen Menschen zwar noch selbst Texte, Audio, Videos etc. doch von KI generierten Artefakte werden in ihrer Verbreitung stark zunehmen, besser werden und menschgemachte Inhalte werden nicht mehr so leicht identifizierbar sein. Deshalb kommt irgendwann, in wenigen Jahren, der Punkt wo neue Modelle zum NEULernen / NEUTrainieren größtenteils nur noch den Output älterer KI-Modelle zur Verfügung haben werden und dann gibt es diesen beschriebenen, sich selbstverstärkenden, Effekt. Das bedeutet natürlich auch, dass neue Modelle die Halluzination der alten übernehmen und verstärken werden. Möglicherweise führt uns das irgendwann, wenn der menschliche Input gegen Null geht, zu einer technischen Singularität https://de.wikipedia.org/wiki/Technologische_Singularit%C3%A4t

Ralf Hersel Admin
Geschrieben von Ralf Hersel am 11. August 2024 um 18:58

Siehe Nachtrag im Artikel.

HF
Geschrieben von HF am 10. August 2024 um 14:16

In der Nature-Studie, die open-access ist, geht es nicht um Bilder oder Hund.

Ralf Hersel Admin
Geschrieben von Ralf Hersel am 11. August 2024 um 18:58

Siehe Nachtrag im Artikel.

kai
Geschrieben von kai am 13. August 2024 um 06:38

Sehr interessanter Beitrag, gibt mit eine völlig andere Sicht auf KI hinsichtlich der zukünftigen Entwicklung.

Nebenbemerkung: Rechtschreibfehler im Abschnitt "Update": Anwender:innen, wobei ich mich frage, warum plötzlich Anwenderinnen im Speziellen genannt werden, wenn doch zuvor von Anwendern gesprochen wird.

Robert
Geschrieben von Robert am 13. August 2024 um 10:56

TIPP: Ende letzten Jahren gab es zu dem Thema einen wirklich sehr gut gemachten Vortrag. Es geht ebenfalls um die Erkennung von Katzen und Hunden ... und was genau dabei im Computer passiert. Alle Grundlagen sehr gut und für jeden verständlich dargestellt!

Lass mal das Innere eines Neuronalen Netzes ansehen! https://www.youtube.com/watch?v=GUdoNdTNNaU