Nach einer längeren Testphase steht das Programmierwerkzeug Copilot allen Nutzer:innen der Plattform Github zur Verfügung. Das Tool, welches mittels künstlicher Intelligenz Programmcode generiert, kostet 10 US-Dollar pro Monat oder 100 US-Dollar pro Jahr.
Anwender:innen der Codingplattform Github können sich nun von künstlicher Intelligenz beim Programmieren unterstützen lassen – wenn sie dies wünschen. Microsoft hatte Copilot letztes Jahr vorgestellt und von Ausgewählten testen lassen. Wir haben die möglichen Auswirkungen bereits im Podcast GLN014 diskutiert und darüber geschrieben.
"Copilot destilliert das kollektive Wissen der Entwickler der Welt in eine Editor-Erweiterung, die Code in Echtzeit vorschlägt, damit Sie sich auf das konzentrieren können, was am wichtigsten ist: die Entwicklung großartiger Software.", sagt Github-CEO Thomas Dohmke.
Konkret könne Copilot nicht nur einzelne Codezeilen, sondern auch komplette Methoden, Boilerplate-Code (also oft verwendete und jeweils nur leicht abgeänderte Code-Segmente), ganze Unit-Tests und sogar komplexe Algorithmen vorschlagen.
Lizenzen für freie Software erlegen den Nutzer:innen Verpflichtungen auf, die die Weitergabe, Unterlizenzierung, Verbreitung, Patente, Warenzeichen und Beziehungen zu Gesetzen betreffen. Die Gemeinschaft der freien Software kennt die Schwierigkeiten bei der Durchsetzung der Einhaltung dieser Verpflichtungen, die von einigen Gruppen als zu lästig angesehen werden. Aber so lästig man diese Verpflichtungen auch finden mag, man ist dennoch verpflichtet, sie einzuhalten. Wer glaubt, dass die Kraft des Urheberrechts seine proprietäre Software schützen soll, der muss gewärtigen, dass es auch Open-Source-Werke schützt, trotz der Unannehmlichkeiten oder Kosten, die mit dieser Wahrheit verbunden sind.
Der Copilot von GitHub ist auf Software geschult, die diesen Bedingungen unterliegt, und er hält sie nicht ein und ermöglicht es Kunden, diese Bedingungen versehentlich selbst nicht einzuhalten. Manche diskutieren über die Risiken einer "Copyleft-Überraschung", bei der jemand ein GPL-lizenziertes Werk in sein Produkt einbaut und überrascht feststellt, dass er verpflichtet ist, sein Produkt ebenfalls unter den Bedingungen der GPL zu veröffentlichen. Copilot institutionalisiert dieses Risiko, und jeder Benutzer, der es für die Entwicklung unfreier Software nutzen möchte, wäre gut beraten, dies nicht zu tun, da er sonst möglicherweise rechtlich für die Einhaltung dieser Bedingungen haftet und letztlich gezwungen ist, seine Werke unter den Bedingungen einer Lizenz zu veröffentlichen, die für seine Ziele unerwünscht ist.
Die wesentliche Frage ist, ob das Copilot-Modell ein von seinen Inputs abgeleitetes Werk darstellt oder nicht. Microsoft argumentiert, dass dies nicht der Fall ist. Diese Lizenzen sind jedoch nicht spezifisch in Bezug auf die Mittel der Ableitung; der klassische Ansatz des Kopierens und Einfügens von einem Projekt in ein anderes muss nicht das einzige Mittel sein, damit diese Bedingungen gelten. Das Modell ist das Ergebnis der Anwendung eines Algorithmus auf diese Eingaben, und somit ist das Modell selbst ein von seinen Eingaben abgeleitetes Werk. Das Modell, das dann zur Erstellung neuer Programme verwendet wird, leitet seine Verpflichtungen an diese Werke weiter.
All dies setzt die beste Auslegung der Argumentation von Microsoft voraus, die sich stark auf die Tatsache stützt, dass das Modell zu einem Allzweckprogrammierer wird, der sinnvollerweise aus seinen Eingaben gelernt hat und dieses Wissen anwendet, um ein Originalwerk zu schaffen. Sollte ein menschlicher Programmierer den gleichen Ansatz verfolgen, indem er freie Software studiert und diese Lektionen, aber nicht den Code selbst, auf originäre Projekte anwendet, könnte man zustimmen, dass sein angewandtes Wissen keine abgeleiteten Werke schafft. Aber so funktioniert das maschinelle Lernen nicht. Maschinelles Lernen ist im Wesentlichen eine verherrlichte Mustererkennungs- und Reproduktionsmaschine und stellt keine echte Verallgemeinerung des Lernprozesses dar. Es ist vielleicht zu einem begrenzten Mass an Originalität fähig, kann aber auch zu einem einfachen Fall von Kopieren und Einfügen degradiert werden.
Ein konkretes Beispiel und weitere Ausführungen findet ihr in Drew DeVaults Blogpost, auf dem dieser Artikel aufbaut. Microsofts Copilot schafft keine Schöpfungshöhe, sondern ist eine Maschine, die Lizenzverletzung fördert und Entwickler:innen diesbezüglich in die Irre führt. Verlasse dich nicht auf den Copiloten, sondern behalte das Steuer selbst in der Hand.
Quellen:
Die "KI" hinter Copilot hat beim Füttern mit Daten in der Lernphase sicherlich viel GPL-Code ("source code from publicly available sources" lt. FAQ) "gefressen". Unter welcher Lizenz müsste demnach das "Gesamtwerk" Copilot veröffentlicht werden?
Da geht es dann wahrscheinlich erstmal darum zu beweisen, dass da wirklich GPL-Daten verwendet wurden.
Meines Wissens wurde der Beweis schon dadurch erbracht, dass sich der Lizenztext der GPL selbst durch Copilot reproduzieren lässt.