Googles neue multimodale KI: Gemini

7. Dezember 2023 Udo M. Lesezeit: 3 Minuten

Google hat Gemini vorgestellt, ein leistungsstarkes und vielseitiges KI-Modell, das durch umfangreiche Zusammenarbeit von Teams innerhalb von Google, einschließlich Google Research, entwickelt wurde. Gemini ist multimodal, was bedeutet, dass es verschiedene Arten von Informationen wie Text, Code, Audio, Bild und Video nahtlos verstehen und kombinieren kann. Zu sehen in diesem Video (Achtung! Bitte Update unten lesen): https://piped.adminforge.de/watch?v=UIZAiXYceBI

Gemini ist flexibel und effizient, sodass es sowohl in Rechenzentren als auch auf mobilen Geräten effizient arbeiten kann. Es wurde für verschiedene Anwendungen optimiert, darunter Gemini Ultra für komplexe Aufgaben, Gemini Pro für eine breite Palette von Aufgaben und Gemini Nano für Aufgaben in Geräten z.B. in Smartphones.

Vergleich zu GPT4

Das Modell erreicht laut Google herausragende Leistungen und übertrifft auf 30 von 32 weit verbreiteten akademischen Benchmarks im Bereich der Sprachmodelle den aktuellen Stand der Technik. Gemini Ultra erzielt sogar eine Leistung von 90,0% auf dem MMLU-Benchmark (massive multitask language understanding), bei dem es menschliche Experten übertrifft.

Gemini wurde entwickelt, um von Anfang an multimodal zu sein, was bedeutet, dass es verschiedene Modalitäten wie Text, Bild und Ton gleichzeitig verstehen kann. Dadurch hebt es sich von bisherigen multimodalen Modellen ab, die separate Komponenten für verschiedene Modalitäten verwenden und diese anschließend zusammenfügen.

Das Modell zeigt in Videos ausgefeilte multimodale Denkfähigkeiten, die es ihm ermöglichen, komplexe schriftliche und visuelle Informationen zu verstehen. Es kann Text, Bilder, Audio und mehr gleichzeitig erkennen und verstehen, was es besonders gut für die Erklärung von Überlegungen in komplexen Themen wie Mathematik und Physik macht.

Gemini als Programmierer

Gemini kann auch fortgeschrittenen Coding-Aufgaben gerecht werden und wurde in verschiedenen Coding-Benchmarks, einschließlich HumanEval und Natural2Code, getestet. Google plant, Gemini in verschiedenen Produkten und Diensten wie Search, Ads, Chrome und Duet AI verfügbar zu machen.

Besonderes Augenmerk wird laut Google auf Sicherheit und Verantwortlichkeit gelegt, und Gemini unterliegt umfassenden Sicherheitsbewertungen, einschließlich Bewertungen von Bias und Toxizität. Google arbeitet mit externen Experten und Partnern zusammen, um mögliche Risiken zu identifizieren und zu minimieren.

Veröffentlichung

Gemini 1.0 wird schrittweise in verschiedenen Produkten und Plattformen eingeführt, darunter Bard, Pixel 8 Pro und andere Google-Produkte. Entwickler und Unternehmenskunden können über die Gemini API in Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen.

Gemini Ultra soll in Kürze verfügbar sein, und Google plant, es zuerst ausgewählten Kunden, Entwicklern, Partnern und Sicherheits- sowie Verantwortlichkeitsexperten für Experimente und Feedback zur Verfügung zu stellen. Es wird voraussichtlich Anfang nächsten Jahres für Entwickler und Unternehmenskunden allgemein verfügbar sein.

Update

Wie sich am 8. Dezember herausstellte, handelt es sich bei dem oben erwähnten Video um eine Marketing-Produktion, die nicht die tatsächliche Interaktion mit Gemini wiedergibt. Der Mit-Entwicklungsleiter Oriol Vinyals schrieb dazu auf X:

"Alle Benutzereingaben und -ausgaben in dem Video sind echt und der Kürze halber gekürzt. Das Video veranschaulicht, wie die mit Gemini erstellten multimodalen Benutzererfahrungen aussehen könnten. Wir haben es gemacht, um Entwickler zu inspirieren."

Der Post von Vinyals auf X zeigt auch in einem Video, wie die Bedienung von Gemini für die Erstellung des Markting-Videos tatsächlich ausgesehen hat.

Quelle:

https://deepmind.google/technologies/gemini/

https://twitter.com/OriolVinyalsML/status/1732885990291775553