SAM stellt frei

  Ralf Hersel   Lesezeit: 3 Minuten

Die Anwendung der Firma Meta stellt Objekte in Bildern frei. Dabei kommen zwei sehr grosse KI-Modelle zum Einsatz.

sam stellt frei

Die Firma Meta hat eine KI-Anwendung vorgestellt, die Objekte in Bildern freistellen kann. In einer Demo kann man die SAM genannte Segmentation Engine ausprobieren. Dabei stehen Beispielbilder zur Verfügung; es können auch eigene Bilder hochgeladen werden (Achtung, diese werden zu Trainingszwecken verwendet). Dabei geht die Anwendung über das hinaus, was man bisher im Bereich "Freistellen in Bildern" gesehen hat.

In der Demo hat man verschiedene Möglichkeiten, um die freizustellenden Objekte auszuwählen. Das Anklicken von Bildbereichen selektiert die als zusammenhängend erkannten Bereiche und ermöglicht es, diese freizustellen. Es ist auch möglich, das gesamte Bild auf Objekte scannen zu lassen. Im Titelbild seht ihr das Ergebnis dieser Aktion. Ausserdem kann man einen Rahmen um die zu identifizierenden Elemente ziehen. Das Modell kann auch mit Text-Prompts gefüttert werden: "Kopf der linken Person" würde eben diesen auswählen. Diese Funktion ist jedoch in der Demo noch nicht verfügbar.

Meta stellt die zugrundeliegenden Modelle und den Code unter der Apache-2.0 Lizenz für die Forschung auf GitHub bereit. Dabei handelt es sich um ein Bild- und ein Masken-Modell. Ersteres wurde mit 11 Millionen Bilder trainiert. Das zweite Modell enthält mehr als eine Billion Masken für die Objekterkennung in der Bildern.

Hier ist eine kurze Anleitung für die Demo:

  1. Demo öffnen
  2. Bild auswählen oder ein eigenes Hochladen
  3. Auf ein oder mehrere Objekte im Bild klicken
  4. Im Menü auf 'Cut out object' klicken
  5. Im Menü 'Cut-Outs' findet ihr die ausgewählten Elemente
  6. Mit einem Rechtsklick und 'Grafik speichern unter' könnt ihr den Ausschnitt als PNG-Datei herunterladen.

Die Qualität der freigestellten Objekte ist ziemlich gut. Wie immer, gibt es bei ausgefransten Objekträndern (Haare) Probleme. Unter den verlinkten Quellen findet ihr viele Beispiele und detaillierte Erklärungen, wie das System funktioniert. Bemerkenswert ist die automatische Erkennung aller Objekte im Bild, ohne menschliches Zutun. Interessant ist auch, dass die SAM-KI die Bedeutung der Objekte kennt. Ein Hund ist ein Hund, und nicht nur ein farblich zusammenhängender Bildbereich. Diese semantische Fähigkeit ist auch die Voraussetzung für die Prompt-gesteuerte Objekterkennung.

Während ich diesen Artikel schreibe, sind wieder eine Handvoll Berufe im Grafik-Bereich überflüssig geworden.

Quellen:
https://segment-anything.com/
https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
https://segment-anything.com/demo
https://github.com/facebookresearch/segment-anything

Tags

Meta, Bildbearbeitung, Freistellen, Künstliche Intelligenz

Es wurden noch keine Kommentare verfasst, sei der erste!