Lightroom und die Cloud – Teil 7: Automatische Verschlagwortung mit dem Any Vision-Plugin

Vor einigen Tagen bin ich auf folgenden Artikel im Internet gestoßen:

In diesem Artikel geht es um das Thema Verschlagwortung in Lightroom und wie hier Tools die Arbeit erleichtern können.

Ich hatte euch zu diesem Thema ja auch schon einmal Excire hier im Blog vorgestellt (hier geht’s zu meinem Test von Excire), doch in diesem Artikel ging es auch um Lösungen, welche die Cloud mit einbeziehen.

Warum überhaupt Stichwörter in Lightroom?

Die Vergabe von Stichwörter ist keine schöne Arbeit und ich denke, dass viele Nutzer von Lightroom sie aus genau diesem Grund auch stark vernachlässigen.

Dennoch bieten Stichwörter einen der besten Wege, in einem großen Lightroom-Katalog Bilder zu finden. Suchanfragen, wie :

  • Zeige alle Bilder die ich jemals in Berlin aufgenommen habe
  • Zeige alle Bilder auf denen Ich mit meinem Sohn zu sehen bin
  • Welche Sonnenuntergangsbilder habe ich

Daneben sind Stichwörter auch für jeden essentiell, der seine Bilder bei Stockagenturen verkaufen möchte, denn die Bilder werden meist über die hinterlegten Stichwörter gefunden.

Grober Aufbau meiner Stichwortliste in Lightroom

Bei der Vergabe von Stichwörtern ist Lightroom grundsätzlich gut aufgestellt. Insbesondere die Organisation der Stichwörter in Hierarchien ist eine echte Hilfe (hier geht’s zu meinem Lightroom-Quicktip zum Thema Stichwort-Hierarchien).

Einen großen Nachteil gibt es aber auch: Die Vergabe von Stichwörtern ist extrem zeitaufwendig und erfordert viel Disziplin. Wie schön wäre es da doch, wenn einem diese Arbeit abgenommen würde?

Mit Excire hatte ich mir im letzten Jahr bereits eine kommerzielle Lösung angeschaut. Excire beherrscht in der Pro-Version rund 500 Stichwörter. Auch wenn die Ergebnisse nicht schlecht waren, so ist die Anzahl der Stichwörter doch begrenzt und ich habe mit der Zeit festgestellt, dass sehr viele Dinge trotz Vorhandensein in der Stichwortliste nicht erkannt werden. Insofern hat es Excire nicht geschafft, die manuelle Verschlagwortung zu ersetzen.

Nun bin ich aber über den o.g. Artikel auf das Any Vision-Plugin von John R. Ellis gestoßen. Ich fand es spannend, habe ich als Testversion heruntergeladen und einen Kurztest durchgeführt. Dieser war so gut, dass ich das Plugin direkt gekauft habe und es euch nun vorstellen möchte.

Hinweis: Das nachstehende Review spiegelt nur meine eigene Meinung wieder. Ich habe die Software selbst erworben und stehe in keiner Beziehung zu John R. Ellis oder Google. Mir entstehen auch keine Vorteile, solltet ihr die Software selbst erwerben.

Das Any Vision Plugin

Das Plugin Any Vision von John R. Ellis ist ein Tool, welches die Verschlagwortung von Fotos automatisieren soll. Dies erfolgt, indem die Bilder in einer stark verkleinerten Version in die Cloud hochgeladen werden und dort eine Bildanalyse stattfindet.

Diese Bildanalyse findet jetzt aber nicht bei Hr. Ellis statt, sondern sein Plugin stellt quasi die Schnittstelle zwischen Lightroom und Cloud Vision dar. Google Cloud Vision ist die Bildanalyse-Lösung von Google. Habt ihr euch schonmal gefragt, warum Google, wenn ihr nach einem Stichwort sucht auch die passenden Bilder dazu findet? Woher weiß Google, dass auf einem Bild die Freiheitsstatue ist? Das Geheimnis liegt in komplexen Algorithmen, welche den Bildinhalt analysieren und dann mit anderen Bildern vergleichen. Das dies gut funktioniert, zeigen die Suchergebnisse von Google und genau diese Technologie holt ihr mit dem Any Vision Plugin auch in euren Lightroom Katalog.

Was kostet der Spaß?

Die schlechte Nachricht vorab: das ganze ist nicht (ganz) kostenfrei.

Du gute aber gleich hinterher: es kostet nicht die Welt und ist wahrscheinlich für die meisten Nutzer günstiger als Excire Pro und wenn man die Zeitersparnis dagegen rechnet sogar ein echter Gewinn.

Aber was erwartet euch nun? Excire war mit einem Preis von rund 100 EUR für Kleinnutzer schon ein recht teures Produkt. Any Vision hat dagegen keinen festen Preis. Ihr bezahlt das, was ihr für fair empfindet. Die Bezahlung erfolgt per Paypal und als Vorschlag werden rund 10 USD (ca. 9 EUR) genannt. Ihr könnt diesen Betrag aber nach oben oder unten abändern (wahrscheinlich bis auf 1 Cent), wobei ich finde, man sollte die Entwicklungsleistung schon würdigen und die 10 Dollar sind dafür ein fairer Vorschlag, zumal ihr vorher mit 50 Bildern das Plugin kostenfrei testen könnt.

Neben diesem Einmalkaufpreis fallen noch Kosten für Cloud Vision an, was die meisten von euch aber gar nicht merken werden.

Ihr braucht hierzu noch einen Google Cloud Zugang, welcher kostenfrei bei https://cloud.google.com angelegt werden kann. Über diesen Zugang könnt ihr dann verschiedene Google Dienste nutzen, so auch Cloud Vision. Dabei ist es so, dass die Anfragen an Cloud Vision bezahlt werden müssen.

Das klingt jetzt erstmal schlimmer als es ist, denn die Anfragen für 1000 Bilder im Monat sind pro Stichwortkategorie (siehe unten) kostenfrei. Erst ab dem 1001. Bild müsst ihr bezahlen. Hier werden dann 1,5 USD pro 1000 Bilder und Stichwortkategorie pro Monat fällig. Aber auch hier gibt es noch einen Bonus, denn wenn ihr euer Konto bei Google Cloud aktiviert, schenkt euch Google 300 USD Startguthaben, was für die meisten ausreichen sollte, um den bestehenden Katalog zu verschlagworten. Danach kann man dann immerhin noch 1000 neue Bilder pro Monat und Kategorie nachschicken. D.h. für die meisten Anwender werden für Cloud Vision keine Kosten anfallen, weshalb die Lösung insgesamt günstiger ist, als Excire Pro und ich sie auch für kleine Privatanwender empfehlen kann.

Preise für Cloud Vision, nachdem euer Startguthaben von 300 USD verbraucht ist. Ihr seht, dass auch dann die ersten 1000 Bilder im Monat kostenfrei sind

In meinem Fall werde ich mit der Einmalinvestition von 10 USD wohl dauerhaft hinkommen, was wirklich nicht teuer ist, für das was geleistet wird (ich werdet im nächsten Abschnitt stehen, wieviel ihr dafür bekommt!).

Noch ein Hinweis zum Startguthaben: der ungenutzte Betrag verfällt nach 12 Monaten!

Welche Stichwörter lassen sich finden?

Mit dem Plugin lassen sich verschiedene Arten von Stichwortkategorien ermitteln:

  • Labels: Hier versucht Google Cloud Vision zu erkennen, welche Gegenstände, Motive allgemeiner Art auf dem Bild zu sehen sind, z.B. ein Haus, ein Auto, ein Baum. Diese Kategorie dürfte für die meisten Anwender am wichtigsten sein
  • Landmarks: Hier wird versucht, Sehenswürdigkeiten bzw. bekannte Gegenden aus dem Bildinhalt zu identifizieren. Dies können Nationalparks sein, aber auch Gebäude wie der Eiffelturm.
    Neben den Labels ist diese Kategorie sicher auch für die meisten Anwendung sinnvoll
  • Logos: Mit dieser Kategorie können Firmenlogos auf Bildern identifiziert werden. Aus meiner Sicht ein eher nachgeordneter Punkt, für den man sich das Geld sparen kann
  • Faces: Gibt an, ob auf dem Bild Gesichter zu sehen sind. Auch hier sehe ich persönlich kaum einen Nutzen für mich, so dass ich diese Option nicht nutzen werde
  • Safety: hier werden Bilder hinsichtlich ihrer Sicherheit bewertet, d.h. Bilder mit anstößigen Inhalten werden markiert. Auch hier sehe ich nur wenig Anwendungsfälle für Privatnutzer
  • Text: Hier wird Text auf Bildern erkannt und als Stichwort wiedergegeben. Auch dies bleibt bei mir unbeachtet
  • Dominant Color: Mit dieser Funktion werden die 10 häufigsten Farben im Bild ermittelt. Dies finde ich durchaus hilfreich, da das Plugin eine Möglichkeit bietet nach der Farbe zu suchen/sortieren und man so leichter farblich zueinander passende Bilder finden kann.
In den erweiterten Optionen des Plugins legt ihr fest, welche Stichwort-Arten gesucht werden sollen, wie hoch die Qualiät der Ergebnisse sein soll und ob die Werte übersetzt werden.

Will man 1000 Bilder mit all diesen Kategorien analysieren, kostet dies pro Kategorie 1,5 USD (die ersten 1000 Bilder sind frei), wobei die Kategorie „Safety“ kostenfrei ist, wenn mindestens eine weitere Kategorie selektiert ist. Für meine Zwecke verwende ich nur die Kategorien:

  • Labels
  • Landmarks
  • Dominant Color

D.h. bei größeren Bildmengen (mehr als 1000 Bilder im Monat) betragen die Kosten 4,5 USD pro 1000 Bilder, wobei im ersten Jahr noch 300 USD Startguthaben zur Verfügung stehen.

Grundsätzlich werden die Stichwörter in Englisch selektiert. Es gibt aber auch die Option zur Übersetzung (welche wenige Cent kostet). Ich habe die Übersetzung auf deutsch ausgewählt. Wichtig ist, dass nur eine Sprache ausgewählt werden kann, dass heißt, es ist nicht möglich, die englischen Bezeichnungen parallel zu den Deutschen zu nutzen (z.B. als Synonym in einem Stichwort).

Funktioniert es?

Kommen wir zum entscheidenden Punkt: wie gut ist die Bilderkennung und wie schlägt sie sich im Vergleich zu Excire Pro.

Eine gute Möglichkeit die Qualität der Ergebnisse zu beeinflussen ist, einen Schwellenwert für die Relevanz eines Stichwortes festzulegen.

Dazu muss man wissen, dass Cloud Vision jedem Stichwort eine Wahrscheinlichkeit mitgibt. D.h. z.B. das zu 70% sicher ist, dass auf dem Bild eine Tulpe ist. Durch den Schwellenwert gibt man an, wie sicher sich Cloud Vision sein muss, damit ein Stichwort auch nach Lightroom übernommen wird. Bei Labels habe ich hier zunächst mit einem Wert von 80 (%) gearbeitet, während ich bei Landmarks auf 60 (%) gegangen bin.

Bei der Verarbeitung kann man zusätzlich einstellen, wieviele Bilder parallel verarbeitet werden. Dies erhöht die Geschwindigkeit, verlangsamt jedoch aber auch die Lightroom-Anwendung, so dass man in dieser Zeit möglichst nichts anderes tun sollte in Lightroom. Bei mir ging es mit 4 Bildern parallel jedoch sehr gut. 100 Bilder waren in 1-2 Minuten verarbeitet, was eine gute Zeit ist aus meiner Sicht, immerhin müssen die Bilder ihren Weg ins Netz finden, analysiert werden und das Ergebnis nach Lightroom übertragen werden.

Nun aber zum wichtigsten: den Ergebnissen!

Kurz gesagt war ich beeindruckt, wie viele Stichworte für die Bilder selektiert wurden. Auch die Genauigkeit und Detailtiefe der Stichwörter war beeindruckend. Perfekt waren auch hier die Ergebnisse nicht, aber in den meisten Fällen sehr gut brauchbar. Manchmal war die Übersetzung ins Deutsche jedoch etwas holprig.

Bei den Sehenswürdigkeiten war es auch verblüffend zu sehen, wie viele Orte direkt erkannt wurden und in dem allermeisten Fällen sogar korrekt.

Beispiele

Jetzt geht es ans Eingemachte, denn ich mag ja viel schreiben, aber hier kommen jetzt einige Fotos und direkt dazu das Ergebnis der Stichwörter, die Any Vision in die Stichwortliste (und in die Metadaten) geschrieben hat. Grüne Stichwörter sind Treffer, während rote Fehler sind. Daneben habe ich in Blau vermerkt, was ich manuell zusätzlich vergeben hatte.

Landschaft

Das Ergebnis bei den Landschaftsaufnahmen fällt gut aus. Lediglich einige falsche Treffer waren vorhanden, die aber in einigen Fällen durchaus nachvollziehbar sind, da sie mit dem Bildinhalt durchaus passen würden

Städte / Architektur

Bei diesen Aufnahmen gab es kaum etwas auszuseten Einzig den Fernsehturm hat Any Vision nicht erkannt

Nachtfotografie / Konzert

Bei der Aufnahme auf dem Schaufelraddampfer kommt die Erkennung an ihre Grenzen, aber ansonsten hat es auch hier sehr gut funktioniert

Tiere

Bei Tieraufnahmen hat Any Vision sehr gut funktioniert. Nur wenige Stichwörter waren falsch oder haben nicht gepasst. Auch zusätzliche Stichwörter waren kaum notwenidg

Fahrzeuge

Bei Fahrzeugen war die Qualität der Erkennung sehr unterschiedlich. Bei nur teilweise sichtbaren Fahrzeugen konnte die Art es Fahrzeuges nicht erkannt werden. Trotzde war die Trefferquote recht hoch und die falschen Ergebnisse sehr gering

Verbesserungspotentiale

Wie jedes Produkt, hat auch Any Vision Punkte, die aus meiner Sicht in künftigen Version noch verbessert werden können. Folgende Punkte sind mir dabei aufgefallen:

  • Nutzung von Hierarchien in den Any Vision-Stichworten
    Die automatisch erstellten Stichworte können in Lightroom auch zu Hierarchien gruppiert werden, so dass z.B. Auto ein Unterstichwort zu Transport ist. Wenn man dies jedoch tut, ignoriert Any Vision diese Gliederung bei neuen oder aktualisierten Fotos und legt die Stichwörter einfach erneut unter dem Oberstichwort Any Vision an. Hier wäre es viel übersichtlicher, wenn hier die Hierarchie auch bei neuen Bildern genutzt würde
  • Übersetzungen ohne Originalbezeichnung
    Es wäre schön, wenn bei einer ausgewählten Übersetzung die Originalbezeichnung des Stichwortes als Synonym mit im Stichwort hinterlegt wäre
  • keine vorgefertigte Hierarchie
    Leider liefert Google nicht selbst eine Stichworthierarchie mit, so dass alle Label direkt untereinander stehen und nicht thematisch gruppiert sind. Dies ist aber eine Sache von Cloud Vision und weniger von Any Vision

Bei den ersten beiden Punkten kann man ja vielleicht noch hoffen, dass dies mit den künftigen Versionen möglich wird. Ich werde auf jeden Fall mal den Entwickler bezüglich der Punkte anschreiben.

Fazit

Ich habe die letzten Tage meinen Katalog mit allen Bildern, die mehr als 3 Sterne haben verarbeitet. Das Ergebnis hat mich schwer beeindruckt. Die Vielfalt der Stichwörter und die Genauigkeit haben meine Erwartungen übertroffen und sind in einer Qualität, die das manuelle Verschlagworten z.T. überflüssig macht. Insofern waren die 10 USD eine sehr gute Investition.

Ich habe übrigens hier bewusst nicht nochmal eine Installationsanleitung eingefügt und das Vorgehen zur Anmeldung bei Cloud Vision erläutert, da dies John R. Ellis bereits umfassend auf seiner Seite getan hat: Any Vision Anleitung.

Damit gibt es von mir eine volle Empfehlung für dieses kleine Tool!

Habt ihr auch Erfahrungen mit der Verschlagwortung gesammelt? Dann hinterlasst mir doch einen Kommentar.