Die Bildgedächtnis-Schleife: Wie generative KI visuelle Normen fortschreibt
Ein Porträt. Ein älterer Mann aus Panama. Holzruder in der Hand, Fluss im Hintergrund. Das Bild wirkt wie eine Reportageaufnahme und zeigt trotzdem niemanden.
Der Prompt war präzise: Ein älterer Emberá-Mann, runde Gesichtsform, kurzes schwarzes Haar, ein perlenbestickter Gurt über der Brust, Holzruder in der rechten Hand, Goldstundenlicht über dem Fluss. Midjourney V7 lieferte ein Bild, das all das zu zeigen scheint.

Und doch stimmt etwas nicht. Die Tätowierungen sitzen falsch. Das Muster auf dem Gurt gehört keiner Emberá-Tradition an. Das Gesicht trägt Züge aus einem anderen Kontinent.
Das wäre noch verkraftbar. Was folgt, ist es weniger.
Generative KI bildet keine Realität ab.
Midjourney rekonstruiert visuelle Wahrscheinlichkeiten aus Trainingsdaten und in vielen Fällen auch mit hochgeladener Bildreferenz. Trainiertes Material wird teilweise präzise umgesetzt. Was in den Trainingsdaten unterrepräsentiert ist, erscheint verändert oder gar nicht.
Die Ursache ist: Grosse Bilddatensätze stammen aus Web-Scraping, Stockfoto-Bibliotheken und digitalen Bildarchiven. Diese Kanäle spiegeln globale Machtverhältnisse: Europa und Nordamerika dominieren. Ostasien erscheint präziser, weil hochwertige Bilddaten in grossen Mengen vorhanden sind. Afrikanische Kulturen werden auf Armut oder Exotik reduziert. Zentralasien erscheint ostasiatisch. Indigene Kulturen Lateinamerikas — die Emberá, die Guna, die Ngäbe-Buglé — tauchen im globalen Bildarchiv als Randphänomen auf, wenn überhaupt.
Was erscheint stattdessen?
Touristische Projektionsflächen. Muster und Schmuck, die ästhetisch attraktiv, aber ethnografisch falsch sind.
Das Ergebnis ist ein geopolitisches Bildgedächtnis.
Einige Perspektiven sind überdeutlich sichtbar. Andere existieren im Modell nur als diffuse Ahnung.
Wenn KI nur sichtbar macht, wofür Trainingsdaten existieren, wer trägt Verantwortung für diese Lücken?
Ein mit KI erzeugtes falsches Bild wird geteilt. Es landet in Blogbeiträgen, Präsentationen, Bildersuchen. Irgendwann scrapet ein Datensatz das Netz erneut. Das nächste Modell lernt aus diesem Bild. Es lernt, dass ein Emberá-Mann so aussieht.
Die Verzerrung verstärkt sich somit durch Wiederholung.
Die Bildgedächtnis-Schleife: Ein Datensatz enthält ungenaue Darstellungen.
Die KI erzeugt daraus neue ungenaue Bilder. Diese gelangen ins Netz. Spätere Modelle lernen aus ihnen.
Ein "falsch interpretiertes Bild" kann so zur visuellen Norm werden.
Das gilt nicht nur für Midjourney auf der Web-basierten Anwendung. Das gilt für jedes Modell, das auf denselben Datensätzen trainiert wurde, auch mit lokalen KI-Modellen. Die Verzerrung sitzt in der Gewichtung der Trainingsdaten.
Wer promptet, trifft Entscheidungen.
Nicht nur ästhetische. Wer zum Beispiel «panamian man» schreibt statt «Emberá man from Darién», bekommt ein anderes Bild; und sendet ein anderes in den Umlauf.
Wer Referenzbilder aus Wikimedia Commons zieht statt aus Stockfoto-Datenbanken, bricht zwar den Kreislauf erst einmal an einer Stelle.
Und auch, wer Gegenprompts formuliert — «authentic indigenous features, not European» und dazu eine Bildreferenz vorgibt. So kann man das KI-Modell etwas von den Trainingsdaten lösen.
Aber, solange lokale Communities keine Kontrolle über die Bildarchive haben, die für KI-Training verwendet werden, bleibt die Bildgedächtnis-Schleife bestehen.
Projekte wie Mukurtu zeigen, dass es Alternativen gibt. Räume, in denen kulturelles Wissen unter eigener Hoheit dokumentiert wird.
Es gibt weltweit kuratierte Archive, die besseres Referenzmaterial liefern als jede Stockfoto-Datenbank:
Das Digital Archive of Latin American and Caribbean Ephemera und die Digital Library of the Caribbean bieten tiefgehende Einblicke in karibische und mesoamerikanische Kulturen.
Digital Dunhuang erschliesst asiatische Weltkulturerbestätten mit KI und 3D-Scans.
Die australische CSIRO verknüpft traditionelles Wissen der Ureinwohner mit moderner Datenvisualisierung. Als ethische Blaupause dafür, wie generative KI lokales Wissen respektieren kann.
Europeana bündelt über 50 Millionen digitalisierte Objekte aus mehr als 4.000 Institutionen. Diese Archive liefern Spezifität statt Symbolik; und Kontext, den kein Prompt allein erzeugen kann.
C2PA: Ein technischer Standard, der helfen könnte.
Er bettet Provenienzdaten direkt ins Bild ein; welches Modell es erzeugt hat, wann, mit welchen Werkzeugen. Adobe Firefly, Google Gemini, Dall-E 3 unterstützen ihn bereits. Midjourney nicht.
Aber, selbst wo er bereits integriert ist, ersetzt er weder redaktionelle Verantwortung noch eine klare Kennzeichnung.
Ein Metadatenstempel ist kein Urteilsvermögen.
Wer mit generativer KI Bilder erzeugt, wirkt an visuellen Normen mit und trifft Entscheidungen; nicht nur ästhetische.
Und, wer die KI-Bilder für Dokumentationen benutzt, produziert Erinnerungen, die nie stattgefunden haben. Diese finden sich gerade in bedenklich grosser Anzahl auf YouTube und in Social-Media-Kanälen.
Manuela Frenzel ist unabhängige Publizistin zur KI-Einordnung & lokale KI
Weiterführende Ressourcen: