Generative KI wie Midjourney wirft nicht nur ethische Fragen auf, sondern verlangt auch ein neues Handwerkszeug. In meinem Buch "Bildgestaltung mit generativer KI (Künstliche Intelligenz)" zum Thema Panama zeige ich, wie sich klassische fotografische Prinzipien wie Blende, Verschlusszeit oder Schärfentiefe in konkrete Promptstrategien übersetzen lassen.
Wer Bilder in Midjourney bewusst gestalten will, arbeitet mit Sprache, Referenzen und ästhetischen Steuerungsbegriffen. Was in der Fotografie physisch eingestellt wird, erscheint in der KI als semantische Anweisung im Prompt.
Genau darin liegt die produktive, aber auch problematische Verschiebung: Die KI bildet keine Realität ab, sondern simuliert eine fotografische Wirkung. Sie erzeugt keine Aufnahme, sondern eine statistisch berechnete Bildästhetik, die an Fotografie erinnert. Das eröffnet neue kreative Spielräume, stellt aber zugleich eine zentrale Frage:
Wer kontrolliert die Regeln der visuellen Gestaltung. Und wer definiert, was als authentisch, dokumentarisch oder glaubwürdig gilt?
Dieser Beitrag analysiert, wie fotografische Grundlagen in generative Bildsysteme übersetzt werden, wo die Grenzen dieser Simulation liegen und weshalb wir dabei nicht nur an Pixel und Prompts denken sollten, sondern auch an kulturelle Verzerrung, Macht und gesellschaftliche Verantwortung.
Vom Kameraparameter zum Prompt: Wie Fotografie in KI-Sprache übersetzt wird
In der traditionellen Fotografie sind Verschlusszeit, Blende und ISO physikalische Parameter. Sie steuern, wie Licht auf den Sensor trifft, wie Bewegung sichtbar wird, wie stark sich ein Motiv vom Hintergrund abhebt und wie sauber oder körnig ein Bild wirkt. Diese Parameter unterliegen den Gesetzen der Optik, der Mechanik und der Lichtsituation.
Mit generativer KI verändert sich dieses Verhältnis grundlegend. Was früher an der Kamera eingestellt wurde, wird heute sprachlich beschrieben. Die generative KI versteht keine Fotografie im physikalischen Sinn. Sie rekonstruiert visuelle Wahrscheinlichkeiten aus Trainingsdaten und ordnet Promptbegriffe bekannten Bildmustern zu.
Die Übersetzung fotografischer Prinzipien in KI-Begriffe lässt sich exemplarisch so darstellen:
Prinzip | KI-Prompt-Begriffe | Kritische Frage |
|---|---|---|
Verschlusszeit |
| Wer entscheidet, welche Dynamik als richtig gilt? |
| ||
Blende |
| Was wird sichtbar gemacht und was bleibt unsichtbar? |
| ||
ISO |
| Was bedeutet Authentizität, wenn selbst Fehler algorithmisch generiert werden? |
|
Die Wirkung ist auf den ersten Blick überzeugend. Ein Bild mit Bewegungsunschärfe wirkt fotografisch. Ein Porträt mit Bokeh erinnert an eine lichtstarke Linse. Filmkorn ruft Assoziationen mit Analogfotografie oder dokumentarischer Nähe hervor. Doch all das bleibt eine Simulation. Die KI weiss nicht, was Licht ist. Sie kennt nur Korrelationen zwischen Wörtern, Bildmustern und visuellen Erwartungen.
Damit entsteht eine Verschiebung. Nicht mehr die Aufnahme eines Moments steht im Zentrum, sondern die Nachahmung einer Ästhetik, die wir mit Wirklichkeit verknüpfen.
Simulation von Authentizität: Was dokumentiert ein KI-Bild überhaupt?
Besonders deutlich wird diese Verschiebung bei Parametern wie --style raw. In Midjourney zielt dieser Parameter darauf ab, die starke Stilisierung zu reduzieren und einen nüchterneren, fotografischeren Eindruck zu erzeugen. Das Bild soll weniger nach KI aussehen.
Gerade darin liegt der kritische Punkt. Solche Bilder wirken dokumentarisch, obwohl ihnen jeder dokumentarische Ursprung fehlt. Künstliche Unperfektionen wie Körnung, diffuse Lichtverhältnisse oder leichte visuelle Härten simulieren Authentizität, ohne dass eine reale Referenz vorhanden sein muss.
Ein Bild kann daher wie eine Reportageaufnahme erscheinen und dennoch eine Person zeigen, die nie gelebt hat, einen Ort darstellen, den es so nie gegeben hat, oder eine Situation visualisieren, die nie stattgefunden hat. Die Frage lautet dann nicht mehr nur, ob ein Bild gut gemacht ist, sondern was es überhaupt dokumentiert.
Wenn fotografische Glaubwürdigkeit von generativen Systemen berechnet werden kann, verschiebt sich die Deutungshoheit über das, was als echt gilt. Authentizität wird zu einer ästhetischen Wirkung und nicht mehr zwingend zu einer Spur der Wirklichkeit.
Promptstruktur: Sprache als kulturelles Nadelöhr
Prompts sind nicht neutral. Sie transportieren kulturelle Erwartungen, ästhetische Normen und erlernte visuelle Hierarchien. Begriffe wie cinematic, dramatic lighting oder epic composition wirken auf den ersten Blick wie Stilwörter. Tatsächlich verweisen sie oft auf Bildtraditionen aus Kino, westlicher Modefotografie oder Streaming-Ästhetik.
Beispiel a) Naturfotografie
Ein Prompt wie:
a vibrant keel-billed toucan perched on a rainforest branch, tropical morning light, cinematic wildlife photography, shallow depth of field, lush jungle background
führt meist zu einem visuell attraktiven Ergebnis. Doch bereits der Begriff cinematic lenkt die Bildproduktion in Richtung einer vertrauten, stark emotionalisierten Bildsprache. Die Szene wird nicht einfach als Natur dargestellt, sondern in eine gelernte Dramaturgie überführt.
Auch hier zeigt sich: Die KI generiert nicht die Natur, sondern eine kulturell geformte Vorstellung davon, wie Natur im Bild auszusehen hat.
Beispiel 2: Porträts mit Tiefgang
Besonders heikel wird es bei menschlichen Darstellungen. Ein Prompt wie:
A golden-hour portrait of an elder of a panamian man wearing a blue and orange beaded sash around his chest, holding a wooden oar in one hand, standing on a boat near a river bank with trees behind him. he has tattoos, a round face shape, and short black hair, and is smiling at the camera.
kann zwar ein stimmiges Bild erzeugen, offenbart aber zugleich die Grenzen der Modelle. Systeme wie Midjourney sind keine Wissensquellen, sondern statistische Spiegel. Ohne Korrektiv reproduzieren sie leicht westliche Schönheitsideale, touristische Exotik oder kulturelle Halluzinationen.
Typische Verzerrungen sind:
- Alter wird mit überzeichneten Falten gleichgesetzt.
- Jugend erscheint übermässig makellos.
- kulturelle Merkmale werden vermischt oder frei erfunden.
- Tätowierungen, Kleidung oder Schmuck werden stilistisch attraktiv, aber ethnografisch ungenau dargestellt.
Was hilft gegen diese Verzerrung?
Präzision in der Vorarbeit und im Prompting.
Mögliche Korrekturen sind:
- Gegen-Prompts, die bewusst aus dominanten Schönheitsmustern herausführen, etwa durch Hinweise auf nicht idealisierte Gesichtszüge oder Freude jenseits westlicher Normen
- ethnografische Genauigkeit statt grober Sammelbegriffe wie "Zentralamerika"
- konkrete Bezeichnungen wie Guna, Emberá oder Ngäbe-Buglé, wenn Panama gemeint ist
- Referenzmaterial aus vertrauenswürdigen Bildquellen, etwa Wikimedia Commons
- manuelles Refining, weil die KI-Ästhetik meist höher gewichtet als kulturelle Wahrheit
Prompts werden damit zu einem kulturellen Filter. Wer sie formuliert, entscheidet, welche Wirklichkeit sichtbar wird und welche nur als Klischee erscheint.
Wenn wir KI-Bilder nicht mehr von Fotos unterscheiden können,wer garantiert dann, dass unsere visuelle Kultur auf Wahrheit und nicht auf Trainingsdaten basiert?
Bildgestaltung: Die visuelle Gewichtung in der KI
Auch klassische Gestaltungsprinzipien wie die Figur-Grund-Beziehung verändern sich in der KI nicht; sie werden lediglich anders gesteuert. Wer im Bild scharf erscheint, zentral platziert ist oder direkten Blickkontakt erhält, gewinnt visuelle Relevanz. Wer unscharf bleibt oder in den Rand gedrängt wird, wird zum Nebendarsteller.
Gerade hier greifen generative Modelle auf gelernte Standard-Kompositionen zurück. Ohne präzise Vorgaben erzeugen sie bekannte Muster: eine Person im Zentrum, ein freigestelltes Motiv vor einem weichen Hintergrund, ein klarer Fokus auf das visuell Erwartbare.
Das ist nicht harmlos. Es bedeutet, dass KI nicht nur Inhalte generiert, sondern auch Aufmerksamkeit verteilt.
Beispiele wie diese steuern die Wahrnehmung gezielt:
protesters in focus oder police blurred in background
Ein solcher Prompt verändert die Erzählung. Die KI folgt dabei häufig Mustern aus Pressebildern, gescrapten Kinofilmbildern, Werbefotografie oder visuellen Stereotypen, die in den Trainingsdaten dominieren.
Damit wird Bildmitte zum Ort der Validierung. Wer dort erscheint, wird als relevant, normativ oder erzählwürdig markiert. Die Entscheidung, wer im Vordergrund steht und wer nur Kulisse bleibt, erfordert eine Bildkorrektur mit der Midjourney-Funktion Edit, eine Prompt-Korrektur oder eine Nachbearbeitung in einem Foto-Bearbeitungstool.
Dieser Tendenz lässt sich jedoch auch beim Prompten entgegenwirken. Klassische Kompositionsprinzipien wie der Goldene Schnitt, Rule of Thirds oder die verschiedenen führenden Linien können bewusst eingesetzt werden, um die automatische Zentrierung vieler KI-Bilder aufzubrechen.
Formulierungen wie rule of thirds composition, subject placed on the golden ratio oder leading lines guiding toward the subject lenken das Modell in Richtung einer dynamischeren Bildstruktur. Auf diese Weise wird die visuelle Aufmerksamkeit nicht mehr über die Bildmitte gesteuert, sondern über Kompositionslinien, Blickführung und räumliche Spannung.
Zur Linienführung finden Sie im Buch "Bildgestaltung für generative KI", Creative Guide mit Midjourney, von Manuela Frenzel, 2026, weitere Informationen.
Digitale blinde Flecken: Warum der globale Norden die KI dominiert und indigene sowie zentralasiatische Perspektiven fehlen
Die Sichtbarkeit von Menschengruppen in KI-Bildern folgt globalen Machtverhältnissen in der Datenerzeugung. Was massenhaft digital dokumentiert wurde, erscheint im Modell präziser. Was unterrepräsentiert, schlecht verschlagwortet oder nur verzerrt archiviert wurde, erscheint ungenau, stereotyp oder gar nicht.
Viele grosse Bilddatensätze stammen aus Web-Scraping, Stockfoto-Bibliotheken und bereits existierenden digitalen Bildarchiven. Entsprechend dominant sind Regionen und Bildwelten, die auf diesen Kanälen stark vertreten sind.
Typische Verzerrungen:
- Europa und Nordamerika sind stark repräsentiert.
- Ostasien erscheint präziser, weil grosse Mengen hochwertiger digitaler Bilder vorhanden sind.
- Afrikanische Kulturen werden häufig auf Armut, Safari oder exotisierte Szenen reduziert.
- Zentralasien wird als ostasiatisch dargestellt.
- indigenes Lateinamerika wird kulturell vermischt, etwa durch das Zusammenführen unterschiedlicher Muster, Architekturen und Symboliken.
- Indigene Perspektiven Australiens verschwimmen in falsch zugeordneten Merkmalen, weil kulturelle Grenzen in Trainingsdaten nicht sauber abgebildet sind.
Die strukturelle Seite dieses Problems lässt sich so zusammenfassen:
Datenquelle | Inhalt | Problem |
|---|---|---|
LAION-5B | Milliarden Bild-Text-Paare aus Web-Scraping | dominante Regionen und verbreitete Klischees werden mitgelernt |
Stockfoto-Datenbanken | Lizenzierte, stark kuratierte Bildwelten | Westliche Ästhetiken dominieren; indigene Kulturen fehlen. |
Nutzer-generierte Inhalte | Bilder aus Midjourney v1–v7 | bestehende Verzerrungen werden erneut eingespeist. |
Die Folge ist nicht nur Ungenauigkeit. Es entsteht ein geopolitisches Bildgedächtnis, in dem einige Perspektiven überdeutlich sichtbar sind, während andere nur als diffuse Projektionsflächen erscheinen.
Mögliche Gegenstrategien
- Gegenprompts: „not European, not African, authentic indigenous features“.
- Referenzbilder: vertrauenswürdige Quellen wie Wikimedia Commons oder Digital Dunhuang.
- Datenhoheit: Lokale Communities müssen eigene Bildarchive für KI-Training kontrollieren (z. B. Mukurtu).
Die Frage lautet:
Wenn KI nur sichtbar macht, wofür Trainingsdaten existieren, wer trägt Verantwortung für diese Lücken?
Die KI-Klischee-Schleife: Wenn falsche Bilder neue Datensätze prägen
Ein besonders kritischer Punkt entsteht dort, wo KI-generierte Bilder selbst wieder Teil künftiger Datenräume werden. Bereits heute zirkulieren unmarkierte synthetische Bilder in Suchmaschinen, sozialen Plattformen, Bildsammlungen und offenen Archiven.
Werden solche Bilder in späteren Datensätzen erneut verwendet, verstärkt sich ein selbstreferenzieller Kreislauf:
- ein Datensatz enthält stereotype oder ungenaue Darstellungen,
- die KI erzeugt daraus neue stereotype Bilder,
- diese Bilder gelangen erneut ins Netz und
- spätere Modelle lernen wiederum aus diesen Bildern.
Das Ergebnis ist eine KI-Klischee-Schleife. Je häufiger ein bestimmtes visuelles Muster erzeugt und wieder eingespeist wird, desto normaler erscheint es.
Die Folgen reichen weit:
- Kulturelle Amnesie: Echte Vielfalt wird von wiederholten Klischees überlagert.
- Vertrauensverlust: Dokumentarisch wirkende Bilder verlieren an Glaubwürdigkeit.
- Ästhetische Verengung: Visuelle Standards wiederholen sich, statt neue Perspektiven zu öffnen.
Damit wird das Problem nicht nur technisch, sondern auch publizistisch relevant. Sobald sich die Grenze zwischen Dokumentation und berechneter Glaubwürdigkeit verwischt, gerät die visuelle Öffentlichkeit unter Druck.
Kennzeichnung, Provenienz und kuratierte Gegenräume
Eine mögliche Antwort auf diese Entwicklung liegt in einer mehrschichtigen Strategie aus technischer Kennzeichnung, redaktioneller Transparenz und kulturell kuratierten Referenzräumen.
C2PA: Chance und Grenze
Der C2PA-Standard dient dazu, Provenienzdaten in Dateien einzubetten. Er kann dokumentieren, welche Software an der Erstellung beteiligt war, wann ein Bild erzeugt wurde und welche Bearbeitungsschritte erfolgten.
Im Idealfall lässt sich dadurch nachvollziehen, ob ein Bild mit einem KI-Modell generiert oder nachbearbeitet wurde.
Doch der Standard hat klare Grenzen:
- Er funktioniert nur, wenn Metadaten tatsächlich mitgegeben werden. Aktuell unterstützen Tools wie Adobe Firefly ab 2023, Google Gemini, OpenAI Dall-E 3 und Microsoft (Designer/Copilot) die C2PA-Einbettung.
- Nicht jedes Tool, zum Beispiel Midjourney, integriert C2PA nativ.
- Für unabhängige Schaffende bleibt die Nachbearbeitung mit externen Tools technisch aufwendig. Nutzer:innen müssen Metadaten manuell über Drittanbieter-Tools (z. B. Content Credentials Verify, aktuell in der Betaphase) hinzufügen.
Beispiel: Ein Bild, das mit Adobe Firefly generiert und in Photoshop bearbeitet wurde, trägt folgende C2PA-Metadaten:
json:
{
"creator": "Adobe Firefly v3.2",
"editor": "Photoshop 2025",
"creationDate": "2026-03-10T12:00:00Z",
"provenance": "AI-generated"
}
Das bedeutet: Technische Metadaten können sichtbar machen, wie und mit welchen Werkzeugen ein Bild entstanden ist. Sie ersetzen jedoch weder die redaktionelle Verantwortung noch eine klare Kennzeichnung im publizistischen Kontext.
Warum kuratierte Archive wichtig sind
Ebenso entscheidend sind qualitativ gepflegte Daten- und Referenzräume. Projekte mit kulturell verantwortlicher Dokumentation zeigen, dass es Alternativen zur unkontrollierten Bildakkumulation gibt.
Solche Archive sind deshalb relevant, weil sie:
- Spezifität statt Symbolik fördern,
- Kontext liefern,
- lokale Wissensordnungen respektieren und
- Referenzmaterial bereitstellen, das gegen stereotype Halluzinationen helfen kann.
In der Arbeit mit generativer KI sollte man deshalb nicht nur bessere Prompts formulieren, sondern auch bessere Referenzen auswählen.
Es gibt weltweit Projekte, die kulturelle Daten für neue Technologien aufbereiten:
- Lateinamerika: Das Digital Archive of Latin American and Caribbean Ephemera (Princeton) und dLOC (Digital Library of the Caribbean) bieten tiefgehende visuelle und textliche Einblicke in karibische und mesoamerikanische Kulturen.
- Asien: Projekte wie Digital Dunhuang nutzen KI und 3D-Scans, um asiatische Weltkulturerbestätten wie die Mogao-Grotten digital zugänglich und für Visualisierungen nutzbar zu machen.
- Indigenes Wissen: In Australien nutzt die CSIRO in Zusammenarbeit mit Microsoft KI, um traditionelles Wissen der Ureinwohner (z. B. ökologisches Management) mit moderner Datenvisualisierung zu verknüpfen. Die CSIRO liefert die ethische Blaupause dafür, wie man generative KI zu einem respektvollen Werkzeug für lokales Wissen macht.
- Europa: Europeana bündelt über 50 Millionen digitalisierte Objekte aus über 4.000 Institutionen und nutzt KI, um diese Daten zu bereichern und das europäische Erbe für kreative Storys zugänglich zu machen.
Midjourney v7: Fortschritt, Reibung, Ernüchterung
Mit jeder neuen Modellversion steigen auch die Erwartungen. Midjourney v7 wird vielerorts mit dem Versprechen höherer Qualität, besserer Kohärenz und neuer Funktionen diskutiert. Gleichzeitig zeigen Praxiserfahrungen, dass der Fortschritt in generativen Bildmodellen selten linear verläuft.
Gerade bei realistischen Porträts oder anatomisch anspruchsvollen Details zeigt sich eine Spannung zwischen offizieller Verbesserung und erlebter Nutzerrealität.
Versprechen | Nutzerfeedback | Workaround |
|---|---|---|
Bessere Kohärenz bei Händen | Häufiger deformiert als in v6 |
|
Höhere Bildqualität | Gesichter wirken plastikhaft | Downgrade zu v6 oder Nachbearbeitung |
Neue Features (z. B. Draft Mode) | Zu experimentell für realistische Porträts | Nachbearbeitung in Photoshop |
Für publizistische, ethnografische oder dokumentarisch sensible Bildabsichten bleibt sie problematisch.
Eine häufig geäusserte Erfahrung vieler Nutzerinnen und Nutzer betrifft zudem den praktischen Arbeitsaufwand. Bei Midjourney v7 sind für bestimmte Bildideen mehr Iterationen erforderlich als in früheren Versionen.
Besonders bei Themen, die in den Trainingsdaten weniger stark vertreten sind, braucht es zusätzliche Referenzbilder, präzisere Prompts oder mehrere Durchläufe, um ein überzeugendes Ergebnis zu erzielen.
Auch beim Aufbau von Moodboards berichten viele Anwender, dass Version 6 in manchen Fällen konsistentere Ergebnisse liefert. Version 7 kann zwar experimenteller und variabler reagieren, doch gerade für visuelle Serien oder thematische Bildreihen empfinden manche Gestalter die frühere Version stabiler.
Diese Erfahrung zeigt: Neue Modellversionen bringen nicht nur Fortschritte, sondern verändern auch Arbeitsweisen. Kreative Prozesse werden dadurch stärker zu einem iterativen Dialog zwischen Mensch, Prompt und Modell.
Visuelles Storytelling: Wo generative KI stark ist
Trotz aller Kritik liegt die Stärke generativer Bildsysteme in einem Bereich, den klassische Fotografie nicht ohne Weiteres abdeckt: im visuellen Denken, Skizzieren und Entwerfen.
Wo keine dokumentarische Verpflichtung besteht, kann generative KI ein leistungsfähiger visueller Übersetzer sein. Sie hilft, abstrakte Konzepte sichtbar zu machen, Zukunftsszenarien zu skizzieren oder Themen zu illustrieren, für die es kein passendes Bildmaterial gibt.
Typische Einsatzfelder sind:
- visuelle Konzeptentwicklung,
- Storyboards und Moodboards,
- Illustrationen für Nischenthemen,
- Zukunftsszenarien in Wissenschaft, Stadtentwicklung oder Bildung und
- kreative Blog- und Kampagnenvisualisierungen.
Ein Reisebeitrag über verlassene Bergdörfer, ein Artikel über Klimaanpassung in Städten oder eine philosophische Bildidee zur Erinnerung oder zur Zukunft kann durch KI erstmals rasch visualisiert werden, ohne dass dafür ein komplettes Fotoshooting, ein Illustrationsbudget oder ein Archivbild existieren muss.
Generative KI ist kein Werkzeug für Wahrheit, sondern für kreative Freiheit, dort entfaltet sie ihr volles Potenzial.
KI-Bildgestaltung als gesellschaftliche Aufgabe
Die technischen Werkzeuge sind vorhanden. Offen bleibt die Frage, wie sie eingesetzt werden.
Wer mit generativer KI Bilder erzeugt, gestaltet nicht nur Oberflächen. Er oder sie wirkt an visuellen Normen mit. Das betrifft die Darstellung von Alter, Schönheit, Herkunft, Macht, Nähe, Glaubwürdigkeit und Sichtbarkeit.
Drei Aufgaben rücken deshalb in den Vordergrund:
- Kulturelle und menschliche Vielfalt bewusster abbilden.
- Machtstrukturen in Bildern erkennen und korrigieren.
- Ethik bereits in die Promptgestaltung einbauen.
Die entscheidenden Fragen lauten: Welche Bilder fehlen noch? Welche Perspektiven werden fortgeschrieben? Und wie verhindern wir, dass aus statistischer Wiederholung eine neue visuelle Norm wird?
Schlussgedanke
Generative KI ersetzt die Fotografie nicht. Sie schafft ein eigenes Medium zwischen Simulation, Gestaltung und kultureller Projektion.
Gerade deshalb braucht sie mehr als technische Begeisterung. Sie braucht Urteilsvermögen, Quellenbewusstsein, gestalterische Präzision und ethische Aufmerksamkeit.
Entscheidend bleibt die Haltung der Menschen, die diese Systeme nutzen, veröffentlichen und in den visuellen Umlauf bringen.
Weiterführende Ressourcen:
- Creative Guide: Bildgestaltung mit generativer KI, von Manuela Frenzel, 2026 (folgt)
- Leitfaden zum Erstellen eines eigenen Analysewerkzeuges für Bilder mit Docker