13. Oktober 2022

Von Dall-E bis Midjourney: Wie Text-zu-Bild-KI Social Media verändern wird

Excuse me – wir haben 2022! Und da bestimmen Text-zu-Bild-Generatoren zunehmend die Inhalte, die wir auf den verschiedenen Social Media Plattformen konsumieren. Aber wie hat das Ganze eigentlich angefangen und wie wirkt sich der Hype auf Social Media Inhalte aus? Dieser Frage gehen wir nach, nicht wissenschaftlich, sondern aus unserer zugegeben subjektiven Perspektive als Content Creators und Manager*innen unterschiedlicher Social Media Kanäle heraus.

Bereits seit Jahren forschen Institutionen an Text-zu-Bild-Generatoren, der eine künstliche Intelligenz zugrunde liegt. Einer dieser Generatoren nennt sich Dall-E, abgeleitet vom Namen des spanischen Künstlers Salvador Dali und dem sympathischen Roboter aus dem gleichnamigen Disney-Film “Wall-E”. 2021 ging die erste Version dieser Software an den Start, zunächst nur für einen eingeschränkten Nutzerkreis, zu Forschungszwecken. Die Nachfolgersoftware Dall-E 2 wurde dann schon einem breiteren Publikum zugänglich. Interessierte konnten sich ab April 2022 auf eine Warteliste setzen lassen. Eine Woche nach Veröffentlichung standen bereits 100.000 Menschen auf dieser Liste, einige Monate später waren es sogar schon über eine Millionen. Das Entwicklerteam von OpenAI, die Macher*innen von Dall-E, prüfte die angegeben Gründe für eine Nutzung der Anfragenden und schaltete nach und nach immer mehr Nutzer*innen frei. Mittlerweile ist die Text-zu-Bild-KI für Jeden und Jede zugänglich. Für die Registrierung auf der Webseite von OpenAI benötigt man lediglich eine E-Mail-Adresse und eine gültige Handynummer.

Coole Bilder mit Text erstellen

Dall-E ist nur einer von vielen Text-zu-Bild-Generatoren, weitere beliebte Tools sind beispielsweise Midjourney oder StableDiffusion. Was sie alle gemeinsam haben, ist ihre Funktionsweise. Die KIs werden in der Entwicklung mit verschlagworteten Bildern gefüttert. Dabei durchlaufen sie ein regelrechtes “Bootcamp”, in dem sie darauf trainiert werden, Bilder mit den passenden Schlagworten zu verknüpfen. Der Künstlichen Intelligenz werden also zum Beispiel Bilder von Bäumen gezeigt und dabei das Wort “Baum” oder entsprechende Synonyme genannt, sodass sie das Bildmotiv mit dem passenden Schlagwort verbindet. Userinnen und User der entsprechenden Anwendung können später einen Text in die Nutzungsoberfläche eintragen und die Künstliche Intelligenz durchforstet das mit den Schlagworten verknüpfte, hinterlegte Bildmaterial. Danach schafft sie in Anlehnung daran neue Werke, die der Optik der Vorlagen entsprechen. Die Ergebnisse können genauso skurril wie beeindruckend sein. Das hat vor allem auf Twitter zu einem regelrechten Hype geführt. Unter dem Hashtag “dallemini” findet man dort viele Bilder, die zum Teil aus einem Horrorfilm stammen könnten. Das bringt uns direkt zu den Problemen und der Kritik, die mit solchen Anwendungen verbunden sind.

Was sind die Grenzen und Nachteile von Text-zu-Bild-Generatoren?

Viele dieser Programme haben noch Probleme mit der Darstellung von Gesichtern und Körperteilen. Während aus diesem “Problem” witziger Content entstehen kann, gibt es einige Kritikpunkte, die viel gravierender sind, beispielsweise die Frage nach dem Urheberrecht. Der Vorwurf, dass das hinterlegte Bildmaterial aus anderen Plattformen wie beispielsweise Pinterest gestohlen sein könnte, steht im Raum. Und wem gehört eigentlich das daraus generierte Werk? Gehört es der Allgemeinheit, weil es sich bei dem Programm um OpenSource-Anwendungen handelt? Oder gehört es dem- oder derjenigen, die/der den Text in das entsprechende Textfeld eingetragen hat? Jedes von der KI generierte Ergebnis ist nämlich nur so gut oder kreativ wie der Text, der zu dieser Kreation geführt hat. Da ist viel Fingerspitzengefühl und Ausdauer gefragt.

Ist das Ergebnis dann Kunst? Das bringt uns zur nächsten Diskussion, die rund um die intelligenten Bildgeneratoren entstanden ist. Ist das Kunst oder kann das jeder/jede? Anstoß für diese Diskussion gab vor allem die Vergabe eines Kunstpreises an einen Künstler, der ein durch mehrere KI generiertes Bild eingereicht hatte. Kunstschaffende aller Couleur fürchten nun um die Wertschätzung ihrer Arbeit und um lukrative Aufträge.

Fest steht, KI-Bildgeneratoren werden unsere Sehgewohnheiten verändern. Wer jetzt aber Angst davor hat, dass Konsument*innen solche Art von Bildern nicht mehr von der Realität unterscheiden können und so den Bezug zur Wirklichkeit verlieren, sollte einen Blick in die Vergangenheit werfen. Die Mediengeschichte hat uns gezeigt, dass bei jeder Innovation, die die Medienlandschaft entscheidend prägte, Ängste laut wurden. Diese waren zum Teil auch berechtigt, wie das Beispiel “Krieg der Welten” zeigt. Dieses Radio-Hörspiel von Orson Wells löste bei seiner Uraufführung am 30. Oktober 1938 eine Massenpanik aus, da die Hörerinnen und Hörer das Gehörte für echt hielten. Heute würde kein Hörspiel der Welt mehr dafür sorgen, dass die Straßen von Großstädten verstopfen, weil Menschen versuchen, vor einer Alien-Invasion zu flüchten. Medienrezeption ist eine Frage der Gewöhnung und kritischen Auseinandersetzung mit Medieninhalten. Die Grundlagen hierfür werden bestenfalls bereits in der Schule vermittelt.

KI bringt auch Chancen mit sich

Neue Medieninhalte bergen nicht nur Gefahren in sich, sondern bieten auch die Möglichkeit, mit alten Stereotypen aufzuräumen. Werden die Bildgeneratoren zum Beispiel ausschließlich mit Bildern von bekannten Celebrities gefüttert, haben die von ihnen generierten Werke natürlich einen Bias. Die dort gezeigten Menschen werden überwiegend jung, “gutaussehend” und weiß sein. Darin liegt eine berechtigte Kritik, die gegenüber den intelligenten Bildgeneratoren aufgekommen ist. Füttert man die KI allerdings mit der ganzen, wundervollen Diversität, die unsere Gesellschaft ausmacht, werden auch die dargestellten Ergebnisse divers sein und so das Bild gerade junger Nutzerinnen und Nutzer auf unsere Gesellschaft verändern. Hier sind die Entwickler*innen am Zug und in der Verantwortung.

Text-zu-Bild-Generatoren revolutionieren Social Media

Was heißt das alles jetzt für Social Media? Text-to-Image-Generator werden die Social Media Welt verändern. Ist das gut oder schlecht? Das wird die Zeit zeigen, eines steht allerdings fest: Bilder generieren mit Tools wie Dall-E, Midjourney oder StableDiffusion macht Spaß und kann eine willkommene Abwechslung in den eigenen Content bringen. Immer mehr Content Creator werden diese Art Inhalt für sich entdecken. Wir werden uns daran gewöhnen müssen, dass künstlich erschaffene oder bearbeitete Inhalte Online-Plattformen bereits jetzt und auch in Zukunft prägen werden. Das Wichtige dabei ist, diese Inhalte ordentlich zu kennzeichnen und einordnen zu können. Außerdem müssen die Urheberrechte und das Recht am eigenen Bild gewahrt bleiben. Wir freuen uns jedenfalls auf neuen, kreativen, skurrilen und beeindruckenden Content.