Wir werden immer geschickter darin, Computern beizubringen, Bilder und Videos zu manipulieren, die Worte von Trump-Beratern in den Mund französischer Sänger zu legen und Strandszenen in pornografische Träumereien zu verwandeln. Es war also nur eine Frage der Zeit, bis diese Technologie beim Internetliebling, der Katze, zum Einsatz kam.
Ein Projekt von Nvidia und der Cornell University ist der nächste Schritt bei der genauen „Übersetzung“ von Bildern, und es wurde demonstriert, indem ein Video eines Hundes manipuliert wurde, um den Hund in eine Katze zu verwandeln. Nicht nur eine Katze, wohlgemerkt, sondern vier verschiedene Katzenrassen – jede bewegt ihren Kopf auf die gleiche Weise wie der ursprüngliche Husky.
WEITER LESEN:KI versus maschinelles Lernen
Die Technik wird von ihren Entwicklern als MUNIT-Framework (Multimodal Unsupervised Image-to-Image Translation) bezeichnet und wird als Verbesserung gegenüber früheren Methoden angesehen, da sie mehr Freiheit für die Bearbeitung eines bestimmten Bildes in einer Reihe verschiedener Ausgaben bietet. Wie ein Video des Frameworks in Aktion zeigt, kann eine Katze in eine Reihe verschiedener Hunde „übersetzt“ werden und umgekehrt.
„Die Bild-zu-Bild-Übersetzung bezieht sich auf die Transformation eines Bildes von einer Domäne in eine andere (z. B. Katzen in Hunde, Skizzen in Schuhe, Sommer in Winter), während die zugrunde liegende Struktur unverändert bleibt“, erklärt Xun Huang, Hauptautor einer Studie über die forscht und promoviert an der Cornell University, erzählt Alphr .
„Unser Framework ist nicht überwacht, was bedeutet, dass es keine Beispiele für entsprechende Bilder sehen muss (z. B. dieses Katze sollte in das umgewandelt werden Hund), aber er kann die Beziehung selbst entdecken. Es ist auch multimodal, was bedeutet, dass eine Katze in mehrere Hunde umgewandelt werden kann, während frühere Arbeiten nur eine Eins-zu-eins-Zuordnung unterstützen.“
Siehe verwandte neuronale Netzwerkstädte sehen aus wie verwirrende Orte zum Leben. Dieses neuronale Netzwerk hat einen schmutzigen Verstand
Die Forscher interessieren sich nicht nur dafür, die Körper von Haustieren auszutauschen. Sie haben das MUNIT-Framework auch verwendet, um Bilder von Landschaften in verschiedenen Jahreszeiten, Bilder von Schuhen und Handtaschen aus gezeichneten Skizzen und Straßenszenen aus computergenerierten Fahrszenarien zu manipulieren.
„Diese Technik bietet mehr Freiheit bei der Bildbearbeitung“, sagt Huang. „Früher war der Manipulationsprozess deterministisch – Sie erhalten ein einzelnes Ausgabebild aus Ihrer Eingabe. Mit unserer Methode können Sie aus einer Verteilung möglicher Ausgaben auswählen, welche Ausgabe Sie möchten. Sie können auch den Ausgabestil steuern, indem Sie ein Beispielbild bereitstellen.
„In der Praxis kann diese Technik verwendet werden, um den Designprozess zu unterstützen, Spiele/Filme zu machen und die Entwicklung selbstfahrender Autos zu unterstützen.“
Das unheimliche Aussehen der "übersetzten" Katzen, das Bösewichte von Men-in-Black, deutet darauf hin, dass der Rahmen etwas verfeinert werden könnte. Dennoch zeigt das Projekt, wie weit die unbeaufsichtigte Bildmanipulation vorangeschritten ist. Wird es die Realität dessen untergraben, was wir auf unseren Bildschirmen sehen? Vielleicht. Zumindest können Sie jetzt sehen, wie Fido als Ginger Tom aussieht.
Der Code für die Studie ist hier auf GitHub verfügbar. Gefunden über prothetisches Wissen.