Hur långt har AI(deep learning) kommit idag?
De senaste åren har det skett enorma framsteg och vi har funderat på sätt att kommunicera och visa detta. Vi startade ett litet projekt för att skapa en helt "AI"-genererad upplevelse. Filmerna som vi ser är skapade av 3 olika modeller
- Modell no. 1 tränade vi på att skriva svenska dikter.
- Modell no. 2 är en modell som är tränad för att kunna rita.
- Modell no. 3 är en modell som är tränad för att förstå sambanden mellan text och bild. Den försöker "förstå" hur en text ser ut, och hur en bild kan beskrivas.
Vi har med detta byggt ett automatiskt system som skriver en dikt, och sedan animeras denna dikt till liv i en video genom ett flödande konstverk som består av ca 45 bilder per sekund.
Exempel 1
Eftersom vi försöker testa och se hur mycket av världen som modellerna lyckades komprimera("förstå") men även testa möjligheten för kreativitet. Ta kubism. Kuber finns, Riktiga världen finns. Komprimera dessa två och ut kommer något nytt men ändå gammalt. Är kreativitet delvis någon form av att titta i mitten av det som komprimeras? Det neurala nätverk är bra på är kompression, så om den tesen stämmer någorlunda borde AI vara ett fantastiskt hjälpmedel för kreativitet.
Vi använder oss av detta förhållningsättet och "promptar"(instruerar i text som sedan modellen tar in som input) att outputen skall vara i stil med två konstnärer hela tiden och det ryckiga vi ser i videon är en "kamp" mellan modellens tolkning av dessa konstnärer och föregående diktrad samt lite inprogrammerad slump kring vad som är viktigast. Dikten, konstnär 1 eller konstnär 2.
Exempel 2
Det som är riktigt intressant är att BigGAN är tränad på ett dataset som heter Imagenet. Det är bilder på hundar, katter och bilar. Det är inte en modell som är tränad för att skapa konstverk och lärt sig att göra konstverk. Men i mitten av en kassetspelare, en känguru och ett kök så finns det saker som liknar robotar eller konstverk. Att söka i den här modellens rymd av möjliga outputs leder till att man kan hitta spännande saker i mitten av normala saker.
Exempel 3
Exempel 4
Exempel 5
Exempel 6
För att ytterliggare testa det här med kreativitet, tolkning och kompression lade Per in en bild på en hjärna som modellen också skulle ta hänsyn till när den målade. Det är därför den här videon är lite annorlunda och ibland lyckas den väva in hjärnan riktigt bra i verket!
Här ett-live exempel när Per experimenterar. Hjärna, sol, höst och van gogh/generell expressionism.
Exempel 7
Om man sedan byter ut vilken modell som sköter generation av bilden får man helt plötsligt en helt ny stil! Den här modellen delar in bilden i olika rutor i en codebook och detta leder till att modellen ibland hamnar i ett läge där den fyller olika delar av instruktionerna i olika rutor! Coolt!
Men om vi nu skall komma till det praktiska, hur kan dessa modeller hjälpa företag?
Vi har själv praktiska användningar av det då vi t.ex planerar att ha lite bra giveaways och schysta tavlor på kontoret. Det här är en personlig favoritvariant av vår logga som jag gärna har som tisha eller monterdekoration i framtiden!
Vi har även parallellt haft ett projekt där vi med hjälp av denna tekniken designar vår nya logga som kommer snart. Här kan du läsa mer om det
Summering
Modeller som CLIP har blivit otroligt bra på att förstå både text och bild. Det är väldigt lovande för en mycket snar framtid där modeller har haft både ljud, bild och text som träningsmaterial.
Vi rör oss snabbt mot en framtid där man på sin nya streamingtjänst kan säga att man vill se en film om Indiana Jones i Jämtland på jakt efter den gyllene järven med en själv som sidekick. Infinite content. Tills dess får vi stå ut med ett oändligt antal "djupa" dikter och dess illustreringar.
Vill tillägga att vi valde ut våra favoriter att lägga upp här, det här är inte en exakt representation av all content som genererades.
Sist men inte minst, ett tack till de som tagit fram modeller/arkitekturer för det vi använt oss av
________________________
BigGAN
Large Scale GAN Training for High Fidelity Natural Image Synthesis
Andrew Brock, Jeff Donahue, Karen Simonyan
https://arxiv.org/abs/1809.11096
________________________
CLIP
Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim et al
_________________________
DALL-E
Zero-Shot Text-to-Image Generation
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever
https://arxiv.org/abs/2102.12092
__________________________
GPT-2
Language Models are Unsupervised Multitask Learners
Alec Radford et al
___________________________
Litteraturbanken
___________________________
Methods inspired and developed from Ryan Murdocks initial method @adverb