Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.[1]
Ensimmäinen moderni kuvageneraattorimalli, alignDRAW, esiteltiin vuonna 2015.[2] Myöhemmät mallit, kuten VQGAN+CLIP, XMC-GAN, GauGAN2, DALL-E ja DALL-E 2, paransivat kuvan laatua ja realistisuutta. Teksti-videoksi-alustat, kuten Runway[3] ja Make-A-Video[4], kehittyivät teksti-kuvaksi -mallien jatkokehityksenä.
Kuvageneraattorimallit käyttävät erilaisia arkkitehtuureja, ja transformer-mallit ovat yleistyneet tekstin koodaamiseen, kun taas ehdolliset generatiiviset adversariaaliset verkot tai diffuusiomallit ovat suosittuja kuvien generointiin. Mallit koulutetaan suurilla kuvatekstiparien aineistoilla, kuten LAION-5B, COCO, Oxford-120 Flowers ja CUB-200 Birds. Kuvageneraattorien mallien arviointiin sisältyy niiden kuvan laadun, monimuotoisuuden ja semanttisen yhteneväisyyden syötetekstin kanssa arviointi. Arvioinnissa käytetään metriikoita, kuten Inception-pisteitä (IS) ja Fréchet Inception -etäisyyttä.[5]
Kuvageneraattorimalleilla on erilaisia käyttökohteita, kuten taide, muotoilu, prototyyppien luominen ja taiteellisen tuotannon saavutettavuuden lisääminen. Ne muodostavat myös osan laajemmasta keinotekoisen median suuntauksesta, jonka odotetaan vaikuttavan liiketoimintaan tulevina vuosina.[6]
Useimmat kuvageneraattorit toimivat pilvipalvelussa. Kuvien sisältöä määrittävä teksti syötetään palveluun selaimella tai Midjourneyn tapauksessa Discord-sovelluksella. Sitten pilvipalvelu generoi kuvan ja näyttää sen hetken kuluttua selaimessa.[7]
Google on kehittänyt videogeneraattoreita nimillä Lumiere[12] ja Veo[13]. Samansuuntaisesta kehitystyöstä ovat kertoneet myös Meta[14][15], Runway-yhtiö[16] ja OpenAI[17].
↑Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba, Ruslan Salakhutdinov: Generating Images from Captions with Attention. arXiv:1511.02793 [cs], 29.2.2016. Artikkelin verkkoversio.