DALL-E
DALL·E | |
A DALL·E által készített kép a következő leírás alapján: „Plüssmedvék víz alatt az 1990-es évek technológiájával MI-kutatáson dolgoznak” | |
Fejlesztő | OpenAI |
Első kiadás | 2021. január 5. |
Kategória |
|
A DALL·E weboldala |
A DALL-E (stilizálva: DALL·E) és a DALL-E 2 gépi tanuló mesterséges intelligenciák, amiket az OpenAI készített és képeket hoz létre egy szöveges leírás alapján. A DALL-E-t 2021 januárjában jelentette be az OpenAI és a GPT-3 egy verzióját használjak képek készítésére.[1] 2022 áprilisában az OpenAI bejelentette a DALL-E 2 kiadását, amivel az volt a céljuk, hogy valóságszerűbb képeket tudjanak generálni, jobb felbontásban.[2]
Az OpenAI nem adta ki egyik verzió forráskódját se, de részletei elérhetőek a cég hivatalos weboldalán.[1] A DALL-E 2 2022 júliusában érte el a béta fázist és 1 millió embert hívtak meg a tesztelésre.[3][4] Több imitációt is kiadtak más cégek, kisebb befektetésekkel és sokkal kevesebb adatforrással.[5][6][7]
A szoftver neve a WALL·E Pixar-karakter és Salvador Dalí spanyol művész nevén alapuló szóösszerántás.[1][8]
Technológia
[szerkesztés]A Generative Pre-trained Transformer (GPT) modellt az OpenAI 2018-ban hozta létre.[9] Az első kiadás alapján hozták létre a GPT-2-t 2019-ben,[10] majd a GPT-3-t 2020-ban.[11] A DALL-E modellje a GPT-3 multimodális implementációja, ami „szöveget pixelekre cserél.”[1][12] A DALL-E 2 3,5 milliárd paramétert használ, ami kevesebb, mint elődje, 12 milliárddal.[13]
A DALL-E-t a CLIP-pel (Contrastive Language-Image Pre-training) együtt fejlesztették ki és jelentették be. A CLIP egy külön model, ami 400 millió képet tud összepárosítani szöveggel.[1][14][15] A fő feladata, hogy átnézze azokat a képeket, amiket a DALL-E létrehozott és kiválasztja közülük a leginkább megfelelő végeredményeket.[8][14]
Galéria
[szerkesztés]A DALL-E (vagy DALL-E 2) által készített képek válogatása, azok leírásával
-
Színes II. világháborús propaganda-poszter, Wikipédiát szerkesztő madarászokról
-
Mű egy tehénről az 1960-as évek stílusában, ahogy elrabolják az UFO-k a középnyugaton
-
Egy aranybőrű nő, aki díszeket visel a fején és arany díszeket a testén, egy tóban állva
-
Egy nő, aki fejét kidugja egy autó ablakán, az ismeretlen jövőről gondolkozik
-
Megzavarodott medve matek órán
-
Egy könyvet kezében tartó szemüveges nő almát szed egy fáról
-
Egy shiba inu kutya fekete garbóban és svájcisapkában
-
Egy űrhajós lebeg a fekete űrben, sokszínű lebegő virágok által körbevéve
Jegyzetek
[szerkesztés]- ↑ a b c d e Johnson, Khari: OpenAI debuts DALL-E for generating images from text (amerikai angol nyelven). VentureBeat, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
- ↑ DALL·E 2 (angol nyelven). OpenAI. (Hozzáférés: 2022. szeptember 29.)
- ↑ DALL·E Now Available in Beta (angol nyelven). OpenAI, 2022. július 20. (Hozzáférés: 2022. szeptember 29.)
- ↑ „Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”, NPR.org (Hozzáférés: 2022. szeptember 29.) (angol nyelvű)
- ↑ Marshall, Mo: How DALL-E 2 could solve major computer vision challenges (amerikai angol nyelven). VentureBeat, 2022. április 16. (Hozzáférés: 2022. szeptember 29.)
- ↑ Knight, Will. „Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”, Wired (Hozzáférés: 2022. szeptember 29.) (amerikai angol nyelvű)
- ↑ Midjourney (angol nyelven). Midjourney. (Hozzáférés: 2022. szeptember 29.)
- ↑ a b Coldewey, Devin: OpenAI's DALL-E creates plausible images of literally anything you ask it to (amerikai angol nyelven). TechCrunch, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
- ↑ Improving Language Understanding by Generative Pre-Training. (Hozzáférés: 2022. szeptember 29.)
- ↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua: Language models are unsupervised multitask learners. (Hozzáférés: 2022. szeptember 29.)
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners".
- ↑ Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models".
- ↑ Ramesh, Aditya, Alex (2022. április 12.). „Hierarchical Text-Conditional Image Generation with CLIP Latents”. arXiv:2204.06125 [cs].
- ↑ a b This avocado armchair could be the future of AI (angol nyelven). MIT Technology Review. (Hozzáférés: 2022. szeptember 29.)
- ↑ 'DALL-E' AI generates an image out of anything you describe (amerikai angol nyelven). Engadget. (Hozzáférés: 2022. szeptember 29.)