DALL-E

	DALL·E
	A DALL·E által készített kép a következő leírás alapján: „Plüssmedvék víz alatt az 1990-es évek technológiájával MI-kutatáson dolgoznak”
Fejlesztő	OpenAI
Első kiadás	2021. január 5.
Kategória	szoftver; alkalmazás; image model; text-to-image model; mesterségesintelligencia-modell;
	A DALL·E weboldala

A DALL-E (stilizálva: DALL·E) és a DALL-E 2 gépi tanuló mesterséges intelligenciák, amiket az OpenAI készített és képeket hoz létre egy szöveges leírás alapján. A DALL-E-t 2021 januárjában jelentette be az OpenAI és a GPT-3 egy verzióját használjak képek készítésére.^[1] 2022 áprilisában az OpenAI bejelentette a DALL-E 2 kiadását, amivel az volt a céljuk, hogy valóságszerűbb képeket tudjanak generálni, jobb felbontásban.^[2]

Az OpenAI nem adta ki egyik verzió forráskódját se, de részletei elérhetőek a cég hivatalos weboldalán.^[1] A DALL-E 2 2022 júliusában érte el a béta fázist és 1 millió embert hívtak meg a tesztelésre.^[3]^[4] Több imitációt is kiadtak más cégek, kisebb befektetésekkel és sokkal kevesebb adatforrással.^[5]^[6]^[7]

A szoftver neve a WALL·E Pixar-karakter és Salvador Dalí spanyol művész nevén alapuló szóösszerántás.^[1]^[8]

Technológia

A Generative Pre-trained Transformer (GPT) modellt az OpenAI 2018-ban hozta létre.^[9] Az első kiadás alapján hozták létre a GPT-2-t 2019-ben,^[10] majd a GPT-3-t 2020-ban.^[11] A DALL-E modellje a GPT-3 multimodális implementációja, ami „szöveget pixelekre cserél.”^[1]^[12] A DALL-E 2 3,5 milliárd paramétert használ, ami kevesebb, mint elődje, 12 milliárddal.^[13]

A DALL-E-t a CLIP-pel (Contrastive Language-Image Pre-training) együtt fejlesztették ki és jelentették be. A CLIP egy külön model, ami 400 millió képet tud összepárosítani szöveggel.^[1]^[14]^[15] A fő feladata, hogy átnézze azokat a képeket, amiket a DALL-E létrehozott és kiválasztja közülük a leginkább megfelelő végeredményeket.^[8]^[14]

Galéria

A DALL-E (vagy DALL-E 2) által készített képek válogatása, azok leírásával

Színes II. világháborús propaganda-poszter, Wikipédiát szerkesztő madarászokról
Mű egy tehénről az 1960-as évek stílusában, ahogy elrabolják az UFO-k a középnyugaton
Egy aranybőrű nő, aki díszeket visel a fején és arany díszeket a testén, egy tóban állva
Egy nő, aki fejét kidugja egy autó ablakán, az ismeretlen jövőről gondolkozik
Megzavarodott medve matek órán
Egy könyvet kezében tartó szemüveges nő almát szed egy fáról
Egy shiba inu kutya fekete garbóban és svájcisapkában
Egy űrhajós lebeg a fekete űrben, sokszínű lebegő virágok által körbevéve

Jegyzetek

↑ ^a ^b ^c ^d ^e Johnson, Khari: OpenAI debuts DALL-E for generating images from text (amerikai angol nyelven). VentureBeat, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
↑ DALL·E 2 (angol nyelven). OpenAI. (Hozzáférés: 2022. szeptember 29.)
↑ DALL·E Now Available in Beta (angol nyelven). OpenAI, 2022. július 20. (Hozzáférés: 2022. szeptember 29.)
↑ „Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”, NPR.org (Hozzáférés: 2022. szeptember 29.) (angol nyelvű)
↑ Marshall, Mo: How DALL-E 2 could solve major computer vision challenges (amerikai angol nyelven). VentureBeat, 2022. április 16. (Hozzáférés: 2022. szeptember 29.)
↑ Knight, Will. „Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”, Wired (Hozzáférés: 2022. szeptember 29.) (amerikai angol nyelvű)
↑ Midjourney (angol nyelven). Midjourney. (Hozzáférés: 2022. szeptember 29.)
↑ ^a ^b Coldewey, Devin: OpenAI's DALL-E creates plausible images of literally anything you ask it to (amerikai angol nyelven). TechCrunch, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
↑ Improving Language Understanding by Generative Pre-Training. (Hozzáférés: 2022. szeptember 29.)
↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua: Language models are unsupervised multitask learners. (Hozzáférés: 2022. szeptember 29.)
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners".
↑ Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models".
↑ Ramesh, Aditya, Alex (2022. április 12.). „Hierarchical Text-Conditional Image Generation with CLIP Latents”. arXiv:2204.06125 [cs].
↑ ^a ^b This avocado armchair could be the future of AI (angol nyelven). MIT Technology Review. (Hozzáférés: 2022. szeptember 29.)
↑ 'DALL-E' AI generates an image out of anything you describe (amerikai angol nyelven). Engadget. (Hozzáférés: 2022. szeptember 29.)

[:0-1] Johnson, Khari: OpenAI debuts DALL-E for generating images from text (amerikai angol nyelven). VentureBeat, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)

[2] DALL·E 2 (angol nyelven). OpenAI. (Hozzáférés: 2022. szeptember 29.)

[3] DALL·E Now Available in Beta (angol nyelven). OpenAI, 2022. július 20. (Hozzáférés: 2022. szeptember 29.)

[4] „Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”, NPR.org (Hozzáférés: 2022. szeptember 29.) (angol nyelvű)

[5] Marshall, Mo: How DALL-E 2 could solve major computer vision challenges (amerikai angol nyelven). VentureBeat, 2022. április 16. (Hozzáférés: 2022. szeptember 29.)

[6] Knight, Will. „Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”, Wired (Hozzáférés: 2022. szeptember 29.) (amerikai angol nyelvű)

[7] Midjourney (angol nyelven). Midjourney. (Hozzáférés: 2022. szeptember 29.)

[:1-8] Coldewey, Devin: OpenAI's DALL-E creates plausible images of literally anything you ask it to (amerikai angol nyelven). TechCrunch, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)

[9] Improving Language Understanding by Generative Pre-Training. (Hozzáférés: 2022. szeptember 29.)

[10] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua: Language models are unsupervised multitask learners. (Hozzáférés: 2022. szeptember 29.)

[11] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners".

[12] Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models".

[13] Ramesh, Aditya, Alex (2022. április 12.). „Hierarchical Text-Conditional Image Generation with CLIP Latents”. arXiv:2204.06125 [cs].

[:2-14] This avocado armchair could be the future of AI (angol nyelven). MIT Technology Review. (Hozzáférés: 2022. szeptember 29.)

[15] 'DALL-E' AI generates an image out of anything you describe (amerikai angol nyelven). Engadget. (Hozzáférés: 2022. szeptember 29.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]