پرش به محتوا

هوش مصنوعی مولد

از ویکی‌پدیا، دانشنامهٔ آزاد
این تصویر که توسط هوش مصنوعی میدجرنی تولید شده، برنده مقام اول جشنواره هنری‌های دیجیتال آمریکا شد که منجر به افزایش نگرانی‌ها در مورد قدرت هوش مصنوعی شد.[۱]

هوش مصنوعی مولد یا زایا (به انگلیسی: Generative artificial intelligence) نوعی هوش مصنوعی است که در پاسخ به فرمان کاربر، قادر به تولید متن، تصاویر یا دیگر رسانه است.[۲][۳] مدل‌های هوش مصنوعی مولد الگوها و ساختار داده‌های آموزشی ورودی خود را یادمی‌گیرند و سپس داده‌های جدیدی تولید می‌کنند.[۴][۵]

هوش مصنوعی‌های مولد قابل توجه عبارتند از چت‌جی‌پی‌تی، یک بات مکالمه که توسط اوپن‌ای‌آی با استفاده از مدل‌های زبان اصلی جی‌پی‌تی-۳ و جی‌پی‌تی-۴ ساخته شده‌است.[۶] و بارد، یک بات مکالمه ساخته گوگل که با استفاده از مدل پایه لمدا ساخته شده‌است.[۷] از مدل‌های هوش مصنوعی مولد هنری می‌توان به استیبل دیفیوژن و میدجرنی و دال-ئی اشاره کرد.[۸]

هوش مصنوعی مولد کاربردهای بالقوه ای در طیف گسترده‌ای از صنایع از جمله هنر، نوشتن، توسعه نرم‌افزار، مراقبت‌های بهداشتی، مالی، بازی، بازاریابی و مد دارد.[۹][۱۰] در اوایل دهه ۲۰۲۰ سرمایه‌گذاری بر روی هوش مصنوعی مولد افزایش یافت و شرکت‌های بزرگی مانند مایکروسافت، گوگل و بایدو به همراه شرکت‌های کوچک متعددی مدل‌های هوش مصنوعی مولد را توسعه دادند.[۲][۱۱][۱۲] با این حال، نگرانی‌هایی در مورد سوء استفاده احتمالی از هوش مصنوعی مولد مانند ایجاد اخبار جعلی یا جعل عمیق وجود دارد که می‌تواند برای فریب دادن یا دستکاری مردم استفاده شود.[۱۳]

تاریخچه

[ویرایش]
یک برگزیده در اعتصاب انجمن نویسندگان آمریکا در سال ۲۰۲۳. یکی از درخواست‌های WGA در سال ۲۰۲۳٫ وضع «قوانین مربوط به استفاده از هوش مصنوعی مولد» بود.[۱۴]

از زمان تأسیس، حوزه یادگیری ماشینی از مدل‌های آماری از جمله مدل‌های سازنده، برای مدل‌سازی و پیش‌بینی داده‌ها استفاده کرده‌است. با شروع در اواخر دهه ۲۰۰۰، ظهور یادگیری عمیق باعث پیشرفت و تحقیق در پردازش تصویر و ویدئو، تجزیه و تحلیل متن، تشخیص گفتار و سایر وظایف شد. با این حال، اکثر شبکه‌های عصبی عمیق به عنوان مدل‌های تمایز دهنده که وظایف طبقه‌بندی مانند طبقه‌بندی تصویر مبتنی بر شبکه عصبی کانولوشنال را انجام می‌دهند، آموزش دیده‌اند.

در سال ۲۰۱۴، پیشرفت‌هایی مانند خودرمزگذار متغیر و شبکه‌های مولد رقابتی، اولین شبکه‌های عصبی عمیق عملی را تولید کردند که قادر به یادگیری مدل‌های مولد، به جای مدل‌های تماییزی از داده‌های پیچیده مانند تصاویر بودند. این مدل‌های مولد عمیق، اولین مدل‌هایی بودند که می‌توانستند نه تنها برچسب‌های کلاس را برای تصاویر، بلکه به عنوان خروجی تصویر تولید کنند.

در سال ۲۰۱۷، شبکه ترنسفورمر پیشرفت‌هایی را در مدل‌های مولد ایجاد کرد که منجر به اولین ترنسفورمر از پیش آموزش‌دیده مولد در سال ۲۰۱۸ شد.[۱۵]این در سال ۲۰۱۹ توسط جی‌پی‌تی ۲ دنبال شد که توانایی تعمیم بدون نظارت را به بسیاری از وظایف مختلف به عنوان یک مدل بنیادی نشان داد.[۱۶]

یک مقاله خبری تخیلی دربارهٔ اقدامات ادوارد اسنودن پس از پیروزی در انتخابات ریاست‌جمهوری آمریکا در سال ۲۰۲۰ که توسط جی‌پی‌تی ۲ تولید شده (قسمت‌های هایلایت شده توسط ماشین تولید شده) در حالی که اسنودن (در زمان تولید این متن) هرگز به مقام دولتی منصوب نشده بود. این متن تولید شده از نظر گرامری و فرمی معتبر و موثق دیده می‌شود.

در سال ۲۰۲۱، انتشار دال-ئی، یک مدل مولد پیکسل مبتنی بر ترنسفورمر، و به دنبال آن میدجرنی و استیبل دیفیوژن، ظهور هنر هوش مصنوعی کاربردی با کیفیت بالا را از درخواست‌های زبان طبیعی نشان داد.

در ژانویه ۲۰۲۳، وبسایت Futurism.com خبری را منتشر کرد که رسانه سی‌نت از یک ابزار هوش مصنوعی داخلی فاش نشده برای نوشتن حداقل ۷۷ داستان خود استفاده کرده‌است. پس از انتشار این خبر، سی‌نت اصلاحاتی را در ۴۱ فروشگاه ارسال کرد.[۱۷]

در مارس ۲۰۲۳، جی‌پی‌تی ۴ منتشر شد. گروهی از تحقیقات مایکروسافت استدلال کردند که «به طور منطقی می‌توان آن را به عنوان یک نسخه اولیه (اما هنوز ناقص) از یک سیستم هوش جامع مصنوعی (AGI) در نظر گرفت».[۱۸]

در آوریل ۲۰۲۳، روزنامه آلمانی Die Aktuelle مصاحبه جعلی ایجاد شده توسط هوش مصنوعی با راننده سابق مسابقه‌ای منزوی، مایکل شوماخر را منتشر کرد. این داستان شامل دو افشای احتمالی بود: روی جلد عبارت «به‌طور فریب‌آمیز واقعی» بود، و در داخل مجله در پایان مصاحبه اذعان کرد که مصاحبه توسط هوش مصنوعی ساخته شده‌است. سردبیر مدت کوتاهی پس از آن در میان جنجال برکنار شد.[۱۹]

روش‌ها

[ویرایش]

یک سیستم هوش مصنوعی مولد با استفاده از یادگیری ماشینی بدون نظارت یا خود نظارت بر مجموعه داده ساخته می‌شود. قابلیت‌های یک سیستم هوش مصنوعی مولد به روش یا نوع مجموعه داده مورد استفاده بستگی دارد.

هوش مصنوعی مولد می‌تواند یک وجهی یا چندوجهی باشد. سیستم‌های تک‌وجهی تنها یک نوع ورودی می‌گیرند، در حالی که سیستم‌های چندوجهی می‌توانند بیش از یک نوع ورودی بگیرند.[۲۰] برای مثال، یک نسخه از جی‌پی‌تی ۴ شرکت اوپن‌ای‌آی ورودی‌های متن و تصویر را می‌پذیرد.[۲۱]

  • متن: سیستم‌های هوش مصنوعی مولد آموزش‌دیده بر روی کلمات یا نشانه‌های کلمه عبارتند از جی‌پی‌تی ۳، لمدا، لاما، بلوم، جی‌پی‌تی ۴ و موارد دیگر. آنها قادر به پردازش زبان طبیعی، ترجمه ماشینی، و تولید زبان طبیعی هستند و می‌توانند به عنوان مدل‌های پایه برای کارهای دیگر استفاده شوند.[۲۲] مجموعه داده‌ها شامل BookCorpus، ویکی‌پدیا، و موارد دیگر است).
  • کد: علاوه بر متن زبان طبیعی، مدل‌های زبانی بزرگ را می‌توان بر روی متن زبان برنامه‌نویسی آموزش داد که به آن‌ها اجازه می‌دهد کد منبع برای برنامه‌های رایانه‌ای جدید تولید کنند.[۲۳] به عنوان مثال می‌توان به اوپن‌ای‌آی کدکس اشاره کرد.
  • تصاویر: سیستم‌های هوش مصنوعی مولد آموزش‌دیده بر روی مجموعه‌هایی از تصاویر با شرح متن شامل Imagen شرکت گوگل برین, دال-ئی، میدجرنی, ادوبی فایرفلای, استیبل دیفیوژن و موارد دیگر هستند. آنها معمولاً برای تولید متن به تصویر و انتقال سبک عصبی استفاده می‌شوند.[۲۴] مجموعه داده‌ها شامل LAION-5B و سایرین است.
  • مولکول‌ها: سیستم‌های هوش مصنوعی مولد را می‌توان بر روی توالی‌هایی از آمینو اسیدها یا نمایش‌های مولکولی مانند SMILES که نشان دهنده DNA یا پروتئین‌ها هستند، آموزش داد. این سیستم‌ها، مانند AlphaFold، برای پیش‌بینی ساختار پروتئین و داروپژوهی استفاده می‌شوند.[۲۵]مجموعه داده‌ها شامل مجموعه داده‌های بیولوژیکی مختلف است.
  • موسیقی: سیستم‌های هوش مصنوعی مولد مانند MusicLM را می‌توان بر روی شکل‌های موج صوتی موسیقی ضبط‌شده همراه با حاشیه‌نویسی متن آموزش داد تا نمونه‌های موسیقی جدیدی بر اساس توضیحات متنی مانند ملودی آرامش‌بخش ویولن با پشتوانه ریف گیتار تحریف‌شده تولید کنند.[۲۶]
  • ویدئو: هوش مصنوعی مولد آموزش دیده بر روی ویدئوی حاشیه نویسی می‌تواند کلیپ‌های ویدئویی منسجم زمانی تولید کند. مثال‌ها عبارتند از Gen1 و Gen2 توسط RunwayML[۲۷] و Make-A-Video توسط متا پلتفرمز.[۲۸]
  • کنش‌های ربات: هوش مصنوعی مولد آموزش دیده بر روی حرکات یک سیستم رباتیک می‌تواند مسیرهای جدیدی را برای برنامه‌ریزی حرکت ایجاد کند. برای مثال، UniPi ساخته بخش تحقیقات گوگل از دستوراتی مانند «کاسه آبی را بردارید» یا «صفحه را با اسفنج زرد پاک کنید» برای کنترل حرکات بازوی ربات استفاده می‌کند.[۲۹]

برای مطالعات بیشتر

[ویرایش]

جستارهای وابسته

[ویرایش]

منابع

[ویرایش]
  1. "هوش مصنوعی برنده یک جشنواره عکاسی در آمریکا شد! - تکراتو". تکراتو - زندگی با تکنولوژی (به انگلیسی). ۱۴۰۱-۰۶-۱۲\۱۵:۰۰:۳۳. Retrieved 2023-06-09. {{cite web}}: Check date values in: |تاریخ= (help)
  2. ۲٫۰ ۲٫۱ Griffith, Erin; Metz, Cade (2023-01-27). "Anthropic Said to Be Closing In on $300 Million in New A.I. Funding". The New York Times. Retrieved 2023-03-14.
  3. Lanxon, Nate; Bass, Dina; Davalos, Jackie (March 10, 2023). "A Cheat Sheet to AI Buzzwords and Their Meanings". Bloomberg News. Retrieved March 14, 2023.
  4. Pasick, Adam (2023-03-27). "Artificial Intelligence Glossary: Neural Networks and Other Terms Explained". The New York Times (به انگلیسی). ISSN 0362-4331. Retrieved 2023-04-22.
  5. Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (2016-06-16). "Generative models". OpenAI.
  6. Metz, Cade (2023-03-14). "OpenAI Plans to Up the Ante in Tech's A.I. Race". The New York Times (به انگلیسی). ISSN 0362-4331. Retrieved 2023-03-31.
  7. Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo; Huang, Yanping; Krikun, Maxim; Lepikhin, Dmitry; Qin, James; Chen, Dehao; Xu, Yuanzhong; Chen, Zhifeng; Roberts, Adam; Bosma, Maarten; Zhao, Vincent; Zhou, Yanqi; Chang, Chung-Ching; Krivokon, Igor; Rusch, Will; Pickett, Marc; Srinivasan, Pranesh; Man, Laichee; Meier-Hellstern, Kathleen; Ringel Morris, Meredith; Doshi, Tulsee; Delos Santos, Renelito; Duke, Toju; Soraker, Johnny; Zevenbergen, Ben; Prabhakaran, Vinodkumar; Diaz, Mark; Hutchinson, Ben; Olson, Kristen; Molina, Alejandra; Hoffman-John, Erin; Lee, Josh; Aroyo, Lora; Rajakumar, Ravi; Butryna, Alena; Lamm, Matthew; Kuzmina, Viktoriya; Fenton, Joe; Cohen; Aaron; Bernstein, Rachel; Kurzweil, Ray; Aguera-Arcas, Blaise; Cui, Claire; Croak, Marian; Chi, Ed; Le, Quoc (January 20, 2022). "LaMDA: Language Models for Dialog Applications". arXiv:2201.08239 [cs.CL].
  8. Roose, Kevin (2022-10-21). "A Coming-Out Party for Generative A.I. , Silicon Valley's New Craze". The New York Times. Retrieved 2023-03-14.
  9. "Don't fear an AI-induced jobs apocalypse just yet". The Economist. 2023-03-06. Retrieved 2023-03-14.
  10. Harreis, H.; Koullias, T.; Roberts, Roger. "Generative AI: Unlocking the future of fashion".
  11. "The race of the AI labs heats up". The Economist. 2023-01-30. Retrieved 2023-03-14.
  12. Yang, June; Gokturk, Burak (2023-03-14). "Google Cloud brings generative AI to developers, businesses, and governments".
  13. Justin Hendrix (May 16, 2023). "Transcript: Senate Judiciary Subcommittee Hearing on Oversight of AI". techpolicy.press. Retrieved May 19, 2023.
  14. https://time.com/6277158/writers-strike-ai-wga-screenwriting/ . Time. 4 May 2023. Retrieved 11 June 2023.
  15. https://github.com/openai/finetune-transformer-lm . GitHub. Retrieved 2023-05-19.
  16. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya; others (2019). "Language models are unsupervised multitask learners". OpenAI blog. 1 (8): 9.
  17. Roth, Emma (25 January 2023). "CNET found errors in more than half of its AI-written stories". The Verge. Retrieved 17 June 2023.
  18. Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (March 22, 2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712cs.CL
  19. https://www.npr.org/2023/04/28/1172473999/michael-schumacher-ai-interview-german-magazine . NPR. 28 April 2023. Retrieved 17 June 2023.
  20. https://www.marktechpost.com/2023/03/21/a-history-of-generative-ai-from-gan-to-gpt-4/
  21. https://www.reuters.com/technology/what-is-generative-ai-technology-behind-openais-chatgpt-2023-03-17/ . Reuters. March 17, 2023. Retrieved March 17, 2023.
  22. Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J; Bosselut, A; Brunskill, E; Brynjolfsson, E (2021-08-16). "On the opportunities and risks of foundation models".
  23. Chen, Ming; Tworek, Jakub; Jun, Hongyu; Yuan, Qinyuan; Pinto, Hanyu Philippe De Oliveira; Kaplan, Jerry; Edwards, Haley; Burda, Yannick; Joseph, Nicholas; Brockman, Greg; Ray, Alvin (2021-07-06). "Evaluating Large Language Models Trained on Code".
  24. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021). "Zero-shot text-to-image generation". International Conference on Machine Learning. PMLR. pp. 8821–8831.
  25. Heaven, Will Douglas (2023-02-15). "AI is dreaming up drugs that no one has ever seen. Now we've got to see if they work". MIT Technology Review. Massachusetts Institute of Technology. Retrieved 2023-03-15.
  26. Agostinelli, Andrea; Denk, Timo I. ; Borsos, Zalán; Engel, Jesse; Verzetti, Mauro; Caillon, Antoine; Huang, Qingqing; Jansen, Aren; Roberts, Adam; Tagliasacchi, Marco; Sharifi, Matt; Zeghidour, Neil; Frank, Christian (26 January 2023). "MusicLM: Generating Music From Text". arXiv:2301.11325 [cs.SD].
  27. Metz, Cade (April 4, 2023). "Instant Videos Could Represent the Next Leap in A.I. Technology". The New York Times.
  28. Queenie Wong (Sep 29, 2022). "Facebook Parent Meta's AI Tool Can Create Artsy Videos From Text". cnet.com. Retrieved Apr 4, 2023.
  29. Sherry Yang, Yilun Du (2023-04-12). "UniPi: Learning universal policies via text-guided video generation". Google Research, Brain Team. Google AI Blog.

پیوند به بیرون

[ویرایش]