Paul Christiano
Formation |
Université de Californie à Berkeley (doctorat) (jusqu'en ) |
---|---|
Activités |
A travaillé pour | |
---|---|
Directeur de thèse | |
Site web |
(en) paulfchristiano.com |
Blog officiel |
(en) sideways-view.com |
Paul Christiano est un chercheur américain en intelligence artificielle (IA), spécialisé en alignement des intelligences artificielles (un sous-domaine de la recherche sûreté de l'IA visant à orienter les systèmes d'IA vers les intérêts humains)[1]. Il dirigeait auparavant l'équipe d'alignement des modèles de langage d'OpenAI[2]. Il est depuis 2021 le dirigeant fondateur du Alignment Research Center, un organisme à but non lucratif qui travaille sur l'alignement théorique de l'IA et l'évaluation des modèles d'apprentissage automatique[2],[3].
Biographie
[modifier | modifier le code]Études
[modifier | modifier le code]En 2012, Christiano est diplômé du MIT avec un diplôme en mathématiques[4]. Au MIT, il a étudié les structures de données, la cryptographie quantique et l'optimisation combinatoire[5].
Carrière
[modifier | modifier le code]À OpenAI, Christiano a coécrit l'article « Deep Reinforcement Learning from Human Preferences » (L'apprentissage par renforcement profond à partir de préférences humaines, 2017) et d'autres travaux développant l'apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF en anglais)[6],[7]. Cette technique, utilisée pour l'entraînement de ChatGPT et d'autres modèles de langage, permet d'apprendre à partir des préférences humaines subjectives, plutôt que de fonctions d'objectif qui peuvent être de mauvais indicateurs des intérêts humains[8],[9]. D'autres travaux tels que « AI safety via debate » (La sûreté de l'IA par le débat, 2018) se concentrent sur le problème de la surveillance évolutive - superviser les IAs dans des domaines où les humains auraient du mal à juger de la qualité des contenus générés[10],[11],[12].
Christiano a quitté OpenAI en 2021 pour travailler sur des questions plus conceptuelles et théoriques dans l'alignement de l'IA, et a ensuite fondé le Alignment Research Center pour se concentrer sur ce domaine[1]. Il étudie notamment comment faire pour que les modèles avancés d'IA répondent au mieux de leurs connaissances, même lorsque les humains sont incapables d'en juger (« Eliciting Latent Knowledge », ELK)[13],[14].
Christiano est connu pour ses opinions sur les risques potentiels liés à l'IA. Dans une interview de 2023, il estime personellement être de 10 à 20% la probabilité pour que l'IA prenne le contrôle du monde en éliminant beaucoup ou la plupart des humains[1]. Il a également estimé subjectivement à 46% la probabilité pour que le futur de l'humanité soit irréversiblement ruiné (cf. risque existentiel) moins de 10 ans après la création d'IAs puissantes[15].
Notes et références
[modifier | modifier le code]- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Paul Christiano (researcher) » (voir la liste des auteurs).
- (en) « A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns », Fortune (consulté le )
- (en-US) Decrypt / Jose Antonio Lanz, « Former OpenAI Researcher: There’s a 50% Chance AI Ends in 'Catastrophe' », sur Decrypt, (consulté le )
- (en) Kelsey Piper, « How to test what an AI model can — and shouldn’t — do », sur Vox, (consulté le )
- « Paul Christiano »
- « About the Authors: Theory of Computing: An Open Access Electronic Journal in Theoretical Computer Science »
- Christiano, Leike, Brown et Martic, « Deep Reinforcement Learning from Human Preferences », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30, (lire en ligne)
- (en) Ouyang, Wu, Jiang et Almeida, « Training language models to follow instructions with human feedback », Advances in Neural Information Processing Systems, vol. 35, , p. 27730–27744 (arXiv 2203.02155, lire en ligne)
- (en-US) « Learning from human preferences », openai.com (consulté le )
- (en-US) « How reinforcement learning with human feedback is unlocking the power of generative AI », VentureBeat, (consulté le )
- (en) Geoffrey Irving, Paul Christiano et Dario Amodei, « AI safety via debate », .
- (en) Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano, « Recursively Summarizing Books with Human Feedback », .
- (en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », .
- (en) Collin Burns, Haotian Ye, Dan Klein et Jacob Steinhardt, « Discovering Latent Knowledge in Language Models Without Supervision », .
- (en) Christiano, Cotra et Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », Google Docs, Alignment Research Center, (consulté le )
- (en) Paul Christiano, « My views on “doom” », sur Medium, (consulté le )
Liens externes
[modifier | modifier le code]
- (en) Site officiel
- Ressources relatives à la recherche :