Alignment Research Center

Histoire
Fondation	Avril 2021
Domaine d'activité	Sûreté des intelligences artificielles
Siège	Berkeley
Fondateur	Paul Christiano
Site web	(en) alignment.org

La version imprimable n’est plus prise en charge et peut comporter des erreurs de génération. Veuillez mettre à jour les signets de votre navigateur et utiliser à la place la fonction d’impression par défaut de celui-ci.

L'Alignment Research Center (ARC) est un organisme de recherche à but non lucratif qui se consacre à l'alignement de l'intelligence artificielle avancée sur les valeurs et les priorités humaines.

Activités

La mission de l'ARC est de veiller à ce que les puissants systèmes d'apprentissage automatique du futur soient conçus et développés en toute sécurité et au bénéfice de l'humanité. L'ARC a été fondé en avril 2021 par Paul Christiano et d'autres chercheurs qui se concentrent sur les défis théoriques de l'alignement de l'IA^[1]. Ils tentent de développer des méthodes évolutives pour entraîner les systèmes d'IA à se comporter de manière honnête et utile. Un élément clé de leur méthodologie consiste à examiner comment les techniques d'alignement proposées pourraient s'effondrer ou être contournées à mesure que les systèmes deviennent plus avancés^[2]. L'ARC s'est étendu du travail théorique à la recherche empirique, aux collaborations industrielles et aux politiques publiques^[3]^,^[4]. En mars 2022, l'ARC a reçu 265 000 dollars d'Open Philanthropy.

En mars 2023, OpenAI a demandé à l'ARC de tester GPT-4 afin d'évaluer la capacité du modèle à afficher un comportement de recherche de pouvoir. Dans le cadre du test, GPT-4 a été invité à résoudre une énigme CAPTCHA. Il a pu le faire en contactant un travailleur humain sur TaskRabbit, une plateforme de gig work, qu'il a trompé en lui faisant croire qu'il était un humain malvoyant, de ce fait incapable de résoudre l'énigme, et non un robot^[5]^,^[6].

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Alignment Research Center » (voir la liste des auteurs).

↑ (en) Paul Christiano, « Announcing the Alignment Research Center », sur Medium, 26 avril 2021 (consulté le 16 avril 2023)
↑ (en) Paul Christiano, Ajeya Cotra et Mark Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », sur Google Docs, Alignment Research Center, décembre 2021 (consulté le 16 avril 2023)
↑ (en) « Alignment Research Center », sur Alignment Research Center (consulté le 16 avril 2023)
↑ (en-US) « Alignment Research Center — General Support », sur Open Philanthropy, 14 juin 2022 (consulté le 16 avril 2023)
↑ (en) Joseph Cox, « GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human », sur Vice, 15 mars 2023 (consulté le 16 juillet 2023)
↑ Julien Lausson, « GPT-4 a persuadé un humain de résoudre un test CAPTCHA pour lui », sur Numerama, 16 mars 2023 (consulté le 16 juillet 2023)

Liens externes

(en) Site officiel

[1] (en) Paul Christiano, « Announcing the Alignment Research Center », sur Medium, 26 avril 2021 (consulté le 16 avril 2023)

[2] (en) Paul Christiano, Ajeya Cotra et Mark Xu, « Eliciting Latent Knowledge: How to tell if your eyes deceive you », sur Google Docs, Alignment Research Center, décembre 2021 (consulté le 16 avril 2023)

[3] (en) « Alignment Research Center », sur Alignment Research Center (consulté le 16 avril 2023)

[4] (en-US) « Alignment Research Center — General Support », sur Open Philanthropy, 14 juin 2022 (consulté le 16 avril 2023)

[5] (en) Joseph Cox, « GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human », sur Vice, 15 mars 2023 (consulté le 16 juillet 2023)

[6] Julien Lausson, « GPT-4 a persuadé un humain de résoudre un test CAPTCHA pour lui », sur Numerama, 16 mars 2023 (consulté le 16 juillet 2023)

[1]

[2]

[3]

[4]

[5]

[6]