LLaMA

LLaMA(대형 언어 모델 메타 AI, Large Language Model Meta AI)는 Meta AI가 2023년 2월에 출시한 대규모 언어 모델(LLM)이다. 70억에서 650억 파라미터에 이르는 다양한 모델 크기가 학습되었다. LLaMA의 개발자들은 대부분의 NLP 벤치마크에서 130억 파라미터 모델의 성능이 훨씬 더 큰 GPT-3(1,750억 파라미터 포함)의 성능을 초과했으며 가장 큰 모델이 PaLM 및 Chinchilla와 같은 최신 모델과 경쟁할 수 있다고 보고했다.^[1] 가장 강력한 LLM은 일반적으로 제한된 API(있는 경우)를 통해서만 접근할 수 있는 반면, 메타는 상업적 라이선스에 따라 연구 커뮤니티에 LLaMA의 모델 가중치를 공개했다.^[2] LLaMA가 출시된 지 일주일 만에 BitTorrent를 통해 4chan의 가중치가 대중에게 유출되었다.^[3]

출시 및 유출

LLaMA는 2023년 2월 23일 블로그 게시물과 모델의 훈련, 아키텍처 및 성능을 설명하는 문서를 통해 발표되었다.^[1]^[2] 모델 훈련에 사용된 코드는 오픈 소스 GPL 3 라이선스에 따라 공개적으로 공개되었다.^[4] 모델의 가중치에 대한 액세스는 응용 프로그램 프로세스에 의해 관리되었으며 학술 연구원, 정부, 시민 사회 및 학계 조직과 제휴한 사람들, 전 세계 산업 연구소에 사례별로 액세스 권한이 부여되었다.^[2]

2023년 3월 2일,^[5] LLaMA의 가중치가 담긴 토렌트가 업로드되었으며, 토렌트 링크가 4chan 이미지 보드에 공유되어 온라인 AI 커뮤니티를 통해 확산되었다.^[3] 같은 날 공식 문서에 마그넷 링크를 추가해 달라는 메인 LLaMA 저장소의 풀 리퀘스트가 열렸다.^[6]^[7] 3월 4일에 모델이 포함된 허깅페이스 리포지토리에 대한 링크를 추가하기 위한 풀 요청이 열렸다.^[8]^[6] 3월 6일, 메타는 풀 리퀘스트에 링크된 허깅페이스 리포지토리를 제거하기 위한 게시 중단 요청을 제출했으며 이를 모델의 "무단 배포"로 규정했다. 허깅페이스는 요청에 따랐다.^[9] 3월 20일 Meta는 미러에서 LLaMA를 다운로드한 스크립트가 포함된 저장소에 대한 저작권 침해에 대한 DMCA 게시 중단 요청을 제출했고 깃허브는 다음날 이에 따랐다.^[10] 3월 25일 현재 페이스북은 마그넷 링크가 포함된 풀 리퀘스트에 응답하지 않았다.^[7]

유출에 대한 반응은 다양했다. 일부에서는 이 모델이 보다 정교한 스팸과 같은 악의적인 목적으로 사용될 것이라고 추측했다. 일부는 모델의 접근성과 모델의 더 작은 버전이 상대적으로 저렴하게 실행될 수 있다는 사실을 축하했으며, 이것이 추가 연구 개발의 번창을 촉진할 것이라고 제안했다.^[3] 사이먼 윌리슨과 같은 여러 논평자는 LLaMA를 스테이블 디퓨전(Stable Diffusion)과 비교했다. 스테이블 디퓨전은 이전의 비교적 정교한 모델과 달리 공개적으로 배포되어 관련 도구, 기술 및 소프트웨어의 급속한 확산으로 이어지는 텍스트-이미지 모델이다.^[3]^[11]

같이 보기

GPT-4o

각주

↑ ^가 ^나 Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). “LLaMA: Open and Efficient Foundation Language Models”. arXiv:2302.13971 [cs.CL].
↑ ^가 ^나 ^다 “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. 《Meta AI》. 2023년 2월 24일.
↑ ^가 ^나 ^다 ^라 Vincent, James (2023년 3월 8일). “Meta's powerful AI language model has leaked online — what happens now?”. 《The Verge》.
↑ “llama”. 《GitHub》. 2023년 3월 16일에 확인함.
↑ “/g/ - /aicg/ - AI Chatbot General - Technology - 4chan”. 2023년 3월 5일. 2023년 3월 5일에 원본 문서에서 보존된 문서. 2023년 9월 9일에 확인함.
↑ ^가 ^나 VK, Anirudh (2023년 3월 6일). “Meta's LLaMA Leaked to the Public, Thanks To 4chan”. 《Analytics India Magazine》. 2023년 3월 17일에 확인함.
↑ ^가 ^나 “Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama”. 《GitHub》 (영어). 2023년 3월 25일에 확인함.
↑ “Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama”. 《GitHub》 (영어). 2023년 3월 17일에 확인함.
↑ Cox, Joseph (2023년 3월 7일). “Facebook's Powerful Large Language Model Leaks Online”. 《Vice》 (영어). 2023년 3월 17일에 확인함.
↑ OpSec Online LLC (2023년 3월 21일). “github/dmca - Notice of Claimed Infringement via Email”. GitHub. 2023년 3월 25일에 확인함.
↑ Willison, Simon (2023년 3월 11일). “Large language models are having their Stable Diffusion moment”. 《Simon Willison's Weblog》.

[paper-1] 가 ^나 Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). “LLaMA: Open and Efficient Foundation Language Models”. arXiv:2302.13971 [cs.CL].

[blog-2] 가 ^나 ^다 “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. 《Meta AI》. 2023년 2월 24일.

[verge-leak-3] 가 ^나 ^다 ^라 Vincent, James (2023년 3월 8일). “Meta's powerful AI language model has leaked online — what happens now?”. 《The Verge》.

[repo-4] “llama”. 《GitHub》. 2023년 3월 16일에 확인함.

[5] “/g/ - /aicg/ - AI Chatbot General - Technology - 4chan”. 2023년 3월 5일. 2023년 3월 5일에 원본 문서에서 보존된 문서. 2023년 9월 9일에 확인함.

[India-leak-6] 가 ^나 VK, Anirudh (2023년 3월 6일). “Meta's LLaMA Leaked to the Public, Thanks To 4chan”. 《Analytics India Magazine》. 2023년 3월 17일에 확인함.

[CKing-7] 가 ^나 “Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama”. 《GitHub》 (영어). 2023년 3월 25일에 확인함.

[8] “Download weights from huggingface to help us save bandwith by Jainam213 · Pull Request #109 · facebookresearch/llama”. 《GitHub》 (영어). 2023년 3월 17일에 확인함.

[9] Cox, Joseph (2023년 3월 7일). “Facebook's Powerful Large Language Model Leaks Online”. 《Vice》 (영어). 2023년 3월 17일에 확인함.

[10] OpSec Online LLC (2023년 3월 21일). “github/dmca - Notice of Claimed Infringement via Email”. GitHub. 2023년 3월 25일에 확인함.

[willison-11] Willison, Simon (2023년 3월 11일). “Large language models are having their Stable Diffusion moment”. 《Simon Willison's Weblog》.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]