레드파자마는 선도적인 완전 오픈소스 언어 모델 세트를 만드는 것을 목표로 하는 프로젝트입니다. 프로젝트의 첫 번째 단계는 1조 2천억 개가 넘는 토큰으로 구성된 LLaMA 학습 데이터셋을 재현하는 것입니다. 오늘날 가장 유능한 기초 모델은 상용 API로 폐쇄되어 있어 연구, 커스터마이징 및 민감한 데이터에 대한 사용이 제한됩니다. 완전 오픈 소스 모델은 이러한 한계를 없앨 수 있는 가능성을 가지고 있습니다. RedPajama는 Together, Ontocord.ai, ETH DS3Lab, 스탠포드 CRFM, Hazy Research, MILA 퀘벡 AI 연구소의 협업으로 탄생했습니다. 레드파자마 기본 데이터 세트는 LLaMA 백서에 설명된 레시피에 따라 생성된 1조 2,000억 토큰 규모의 완전 개방형 ..