모델 19

레드파자마: 친절한 라이센스로 라마 복제

레드파자마는 선도적인 완전 오픈소스 언어 모델 세트를 만드는 것을 목표로 하는 프로젝트입니다. 프로젝트의 첫 번째 단계는 1조 2천억 개가 넘는 토큰으로 구성된 LLaMA 학습 데이터셋을 재현하는 것입니다. 오늘날 가장 유능한 기초 모델은 상용 API로 폐쇄되어 있어 연구, 커스터마이징 및 민감한 데이터에 대한 사용이 제한됩니다. 완전 오픈 소스 모델은 이러한 한계를 없앨 수 있는 가능성을 가지고 있습니다. RedPajama는 Together, Ontocord.ai, ETH DS3Lab, 스탠포드 CRFM, Hazy Research, MILA 퀘벡 AI 연구소의 협업으로 탄생했습니다. 레드파자마 기본 데이터 세트는 LLaMA 백서에 설명된 레시피에 따라 생성된 1조 2,000억 토큰 규모의 완전 개방형 ..

Hacker News 2023.04.18

ML 모델의 91%는 시간이 지남에 따라 성능이 저하됩니다.

MIT, 하버드 및 기타 기관의 최근 연구에 따르면 머신러닝(ML) 모델의 91%가 시간이 지남에 따라 성능이 저하되는 것으로 나타났습니다. 이 연구는 배포 후 ML 모델의 동작과 보이지 않는 데이터에 따라 성능이 어떻게 변화하는지를 연구하는 데 중점을 두었습니다. 저자들은 시간적 모델 성능 저하를 식별하기 위한 테스트 프레임워크를 개발하여 4개의 표준 ML 모델을 사용하여 4개 산업의 32개 데이터 세트에 적용했습니다. 그 결과 시간이 지남에 따라 오차가 증가하고, 시간이 지남에 따라 오차 변동성이 증가하여 불규칙한 동작으로 이어진다는 사실을 발견했습니다. 저자들은 점진적인 성능 저하 또는 성능 저하 없음, 폭발적인 성능 저하, 오류 변동성 증가 등 네 가지 일반적인 성능 저하 패턴을 확인했습니다. 저..

Hacker News 2023.04.14

라마 효과: 유출로 촉발된 일련의 오픈소스 대안, ChatGPT

이 문서는 머신러닝, 인공 지능, 데이터 과학 분야의 최신 개발 동향을 파악할 수 있는 자료인 TheSequence의 "라마 효과: 우발적인 유출이 ChatGPT에 대한 일련의 인상적인 오픈소스 대안을 촉발한 방법"이라는 제목의 웹페이지입니다. 이 글에서는 우발적인 ChatGPT 모델 코드 유출로 인해 여러 오픈소스 대안이 탄생하게 된 과정을 설명합니다. ChatGPT 모델은 OpenAI에서 개발했으며 자연어 처리의 획기적인 발전으로 여겨졌습니다. 하지만 이 모델의 코드가 우발적으로 유출되면서 Hugging Face의 Transformers와 EleutherAI의 GPT-Neo를 비롯한 여러 오픈 소스 대체 모델이 만들어졌습니다. 이러한 오픈 소스 대안은 나름대로 성공을 거두었으며 자연어 처리의 민주화에..

Hacker News 2023.04.10

딥러닝에서 롱러닝까지

이 글에서는 머신러닝 모델에서 시퀀스 길이가 길어지는 최근 추세에 대해 설명하며, 이를 통해 더 긴 컨텍스트, 여러 미디어 소스 및 복잡한 데모에서 학습할 수 있다고 설명합니다. 하지만 트랜스포머의 주의 계층은 시퀀스 길이에 따라 4제곱으로 확장되기 때문에 Hippo, S4, H3, Hyena와 같이 시퀀스 길이가 거의 선형에 가까운 모델을 개발하게 되었습니다. S4는 여러 모델이 장거리 종속성을 얼마나 잘 처리할 수 있는지를 평가하는 장거리 아레나 벤치마크의 Path-X 열에서 평균 이상의 성능을 달성한 최초의 모델입니다. H3는 언어 모델링의 품질 격차를 줄이기 위해 설계되었으며, 난해성 및 다운스트림 평가 모두에서 트랜스포머를 능가할 수 있었습니다. Hyena는 이 작업 라인의 다음 아키텍처로, 복..

Hacker News 2023.04.10

높은 오류율(오탐률 0.1%)을 인정하는 Stripe

Stripe Radar는 잠재적 거래의 1,000개 이상의 특성을 평가하여 사기 가능성을 판단하는 사기 방지 솔루션입니다. 이 솔루션은 100밀리초 이내에 정확하게 판단하여 합법적인 결제의 0.1%만 차단합니다. Stripe 네트워크는 사기 거래를 식별하는 데 사용되며, 회사는 머신 러닝 아키텍처를 개선하는 동시에 사기 결정의 이유에 대해 사용자와 소통하는 방식을 개선했습니다. Stripe는 머신 러닝 모델을 비교적 단순한 모델에서 더 복잡한 모델로 발전시켜 왔으며, 가장 최근의 아키텍처 진화는 앙상블 와이드 앤 딥 모델에서 순수 DNN 전용 모델로 마이그레이션한 2022년 중반에 이루어졌습니다. 또한 Stripe은 ML 엔지니어가 각 공격의 특정 윤곽을 타깃으로 하는 새로운 기능을 식별하고 구현할 수 ..

Hacker News 2023.04.08

신경망: 제로에서 영웅으로

이 문서는 코드에서 처음부터 신경망을 구축하는 방법에 대한 Andrej Karpathy의 강좌에 관한 것입니다. 이 강좌는 역전파의 기초부터 시작하여 GPT와 같은 최신 심층 신경망까지 구축합니다. 컴퓨터 비전과 같은 다른 분야로 진출할 의도가 있더라도 딥 러닝을 배우기에 훌륭한 언어 모델에 중점을 둡니다. 이 과정의 전제 조건은 탄탄한 프로그래밍(Python)과 입문 수준의 수학(예: 미분, 가우스)입니다. 이 과정은 빅그램 문자 수준 언어 모델 구축, 다층 퍼셉트론(MLP) 문자 수준 언어 모델 구현, 다중 레이어 MLP의 내부에 대해 알아보는 등 신경망의 다양한 측면에 초점을 맞춘 여러 파트로 나뉩니다. 또한 심층 네트워크의 상태를 이해하기 위한 진단 도구와 시각화, 심층 신경망을 훨씬 쉽게 훈련할..

Hacker News 2023.04.06

예측 불가능한 블랙박스는 끔찍한 인터페이스입니다.

이 글에서는 자연어 프롬프트를 입력으로 받아 고품질 텍스트, 이미지, 비디오, 3D 모델, 심지어 프로그램 코드까지 출력으로 생성하는 블랙박스인 제너레이티브 AI 도구를 사용할 때의 어려움에 대해 설명합니다. 저자는 DALL-E2를 사용하여 이미지를 생성하고 효과적인 프롬프트를 찾는 것이 얼마나 어려운지 설명합니다. 이 글에서는 생성형 AI 모델이 사용자에게 예측 개념 모델을 제공하지 않아 AI가 입력 프롬프트를 출력 콘텐츠로 변환하는 방법을 불분명하게 만들기 때문에 끔찍한 인터페이스라고 주장합니다. 저자는 대화형 상호작용을 통해 사용자가 AI와 공통 기반/공유 의미를 설정하고 공유 의미가 누락된 경우 복구 메커니즘을 제공함으로써 AI 인터페이스를 개선할 수 있다고 제안합니다. 이 글에서는 AI와 소통하..

Hacker News 2023.04.05

범용 음성 모델

이 문서는 "범용 음성 모델"이라는 제목의 웹 페이지입니다. 이 문서는 앤드류 로젠버그, 안쿠르 밥나, 부바나 라마바드란 등 이 프로젝트와 문서에 기여한 모든 공동 저자들에게 감사를 표합니다. 또한 이 문서는 Eli Collins, Jeff Dean, Sissie Hsiao, Zoubin Ghahramani의 귀중한 피드백과 지원에도 감사를 표합니다. 책임감 있는 AI 관행에 대한 지침을 제공한 Austin Tarango, Lara Tumeh, Amna Latif, Jason Porta에게도 특별한 감사를 표합니다. 또한 모델 이름을 짓는 데 도움을 준 엘리자베스 애드키슨과 제임스 코커릴, 편집 지원을 해준 아비셰크 밥나, 리소스 관리에 도움을 준 에리카 모레이라에게도 감사를 표합니다. 출판 전략에 대한..

Hacker News 2023.03.30

해적 날씨

해적 기상 API는 JSON API를 통해 GFS 및 HRRR 예보를 평가하기 위한 도구입니다. 이 도구는 다크 스카이 API의 드롭인 대체/대안으로 설계되었습니다. 이 API는 원시 예보 데이터에 세 가지 NOAA 모델을 사용합니다: HRRR, GFS, GEFS입니다. HRRR은 미국 대륙 전체와 캐나다 인구의 대부분에 대한 예보를 제공합니다. GFS 모델은 120시간 단위의 시간별 예보와 240시간 단위의 3시간 예보를 제공합니다. GEFS는 30인조 앙상블 버전의 GFS입니다. API는 강수 유형, 양, 확률을 얻기 위해 GEFS를 사용합니다. API는 커뮤니티 중심이며 사람들이 문제를 제기하여 예보를 개선하는 데 도움을 줍니다. API는 전 세계 어디에서나 분 단위 예보를 제공할 수 있지만, HR..

Hacker News 2023.03.29