기차 3

LLM의 100만 컨텍스트 창 뒤에 숨겨진 비밀 소스: 모든 트릭을 한 곳에서 확인하세요.

이제 대규모 언어 모델은 학습 및 추론 속도를 높이기 위해 최적화 기술을 사용하여 최대 100,000개의 토큰으로 구성된 컨텍스트 창을 사용할 수 있습니다. 기존 Transformer 아키텍처는 컨텍스트 길이에 따라 복잡성이 4제곱으로 증가하여 훈련 비용이 많이 들었습니다. 사용된 기술에는 긴 컨텍스트에 대한 미세 조정을 가능하게 하는 ALiBi 위치 임베딩, 계산을 줄이기 위한 스파스 어텐션, 효율적인 GPU 구현을 위한 플래시어텐션, 증분 추론 속도를 높이기 위한 다중 쿼리 어텐션, 중요한 토큰에만 무거운 계산을 적용하는 조건부 계산이 포함됩니다. 이러한 기법을 사용하여 연구원들은 컨텍스트 길이를 늘리고 더 정확하고 창의적인 모델을 얻을 수 있었지만, 트레이닝에는 여전히 NVIDIA A100과 같은 ..

Hacker News 2023.06.18

GitHub Copilot에서 GPL 코드 배포

이 문서에서는 GPL과 같은 비허가 라이선스 코드에 대해 학습된 AI 기반 코드 어시스턴트를 사용할 때의 법적 영향에 대해 설명합니다. 이러한 도구의 예로 GitHub Copilot을 들 수 있는데, 이 도구는 바로 이러한 행위로 소송을 당하고 있습니다. 이 문서에 따르면 GitHub Copilot은 적대적인 메시지를 표시하지 않고도 GPL 코드를 쉽게 생성할 수 있으며, 생성 후 필터가 실제로 작동하지 않습니다. 이와는 대조적으로 Codeium은 교육 데이터에서 GPL 라이선스 코드를 제거하여 사용자가 법적 위험에 노출되지 않도록 보장합니다. 코듐의 접근 방식에는 자체 모델을 구축하고 문자열 기반 필터를 구현하여 GPL 코드를 제거하는 것이 포함됩니다. 코듐의 제안이 완벽하지는 않을 수 있지만 라이선스..

Hacker News 2023.04.22

Stable Diffusion과 Dreambooth를 사용하여 반려견의 아트 초상화를 만들었습니다.

이 블로그 게시물의 작성자는 스테이블 디퓨전과 드림부스를 사용하여 반려견의 초상화를 그린 경험을 설명합니다. 스테이블 디퓨전은 사용하기 어렵지만, AI 아티스트가 시각적 결과물을 더욱 창의적으로 제어할 수 있는 새로운 커뮤니티 프로젝트가 등장했다고 설명합니다. 저자는 드림부스를 사용하여 반려견 사진에 맞춤형 모델을 학습시키는 방법을 포함하여 스테이블 디퓨전을 고품질 액자형 아트 프린트로 구현하는 전체 워크플로우를 안내합니다. 또한 새로운 픽셀을 생성하고 이미지를 다듬기 위한 아웃페인팅 및 인페인팅과 같은 기술에 대해서도 설명합니다. 저자는 고품질 아트 프린트를 인쇄하기 위한 용지 품질과 프린터 보정의 중요성을 강조합니다. 또한 모든 배경을 가진 예술가들을 위한 안정적인 확산과 텍스트-이미지 생성 예술의 ..

Hacker News 2023.04.17