길이 2

LLM의 100만 컨텍스트 창 뒤에 숨겨진 비밀 소스: 모든 트릭을 한 곳에서 확인하세요.

이제 대규모 언어 모델은 학습 및 추론 속도를 높이기 위해 최적화 기술을 사용하여 최대 100,000개의 토큰으로 구성된 컨텍스트 창을 사용할 수 있습니다. 기존 Transformer 아키텍처는 컨텍스트 길이에 따라 복잡성이 4제곱으로 증가하여 훈련 비용이 많이 들었습니다. 사용된 기술에는 긴 컨텍스트에 대한 미세 조정을 가능하게 하는 ALiBi 위치 임베딩, 계산을 줄이기 위한 스파스 어텐션, 효율적인 GPU 구현을 위한 플래시어텐션, 증분 추론 속도를 높이기 위한 다중 쿼리 어텐션, 중요한 토큰에만 무거운 계산을 적용하는 조건부 계산이 포함됩니다. 이러한 기법을 사용하여 연구원들은 컨텍스트 길이를 늘리고 더 정확하고 창의적인 모델을 얻을 수 있었지만, 트레이닝에는 여전히 NVIDIA A100과 같은 ..

Hacker News 2023.06.18

딥러닝에서 롱러닝까지

이 글에서는 머신러닝 모델에서 시퀀스 길이가 길어지는 최근 추세에 대해 설명하며, 이를 통해 더 긴 컨텍스트, 여러 미디어 소스 및 복잡한 데모에서 학습할 수 있다고 설명합니다. 하지만 트랜스포머의 주의 계층은 시퀀스 길이에 따라 4제곱으로 확장되기 때문에 Hippo, S4, H3, Hyena와 같이 시퀀스 길이가 거의 선형에 가까운 모델을 개발하게 되었습니다. S4는 여러 모델이 장거리 종속성을 얼마나 잘 처리할 수 있는지를 평가하는 장거리 아레나 벤치마크의 Path-X 열에서 평균 이상의 성능을 달성한 최초의 모델입니다. H3는 언어 모델링의 품질 격차를 줄이기 위해 설계되었으며, 난해성 및 다운스트림 평가 모두에서 트랜스포머를 능가할 수 있었습니다. Hyena는 이 작업 라인의 다음 아키텍처로, 복..

Hacker News 2023.04.10