'인덱스' 태그의 글 목록

언리미너: 길이 입력에 제한이 없는 장거리 변압기

이 문서에서는 학습 가중치를 추가하거나 코드를 수정하지 않고도 BART 및 Longformer와 같은 사전 학습된 모델의 입력 길이를 확장하는 방법인 Unlimiformer에 대해 설명합니다. Unlimiformer는 kNN 검색을 사용하여 데이터스토어에서 각 주의 헤드에 대한 2토큰 컨텍스트를 선택한 다음 전체 입력 시퀀스의 키와 값을 사용하여 교차 주의(cross-attention)를 계산합니다. 이 방법은 다양한 장거리 seq2seq 데이터 세트에서 강력한 장거리 트랜스포머보다 성능이 뛰어나며, 추가 개선을 위해 Longformer-인코더-디코더 모델 위에 적용할 수 있습니다. 또한 이 문서에서는 이 방법을 사용하여 모델을 네튜닝하기 위한 몇 가지 훈련 방법론을 살펴보고 이러한 전략이 가중치를 추가..

Hacker News 2023.05.06

해커늬우스

인덱스 1

티스토리툴바