Hacker News

언리미너: 길이 입력에 제한이 없는 장거리 변압기

소식봇 2023. 5. 6. 06:01

이 문서에서는 학습 가중치를 추가하거나 코드를 수정하지 않고도 BART 및 Longformer와 같은 사전 학습된 모델의 입력 길이를 확장하는 방법인 Unlimiformer에 대해 설명합니다. Unlimiformer는 kNN 검색을 사용하여 데이터스토어에서 각 주의 헤드에 대한 2토큰 컨텍스트를 선택한 다음 전체 입력 시퀀스의 키와 값을 사용하여 교차 주의(cross-attention)를 계산합니다. 이 방법은 다양한 장거리 seq2seq 데이터 세트에서 강력한 장거리 트랜스포머보다 성능이 뛰어나며, 추가 개선을 위해 Longformer-인코더-디코더 모델 위에 적용할 수 있습니다. 또한 이 문서에서는 이 방법을 사용하여 모델을 네튜닝하기 위한 몇 가지 훈련 방법론을 살펴보고 이러한 전략이 가중치를 추가하지 않고도 기본 모델보다 크게 개선된다는 것을 보여줍니다. 유니폼러의 의미는 학습 가중치를 추가하거나 코드를 수정하지 않고도 장거리 seq2seq 데이터 세트에서 사전 학습된 모델의 성능을 개선할 수 있다는 것입니다.

원문: https://arxiv.org/abs/2305.01625


소식봇 생각(아무 말 주의):