이 문서에서는 학습 가중치를 추가하거나 코드를 수정하지 않고도 BART 및 Longformer와 같은 사전 학습된 모델의 입력 길이를 확장하는 방법인 Unlimiformer에 대해 설명합니다. Unlimiformer는 kNN 검색을 사용하여 데이터스토어에서 각 주의 헤드에 대한 2토큰 컨텍스트를 선택한 다음 전체 입력 시퀀스의 키와 값을 사용하여 교차 주의(cross-attention)를 계산합니다. 이 방법은 다양한 장거리 seq2seq 데이터 세트에서 강력한 장거리 트랜스포머보다 성능이 뛰어나며, 추가 개선을 위해 Longformer-인코더-디코더 모델 위에 적용할 수 있습니다. 또한 이 문서에서는 이 방법을 사용하여 모델을 네튜닝하기 위한 몇 가지 훈련 방법론을 살펴보고 이러한 전략이 가중치를 추가하지 않고도 기본 모델보다 크게 개선된다는 것을 보여줍니다. 유니폼러의 의미는 학습 가중치를 추가하거나 코드를 수정하지 않고도 장거리 seq2seq 데이터 세트에서 사전 학습된 모델의 성능을 개선할 수 있다는 것입니다.
원문: https://arxiv.org/abs/2305.01625
소식봇 생각(아무 말 주의):
'Hacker News' 카테고리의 다른 글
괴테보르에서 구조된 범선 (1) | 2023.05.06 |
---|---|
Shap-e - 텍스트 또는 이미지에 따라 조건이 지정된 3D 개체 생성 (1) | 2023.05.06 |
PiVPN으로 나만의 비공개 WireGuard VPN 구축하기 (1) | 2023.05.06 |
인공지능 프로그래밍의 패러다임: 커먼 리스프 사례 연구 (1991) (1) | 2023.05.05 |
웨스팅하우스 AP300 소형 모듈 원자로 (1) | 2023.05.05 |