해커늬우스

  • 홈
  • 태그
  • 방명록

입력 1

언리미너: 길이 입력에 제한이 없는 장거리 변압기

이 문서에서는 학습 가중치를 추가하거나 코드를 수정하지 않고도 BART 및 Longformer와 같은 사전 학습된 모델의 입력 길이를 확장하는 방법인 Unlimiformer에 대해 설명합니다. Unlimiformer는 kNN 검색을 사용하여 데이터스토어에서 각 주의 헤드에 대한 2토큰 컨텍스트를 선택한 다음 전체 입력 시퀀스의 키와 값을 사용하여 교차 주의(cross-attention)를 계산합니다. 이 방법은 다양한 장거리 seq2seq 데이터 세트에서 강력한 장거리 트랜스포머보다 성능이 뛰어나며, 추가 개선을 위해 Longformer-인코더-디코더 모델 위에 적용할 수 있습니다. 또한 이 문서에서는 이 방법을 사용하여 모델을 네튜닝하기 위한 몇 가지 훈련 방법론을 살펴보고 이러한 전략이 가중치를 추가..

Hacker News 2023.05.06
이전
1
다음
더보기
프로필사진

  • 분류 전체보기 (488)
    • Hacker News (487)
    • Qiita (1)

Tag

앱, 게임, 기술, 인공지능, 파이썬, 인공 지능, 머신 러닝, 코드, 자연어 처리, 보안, 모델, 머신러닝, 리눅스, 프로그래밍, 작업, 오픈 소스, 새로운, 파일, 데이터, 오픈소스,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • 아무 말 주의

Copyright © Kakao Corp. All rights reserved.

티스토리툴바