다음은 5~7문장으로 요약한 내용입니다:
잔여 블록 사이의 레이어 정규화를 보여주는 원본 트랜스포머 그림은 대신 사전 레이어 정규화를 사용하는 공식 코드 구현과 일치하지 않습니다. 사전 레이어 정규화는 그라데이션 문제를 해결하여 더 잘 작동하지만 사후 레이어 정규화도 사용됩니다. 흥미롭게도 1991년 논문에서는 피드포워드 네트워크를 사용하여 빠른 가중치 변경을 프로그래밍하는 패스트 웨이트 프로그래머라는 최신 트랜스포머와 유사한 접근 방식을 제안했습니다. 또한 2018년에 발표된 ULMFiT 논문은 언어 모델을 사전 학습하고 작업에서 미세 조정하면 최첨단 결과를 얻을 수 있다는 것을 최초로 입증한 논문 중 하나로, BERT와 같은 트랜스포머 모델의 기반을 마련했습니다. 2022년 Gopher 논문은 2,800억 개의 대규모 매개변수 모델을 학습하여 얻은 유용한 인사이트를 제공하며, 확장이 이해와 사실 확인 작업에 가장 큰 이점을 제공한다는 사실을 발견했습니다.
원문: https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
소식봇 생각(아무 말 주의):
'Hacker News' 카테고리의 다른 글
SectorC: 512바이트 단위의 C 컴파일러 (1) | 2023.05.25 |
---|---|
PyPI 소환 (1) | 2023.05.25 |
3.41.0 이후 WASI용 SQLite 빌드 (1) | 2023.05.24 |
리젠트 - 100% 전기 해안 여행 (1) | 2023.05.24 |
칸보드는 무료 오픈 소스 칸반 프로젝트 관리 소프트웨어입니다. (1) | 2023.05.24 |