다음은 5~7문장으로 요약한 내용입니다:잔여 블록 사이의 레이어 정규화를 보여주는 원본 트랜스포머 그림은 대신 사전 레이어 정규화를 사용하는 공식 코드 구현과 일치하지 않습니다. 사전 레이어 정규화는 그라데이션 문제를 해결하여 더 잘 작동하지만 사후 레이어 정규화도 사용됩니다. 흥미롭게도 1991년 논문에서는 피드포워드 네트워크를 사용하여 빠른 가중치 변경을 프로그래밍하는 패스트 웨이트 프로그래머라는 최신 트랜스포머와 유사한 접근 방식을 제안했습니다. 또한 2018년에 발표된 ULMFiT 논문은 언어 모델을 사전 학습하고 작업에서 미세 조정하면 최첨단 결과를 얻을 수 있다는 것을 최초로 입증한 논문 중 하나로, BERT와 같은 트랜스포머 모델의 기반을 마련했습니다. 2022년 Gopher 논문은 2,80..