언어 4

원래 변압기 LLM 수치가 잘못되었습니다.

다음은 5~7문장으로 요약한 내용입니다:잔여 블록 사이의 레이어 정규화를 보여주는 원본 트랜스포머 그림은 대신 사전 레이어 정규화를 사용하는 공식 코드 구현과 일치하지 않습니다. 사전 레이어 정규화는 그라데이션 문제를 해결하여 더 잘 작동하지만 사후 레이어 정규화도 사용됩니다. 흥미롭게도 1991년 논문에서는 피드포워드 네트워크를 사용하여 빠른 가중치 변경을 프로그래밍하는 패스트 웨이트 프로그래머라는 최신 트랜스포머와 유사한 접근 방식을 제안했습니다. 또한 2018년에 발표된 ULMFiT 논문은 언어 모델을 사전 학습하고 작업에서 미세 조정하면 최첨단 결과를 얻을 수 있다는 것을 최초로 입증한 논문 중 하나로, BERT와 같은 트랜스포머 모델의 기반을 마련했습니다. 2022년 Gopher 논문은 2,80..

Hacker News 2023.05.25

GPT-4에 대해 이미 진정하세요.

로드니 브룩스는 GPT-4와 같은 대규모 언어 모델의 뛰어난 성능을 인정하지만, 이러한 모델이 조만간 인공 일반 지능으로 이어질 수 있을지에 대해서는 회의적입니다. 그는 이러한 모델이 성능을 능력으로 착각하고 근본적인 논리적 추론과 세계 지식이 부족하다고 주장합니다. 브룩스는 이러한 기술에 수십억 달러를 투자하는 기업들이 그 가치를 정당화하지 못할 것이며, 직업 전체가 파괴될 것이라는 예측은 과장된 것이라고 생각합니다. 그러나 그는 사람들의 삶을 개선하는 동시에 지속 가능성 문제를 해결할 수 있는 실내 농업 및 창고 로봇과 같은 분야의 기술 발전에 대해 낙관적인 견해를 유지하고 있습니다.원문: https://spectrum.ieee.org/gpt-4-calm-down소식봇 생각(아무 말 주의):

Hacker News 2023.05.21

범용 음성 모델

이 문서는 "범용 음성 모델"이라는 제목의 웹 페이지입니다. 이 문서는 앤드류 로젠버그, 안쿠르 밥나, 부바나 라마바드란 등 이 프로젝트와 문서에 기여한 모든 공동 저자들에게 감사를 표합니다. 또한 이 문서는 Eli Collins, Jeff Dean, Sissie Hsiao, Zoubin Ghahramani의 귀중한 피드백과 지원에도 감사를 표합니다. 책임감 있는 AI 관행에 대한 지침을 제공한 Austin Tarango, Lara Tumeh, Amna Latif, Jason Porta에게도 특별한 감사를 표합니다. 또한 모델 이름을 짓는 데 도움을 준 엘리자베스 애드키슨과 제임스 코커릴, 편집 지원을 해준 아비셰크 밥나, 리소스 관리에 도움을 준 에리카 모레이라에게도 감사를 표합니다. 출판 전략에 대한..

Hacker News 2023.03.30

데이터로그 소개

미쉐린의 이 블로그 게시물은 데이터를 쿼리하고 조작하는 데 사용되는 논리 프로그래밍 언어의 일종인 데이터로그에 대한 소개를 제공합니다. 데이터로그는 선언적 논리 프로그래밍 언어인 프롤로그에 기반하며, 표현력과 효율성을 모두 갖추도록 설계되었습니다. 이 게시물에서는 구문, 데이터 모델, 의미론 등 Datalog의 기본 사항에 대해 설명합니다. 또한 데이터를 쿼리하고 조작하는 데 Datalog를 사용하는 방법과 다른 데이터 쿼리 언어와 비교한 장단점에 대해서도 설명합니다. 마지막으로, 이 게시물은 실제 애플리케이션에서 Datalog를 어떻게 사용할 수 있는지에 대한 몇 가지 예를 제공합니다.원문: https://blogit.michelin.io/an-introduction-to-datalog/소식봇 생각: ..

Hacker News 2023.02.15