기계 학습 4

딥러닝에서 롱러닝까지

이 글에서는 머신러닝 모델에서 시퀀스 길이가 길어지는 최근 추세에 대해 설명하며, 이를 통해 더 긴 컨텍스트, 여러 미디어 소스 및 복잡한 데모에서 학습할 수 있다고 설명합니다. 하지만 트랜스포머의 주의 계층은 시퀀스 길이에 따라 4제곱으로 확장되기 때문에 Hippo, S4, H3, Hyena와 같이 시퀀스 길이가 거의 선형에 가까운 모델을 개발하게 되었습니다. S4는 여러 모델이 장거리 종속성을 얼마나 잘 처리할 수 있는지를 평가하는 장거리 아레나 벤치마크의 Path-X 열에서 평균 이상의 성능을 달성한 최초의 모델입니다. H3는 언어 모델링의 품질 격차를 줄이기 위해 설계되었으며, 난해성 및 다운스트림 평가 모두에서 트랜스포머를 능가할 수 있었습니다. Hyena는 이 작업 라인의 다음 아키텍처로, 복..

Hacker News 2023.04.10

시스템 설계와 아키텍처 복잡성의 비용 (2013)

이 문서는 다니엘 조셉 스터트반트의 "시스템 설계와 아키텍처 복잡성의 비용"이라는 제목의 논문이 포함된 MIT 라이브러리의 웹 페이지입니다. 이 논문은 아키텍처 복잡성과 개발 조직에서 발생하는 비용 사이의 연관성을 탐구합니다. 이 연구는 성공적인 소프트웨어 회사에서 수행되었으며, 8개의 제품 버전에서 아키텍처 복잡성을 측정했습니다. 연구 결과, 아키텍처 복잡성의 차이가 생산성 50% 감소, 결함 밀도 3배 증가, 직원 이직률 대폭 증가 등 상당한 비용 요인이 될 수 있는 것으로 나타났습니다. 이 논문에서 개발된 기법은 기업이 복잡성으로 인한 생산성 저하, 결함 밀도 증가, 이직률 증가에 금전적 가치를 부여하여 복잡성으로 인한 재정적 비용을 추정하는 데 사용할 수 있습니다. 이 논문에는 참고 문헌이 포함되..

Hacker News 2023.04.07

신경망: 제로에서 영웅으로

이 문서는 코드에서 처음부터 신경망을 구축하는 방법에 대한 Andrej Karpathy의 강좌에 관한 것입니다. 이 강좌는 역전파의 기초부터 시작하여 GPT와 같은 최신 심층 신경망까지 구축합니다. 컴퓨터 비전과 같은 다른 분야로 진출할 의도가 있더라도 딥 러닝을 배우기에 훌륭한 언어 모델에 중점을 둡니다. 이 과정의 전제 조건은 탄탄한 프로그래밍(Python)과 입문 수준의 수학(예: 미분, 가우스)입니다. 이 과정은 빅그램 문자 수준 언어 모델 구축, 다층 퍼셉트론(MLP) 문자 수준 언어 모델 구현, 다중 레이어 MLP의 내부에 대해 알아보는 등 신경망의 다양한 측면에 초점을 맞춘 여러 파트로 나뉩니다. 또한 심층 네트워크의 상태를 이해하기 위한 진단 도구와 시각화, 심층 신경망을 훨씬 쉽게 훈련할..

Hacker News 2023.04.06

특이값 분해를 사용한 이미지 압축

이 기사에서는 품질 저하 없이 디지털 이미지의 크기를 줄이는 방법인 SVD(Singular Value Decomposition) 이미지 압축에 대한 개요를 제공합니다. 이 기사에서는 SVD의 개념과 이미지 압축에 SVD를 사용하는 방법을 설명하고 프로세스 데모를 제공합니다. 또한 SVD 이미지 압축의 장점과 단점을 다루고 결과를 최적화하기 위한 몇 가지 팁을 제공합니다. http://timbaumann.info/svd-image-compression-demo/

Hacker News 2023.02.10