2

딥러닝에서 롱러닝까지

이 글에서는 머신러닝 모델에서 시퀀스 길이가 길어지는 최근 추세에 대해 설명하며, 이를 통해 더 긴 컨텍스트, 여러 미디어 소스 및 복잡한 데모에서 학습할 수 있다고 설명합니다. 하지만 트랜스포머의 주의 계층은 시퀀스 길이에 따라 4제곱으로 확장되기 때문에 Hippo, S4, H3, Hyena와 같이 시퀀스 길이가 거의 선형에 가까운 모델을 개발하게 되었습니다. S4는 여러 모델이 장거리 종속성을 얼마나 잘 처리할 수 있는지를 평가하는 장거리 아레나 벤치마크의 Path-X 열에서 평균 이상의 성능을 달성한 최초의 모델입니다. H3는 언어 모델링의 품질 격차를 줄이기 위해 설계되었으며, 난해성 및 다운스트림 평가 모두에서 트랜스포머를 능가할 수 있었습니다. Hyena는 이 작업 라인의 다음 아키텍처로, 복..

Hacker News 2023.04.10

영국에서 가장 긴 직선 구간(공공 도로를 건너지 않고)

이 글의 저자는 영국에서 공공 도로를 건너지 않고도 2019년 Ordnance Survey에서 확인한 것보다 더 긴 직선을 발견했다고 주장합니다. 저자는 이 질문에서 가장 중요한 부분은 차량용 포장 도로의 정의라고 설명합니다. 저자는 스코틀랜드 북부를 중심으로 영국에서 도로 사이의 가장 긴 직선을 찾기 위해 OS Open Roads 제품을 사용합니다. 저자는 OS 도로 파일에 일반적으로 '제한된 지역 접근 도로'로 표시되는 공공 도로가 포함되어 있지 않다는 점에 주목합니다. 저자는 이러한 제한 도로는 일반적으로 비포장 사설 도로라고 주장합니다. 저자는 제한된 도로의 지도와 공공 도로를 더 잘 표현한 지도를 제공합니다. 저자는 원래 케언곰즈 루트에서 더 긴 노선을 발견했으며, 동쪽이 아닌 A9 서쪽에서 잠..

Hacker News 2023.04.08