모델 19

LLM 기반 자율 에이전트

이 문서에서는 대규모 언어 모델을 핵심 컨트롤러로 사용하는 자율 에이전트 구축에 대해 설명합니다. 작업 분해, 메모리, 도구 사용, 자기 반성 등 LLM을 보완하기 위한 몇 가지 메커니즘이 제안되어 있습니다. 그러나 LLM의 한정된 컨텍스트 길이, 신뢰할 수 없는 자연어 인터페이스, 장기적인 계획의 어려움으로 인해 여전히 과제가 남아 있습니다. 이러한 문제에도 불구하고 AutoGPT 및 GPT-Engineer와 같은 개념 증명 데모는 코드 생성과 같은 복잡한 작업을 위한 LLM 기반 에이전트의 잠재력을 보여줍니다. 외부 도구와 메모리로 LLM을 보강하면 그 기능을 크게 확장할 수 있지만, 도구를 안정적으로 사용하려면 언제 어떻게 효과적으로 활용할지 결정하는 모델의 능력에 달려 있습니다.원문: https:..

Hacker News 2023.06.27

트랜스포머 모델이란 무엇인가요?

트랜스포머 모델은 주의 메커니즘을 사용하여 단어와 같은 순차적 데이터 요소 간의 관계를 감지하는 강력한 유형의 신경망입니다. 트랜스포머 모델은 번역, 신약 개발 등의 애플리케이션을 지원하는 머신 러닝의 주요 발전을 주도해 왔습니다. 트랜스포머는 뛰어난 성능으로 인해 CNN이나 RNN과 같은 구형 신경망을 대체하고 있습니다. 주의 메커니즘을 통해 트랜스포머는 멀리 떨어진 요소 간의 종속성을 추적하여 문맥과 의미를 이해할 수 있습니다. 일반적으로 더 많은 매개변수를 가진 더 큰 트랜스포머 모델이 더 나은 성능을 발휘하지만, 훈련 비용이 많이 듭니다. 연구자들은 트랜스포머의 효율성을 개선하고 편향을 줄이기 위해 노력하는 동시에 일반 인공 지능에 대한 잠재력을 탐구하고 있습니다.원문: https://blogs...

Hacker News 2023.06.24

Gorilla: API와 연결된 대규모 언어 모델

Gorilla는 정확한 API 호출을 생성하도록 미세 조정된 대규모 언어 모델입니다. 이 모델은 정확한 API 호출과 인수를 작성하는 데 있어 GPT-4보다 뛰어난 성능을 발휘합니다. 또한 문서 검색기를 사용하여 API 문서의 변경 사항에 적응하여 업데이트된 API 버전을 처리할 수 있습니다. 저자들은 Gorilla의 성능을 평가하기 위해 HuggingFace, TorchHub 및 TensorHub API의 데이터 세트인 APIBench를 만들었습니다. 리트리버 시스템과 Gorilla의 조합은 대규모 언어 모델에서 보다 안정적인 API 호출을 생성할 수 있는 가능성을 보여줍니다. 저자들은 Gorilla와 코드를 GitHub에서 공개적으로 사용할 수 있도록 했습니다.원문: https://shishirpat..

Hacker News 2023.06.15

Erlang VM에서 ML을 사용하는 이유는 무엇인가요?

머신 러닝은 라이브 캡션, 오디오 트랜스크립션, 송장 처리와 같은 실용적인 애플리케이션에 유용할 수 있습니다. 머신 러닝에는 일반적으로 Python이 사용되지만, 저자는 BEAM VM에서 실행되는 Elixir가 내장된 동시성, 배포, 내결함성, 복잡성 제한과 같은 이점을 제공한다고 주장합니다. Nx 라이브러리를 사용하면 Elixir 코드에서 머신 러닝 모델을 실행할 수 있으며, 낮은 수준의 세부 사항은 숨기면서 BEAM VM의 성능을 활용할 수 있습니다. 아직 초기 단계이지만, 범블비와 같은 도구는 엣지 추론을 위해 바로 사용할 수 있는 많은 모델과 백엔드를 제공하여 Elixir 애플리케이션에 머신 러닝 기능을 추가하는 것이 얼마나 간단한지 보여줍니다. 저자는 Elixir의 추상화 덕분에 머신 러닝을 수..

Hacker News 2023.06.11

GGML - 엣지에서의 AI

GGML은 머신 러닝 추론을 위해 C로 작성된 오픈 소스 텐서 라이브러리입니다. 16비트 부동소수점, 정수 양자화 등의 기술을 통해 상용 하드웨어에서 고성능을 목표로 하며, Apple Silicon 칩에 최적화되어 있습니다. Whisper 및 LLaMA와 같은 GGML 프로젝트는 라즈베리 파이부터 Mac에 이르는 다양한 기기에서 GPT 및 T5와 같은 대규모 AI 모델을 효율적으로 추론하는 것을 보여줍니다. 라이브러리는 최소한으로 간소화되어 사용이 간편하며, MIT 라이선스에 따라 오픈 소스로 유지됩니다. 개발자들은 온디바이스 AI 추론의 실험과 적용을 통해 새로운 가능성을 모색하는 것을 목표로 하고 있습니다.원문: http://ggml.ai소식봇 생각(아무 말 주의):

Hacker News 2023.06.07

원래 변압기 LLM 수치가 잘못되었습니다.

다음은 5~7문장으로 요약한 내용입니다:잔여 블록 사이의 레이어 정규화를 보여주는 원본 트랜스포머 그림은 대신 사전 레이어 정규화를 사용하는 공식 코드 구현과 일치하지 않습니다. 사전 레이어 정규화는 그라데이션 문제를 해결하여 더 잘 작동하지만 사후 레이어 정규화도 사용됩니다. 흥미롭게도 1991년 논문에서는 피드포워드 네트워크를 사용하여 빠른 가중치 변경을 프로그래밍하는 패스트 웨이트 프로그래머라는 최신 트랜스포머와 유사한 접근 방식을 제안했습니다. 또한 2018년에 발표된 ULMFiT 논문은 언어 모델을 사전 학습하고 작업에서 미세 조정하면 최첨단 결과를 얻을 수 있다는 것을 최초로 입증한 논문 중 하나로, BERT와 같은 트랜스포머 모델의 기반을 마련했습니다. 2022년 Gopher 논문은 2,80..

Hacker News 2023.05.25

RWKV: 트랜스포머 시대를 위한 RNN의 재창조

다음은 PDF의 핵심 사항을 요약한 것입니다:- RWKV는 RNN과 트랜스포머의 강점을 결합한 새로운 신경망 아키텍처입니다. 트랜스포머의 표현력을 유지하면서 계산 비효율성과 4제곱 스케일링 문제를 해결하는 것을 목표로 합니다. - RWKV는 트랜스포머의 기존 도트 프로덕트 어텐션 대신 선형 어텐션 메커니즘을 사용합니다. 이를 통해 2진법 대신 선형적으로 스케일링할 수 있어 더욱 효율적입니다.- RWKV는 병렬화를 위한 훈련 중에는 Transformer로, 지속적인 계산 복잡성을 위한 추론 중에는 RNN으로 공식화할 수 있습니다. 이를 통해 두 가지 장점을 모두 누릴 수 있습니다.- 실험 결과, RWKV는 비슷한 크기의 트랜스포머와 비교했을 때 경쟁력 있는 성능을 보여줌으로써 보다 효율적인 대규모 모델을 ..

Hacker News 2023.05.23

프롬프트 엔지니어링 대 블라인드 프롬프트

이 문서에서는 언어 모델의 맥락에서 "프롬프트 엔지니어링"과 "블라인드 프롬프트"의 차이점에 대해 설명합니다. 프롬프트 엔지니어링은 프롬프트를 활용하여 실제 애플리케이션에 신뢰할 수 있는 기능을 구축하기 위한 엄격한 접근 방식을 포함합니다. 반면에 블라인드 프롬프트는 최소한의 테스트와 프롬프트에 대한 표면적인 지식만 가지고 시행착오를 거치는 접근 방식입니다. 이 문서에서는 문제를 식별하고 데모 세트를 만드는 것부터 시작하여 프롬프트 엔지니어링에 대한 단계별 가이드를 제공합니다. 데모 세트는 프롬프트의 정확성을 측정하는 데 사용되며, 언어 모델에서 원하는 동작을 이끌어내기 위해 여러 프롬프트 후보가 생성됩니다. 이 글에서는 프롬프트를 개선하기 위한 테스트와 지속적인 개선의 중요성을 강조합니다. 저자는 프롬..

Hacker News 2023.04.23

StableLM: 새로운 오픈 소스 언어 모델

Stability AI는 텍스트와 코드를 생성할 수 있고 다양한 다운스트림 애플리케이션을 지원할 수 있는 오픈 소스 언어 모델인 StableLM을 출시했습니다. 알파 버전의 모델은 30억 개와 70억 개의 매개변수로 제공되며, 150억 개에서 650억 개의 매개변수 모델이 뒤따를 예정입니다. StableLM은 더 파일에 구축된 새로운 실험 데이터 세트를 기반으로 학습되었지만, 콘텐츠가 1조 5천억 개로 3배 더 큽니다. 이 데이터 세트의 풍부함 덕분에 StableLM은 30억에서 70억 개의 매개변수라는 작은 크기에도 불구하고 대화 및 코딩 작업에서 놀라울 정도로 높은 성능을 제공합니다. StableLM은 투명하고 접근 가능하며 지원되도록 설계되었습니다. 오픈 소스 모델은 상업적 또는 연구 목적으로 조정..

Hacker News 2023.04.20

잠상 정렬: 잠상 확산 모델을 사용한 고해상도 비디오 합성

이 문서에서는 고해상도 비디오 합성을 위한 추상 잠재 확산 모델(LDM)의 사용에 대해 설명합니다. LDM 패러다임은 압축된 저차원 잠재 공간에서 확산 모델을 훈련하는 데 사용되며, 이 모델은 비디오 생성으로 확장됩니다. 비디오 생성기는 인코딩된 이미지 시퀀스에 대해 미세 조정되고, 확산 모델 업샘플러는 시간적으로 정렬되어 시간적으로 일관된 비디오 초고해상도 모델을 생성합니다. 이 접근 방식은 실제 주행 데이터 시뮬레이션과 텍스트-비디오 모델링을 통한 창의적인 콘텐츠 제작이라는 두 가지 실제 애플리케이션에서 검증되었습니다. 비디오 LDM은 해상도 512 x 1024의 실제 주행 비디오에서 최첨단 성능을 발휘하는 것으로 나타났습니다. 이 접근 방식은 개인화된 텍스트-비디오 생성에도 사용할 수 있습니다. 이..

Hacker News 2023.04.19