자연어 처리 6

Bark - GPT 스타일의 사실적인 다국어 텍스트 음성 변환 생성

이 문서는 Suno가 만든 트랜스포머 기반 텍스트-오디오 변환 모델인 Bark에 관한 문서입니다. Bark는 매우 사실적인 다국어 음성뿐만 아니라 음악, 배경 소음, 간단한 음향 효과 등 기타 오디오를 생성할 수 있습니다. 이 모델은 웃음, 한숨, 울음과 같은 비언어적 커뮤니케이션도 생성할 수 있습니다. Bark는 기본적으로 다양한 언어를 지원하며 입력 텍스트에서 자동으로 언어를 결정합니다. 이 모델은 모든 유형의 오디오를 생성할 수 있으며, 원칙적으로 음성과 음악의 차이를 인식하지 못합니다. Bark는 톤, 음정, 감정, 운율 등 음성을 완벽하게 복제할 수 있는 기능을 갖추고 있습니다. 또한 이 모델은 입력 오디오에서 음악, 주변 소음 등을 보존하려고 시도합니다. Bark는 GPT 스타일 모델을 사용하..

Hacker News 2023.04.21

신경망: 제로에서 영웅으로

이 문서는 코드에서 처음부터 신경망을 구축하는 방법에 대한 Andrej Karpathy의 강좌에 관한 것입니다. 이 강좌는 역전파의 기초부터 시작하여 GPT와 같은 최신 심층 신경망까지 구축합니다. 컴퓨터 비전과 같은 다른 분야로 진출할 의도가 있더라도 딥 러닝을 배우기에 훌륭한 언어 모델에 중점을 둡니다. 이 과정의 전제 조건은 탄탄한 프로그래밍(Python)과 입문 수준의 수학(예: 미분, 가우스)입니다. 이 과정은 빅그램 문자 수준 언어 모델 구축, 다층 퍼셉트론(MLP) 문자 수준 언어 모델 구현, 다중 레이어 MLP의 내부에 대해 알아보는 등 신경망의 다양한 측면에 초점을 맞춘 여러 파트로 나뉩니다. 또한 심층 네트워크의 상태를 이해하기 위한 진단 도구와 시각화, 심층 신경망을 훨씬 쉽게 훈련할..

Hacker News 2023.04.06

오류 및 연금 사기를 나타내는 패턴을 보여주는 슈퍼센테리안 기록

이 문서에서는 놀라운 장수와 초고령 상태의 패턴과 예측 요인에 대해 설명합니다. 이 연구에 따르면 미국에서는 생체 등록이 되어 있지 않은 경우, 영국, 이탈리아, 일본, 프랑스에서는 지역 빈곤, 노인 빈곤, 물질적 빈곤, 낮은 소득, 높은 범죄율, 출생 지역이 외진 곳, 건강 악화, 90세 이상 인구가 적을수록 슈퍼 센테니언 지위를 예측할 수 있는 것으로 나타났습니다. 이 연구는 또한 100세 이상 생년월일이 5로 나눌 수 있는 월과 일에 집중되어 있으며, 이는 광범위한 사기 및 오류를 나타내는 패턴이라는 것을 발견했습니다. 저자는 상대적 빈곤과 중요한 서류의 누락이 100세 및 초백세 지위의 예상치 못한 예측 인자이며, 인간의 놀라운 연령 기록을 생성하는 데 있어 사기 및 오류가 주요한 역할을 한다고 ..

Hacker News 2023.04.05

범용 음성 모델

이 문서는 "범용 음성 모델"이라는 제목의 웹 페이지입니다. 이 문서는 앤드류 로젠버그, 안쿠르 밥나, 부바나 라마바드란 등 이 프로젝트와 문서에 기여한 모든 공동 저자들에게 감사를 표합니다. 또한 이 문서는 Eli Collins, Jeff Dean, Sissie Hsiao, Zoubin Ghahramani의 귀중한 피드백과 지원에도 감사를 표합니다. 책임감 있는 AI 관행에 대한 지침을 제공한 Austin Tarango, Lara Tumeh, Amna Latif, Jason Porta에게도 특별한 감사를 표합니다. 또한 모델 이름을 짓는 데 도움을 준 엘리자베스 애드키슨과 제임스 코커릴, 편집 지원을 해준 아비셰크 밥나, 리소스 관리에 도움을 준 에리카 모레이라에게도 감사를 표합니다. 출판 전략에 대한..

Hacker News 2023.03.30

텍스트2비디오-제로 코드 및 가중치 출시, 픽스아트 AI 리서치(12G VRAM)

이 문서는 텍스트 프롬프트와 포즈 또는 가장자리의 안내를 사용하여 동영상을 생성하는 제로샷 동영상 생성기의 구현인 Text2Video-Zero에 관한 문서입니다. 이 구현은 GitHub에서 사용할 수 있으며 허깅페이스 데모, 모든 생성 방법에 대한 코드, ControlNet에서 사용되는 포즈 모델에 대한 가중치가 포함되어 있습니다. 또한 이 구현에는 모션 필드 강도, 비디오 길이, 캐니 에지 감지를 위한 낮은 임계값과 높은 임계값에 대해 정의할 수 있는 추론 API와 하이퍼파라미터가 포함되어 있습니다. 청크 크기 매개변수를 추가하여 낮은 메모리 설정에서 구현을 실행할 수 있습니다. 이 문서에는 "고양이가 잔디 위를 달리고 있습니다.", "우주 비행사가 달에서 손을 흔들고 있습니다."와 같은 텍스트 프롬프..

Hacker News 2023.03.29

대규모 언어 모델로 빌드하는 새로운 방법

Fixie AI는 개발자가 대규모 언어 모델을 사용하여 애플리케이션을 구축할 수 있는 새로운 플랫폼입니다. 개발자는 이를 통해 자연어 처리(NLP) 및 머신 러닝의 최신 기술을 활용하는 애플리케이션을 빠르게 만들 수 있습니다. 개발자는 Fixie AI를 통해 사전 학습된 모델을 사용하여 자연어를 이해하고 이에 응답하는 애플리케이션을 빠르게 구축할 수 있습니다. 또한 이 플랫폼은 개발자가 특정 요구 사항에 맞게 모델을 사용자 지정하고 최적화하는 데 도움이 되는 도구도 제공합니다. 또한 Fixie AI는 개발자가 모델을 애플리케이션에 통합하는 데 도움이 되는 API 제품군을 제공합니다. Fixie AI는 개발자가 대규모 언어 모델을 사용하여 강력한 애플리케이션을 더 쉽게 만들 수 있도록 설계되었습니다. ht..

Hacker News 2023.02.10