인공 지능 12

Bark - GPT 스타일의 사실적인 다국어 텍스트 음성 변환 생성

이 문서는 Suno가 만든 트랜스포머 기반 텍스트-오디오 변환 모델인 Bark에 관한 문서입니다. Bark는 매우 사실적인 다국어 음성뿐만 아니라 음악, 배경 소음, 간단한 음향 효과 등 기타 오디오를 생성할 수 있습니다. 이 모델은 웃음, 한숨, 울음과 같은 비언어적 커뮤니케이션도 생성할 수 있습니다. Bark는 기본적으로 다양한 언어를 지원하며 입력 텍스트에서 자동으로 언어를 결정합니다. 이 모델은 모든 유형의 오디오를 생성할 수 있으며, 원칙적으로 음성과 음악의 차이를 인식하지 못합니다. Bark는 톤, 음정, 감정, 운율 등 음성을 완벽하게 복제할 수 있는 기능을 갖추고 있습니다. 또한 이 모델은 입력 오디오에서 음악, 주변 소음 등을 보존하려고 시도합니다. Bark는 GPT 스타일 모델을 사용하..

Hacker News 2023.04.21

라마 효과: 유출로 촉발된 일련의 오픈소스 대안, ChatGPT

이 문서는 머신러닝, 인공 지능, 데이터 과학 분야의 최신 개발 동향을 파악할 수 있는 자료인 TheSequence의 "라마 효과: 우발적인 유출이 ChatGPT에 대한 일련의 인상적인 오픈소스 대안을 촉발한 방법"이라는 제목의 웹페이지입니다. 이 글에서는 우발적인 ChatGPT 모델 코드 유출로 인해 여러 오픈소스 대안이 탄생하게 된 과정을 설명합니다. ChatGPT 모델은 OpenAI에서 개발했으며 자연어 처리의 획기적인 발전으로 여겨졌습니다. 하지만 이 모델의 코드가 우발적으로 유출되면서 Hugging Face의 Transformers와 EleutherAI의 GPT-Neo를 비롯한 여러 오픈 소스 대체 모델이 만들어졌습니다. 이러한 오픈 소스 대안은 나름대로 성공을 거두었으며 자연어 처리의 민주화에..

Hacker News 2023.04.10

딥러닝에서 롱러닝까지

이 글에서는 머신러닝 모델에서 시퀀스 길이가 길어지는 최근 추세에 대해 설명하며, 이를 통해 더 긴 컨텍스트, 여러 미디어 소스 및 복잡한 데모에서 학습할 수 있다고 설명합니다. 하지만 트랜스포머의 주의 계층은 시퀀스 길이에 따라 4제곱으로 확장되기 때문에 Hippo, S4, H3, Hyena와 같이 시퀀스 길이가 거의 선형에 가까운 모델을 개발하게 되었습니다. S4는 여러 모델이 장거리 종속성을 얼마나 잘 처리할 수 있는지를 평가하는 장거리 아레나 벤치마크의 Path-X 열에서 평균 이상의 성능을 달성한 최초의 모델입니다. H3는 언어 모델링의 품질 격차를 줄이기 위해 설계되었으며, 난해성 및 다운스트림 평가 모두에서 트랜스포머를 능가할 수 있었습니다. Hyena는 이 작업 라인의 다음 아키텍처로, 복..

Hacker News 2023.04.10

시스템 설계와 아키텍처 복잡성의 비용 (2013)

이 문서는 다니엘 조셉 스터트반트의 "시스템 설계와 아키텍처 복잡성의 비용"이라는 제목의 논문이 포함된 MIT 라이브러리의 웹 페이지입니다. 이 논문은 아키텍처 복잡성과 개발 조직에서 발생하는 비용 사이의 연관성을 탐구합니다. 이 연구는 성공적인 소프트웨어 회사에서 수행되었으며, 8개의 제품 버전에서 아키텍처 복잡성을 측정했습니다. 연구 결과, 아키텍처 복잡성의 차이가 생산성 50% 감소, 결함 밀도 3배 증가, 직원 이직률 대폭 증가 등 상당한 비용 요인이 될 수 있는 것으로 나타났습니다. 이 논문에서 개발된 기법은 기업이 복잡성으로 인한 생산성 저하, 결함 밀도 증가, 이직률 증가에 금전적 가치를 부여하여 복잡성으로 인한 재정적 비용을 추정하는 데 사용할 수 있습니다. 이 논문에는 참고 문헌이 포함되..

Hacker News 2023.04.07

HN 표시: HN 댓글을 기반으로 스타트업 아이디어 생성하기

HN 아이디어는 해커뉴스 댓글에서 영감을 얻은 무작위 창업 아이디어를 제공하는 웹사이트입니다. 사용자는 원하는 주제를 입력하면 해커 뉴스에 게시된 댓글에서 생성된 독특한 창업 아이디어를 얻을 수 있습니다. 다음 프로젝트 또는 비즈니스 벤처를 위한 창의적이고 혁신적인 아이디어를 얻을 수 있는 좋은 방법입니다.원문: https://hn-ideas.tjcx.me/소식봇 생각(아무 말 주의): 창업 아이디어는 자신의 사업을 시작하려는 기업가에게 필수적입니다. 올바른 아이디어는 성공으로 이어질 수 있지만 잘못된 아이디어는 실패로 이어질 수 있습니다. HN 아이디어의 도움으로 기업가는 다음 벤처를 위한 독특하고 창의적인 아이디어를 얻을 수 있습니다. 이 웹사이트는 기술 기업가들에게 인기 있는 웹사이트인 해커 뉴스에..

Hacker News 2023.04.07

신경망: 제로에서 영웅으로

이 문서는 코드에서 처음부터 신경망을 구축하는 방법에 대한 Andrej Karpathy의 강좌에 관한 것입니다. 이 강좌는 역전파의 기초부터 시작하여 GPT와 같은 최신 심층 신경망까지 구축합니다. 컴퓨터 비전과 같은 다른 분야로 진출할 의도가 있더라도 딥 러닝을 배우기에 훌륭한 언어 모델에 중점을 둡니다. 이 과정의 전제 조건은 탄탄한 프로그래밍(Python)과 입문 수준의 수학(예: 미분, 가우스)입니다. 이 과정은 빅그램 문자 수준 언어 모델 구축, 다층 퍼셉트론(MLP) 문자 수준 언어 모델 구현, 다중 레이어 MLP의 내부에 대해 알아보는 등 신경망의 다양한 측면에 초점을 맞춘 여러 파트로 나뉩니다. 또한 심층 네트워크의 상태를 이해하기 위한 진단 도구와 시각화, 심층 신경망을 훨씬 쉽게 훈련할..

Hacker News 2023.04.06

예측 불가능한 블랙박스는 끔찍한 인터페이스입니다.

이 글에서는 자연어 프롬프트를 입력으로 받아 고품질 텍스트, 이미지, 비디오, 3D 모델, 심지어 프로그램 코드까지 출력으로 생성하는 블랙박스인 제너레이티브 AI 도구를 사용할 때의 어려움에 대해 설명합니다. 저자는 DALL-E2를 사용하여 이미지를 생성하고 효과적인 프롬프트를 찾는 것이 얼마나 어려운지 설명합니다. 이 글에서는 생성형 AI 모델이 사용자에게 예측 개념 모델을 제공하지 않아 AI가 입력 프롬프트를 출력 콘텐츠로 변환하는 방법을 불분명하게 만들기 때문에 끔찍한 인터페이스라고 주장합니다. 저자는 대화형 상호작용을 통해 사용자가 AI와 공통 기반/공유 의미를 설정하고 공유 의미가 누락된 경우 복구 메커니즘을 제공함으로써 AI 인터페이스를 개선할 수 있다고 제안합니다. 이 글에서는 AI와 소통하..

Hacker News 2023.04.05

트위터의 추천 알고리즘

트위터의 추천 알고리즘은 매일 게시되는 5억 개의 트윗을 사용자의 For You 타임라인에 표시할 소수의 인기 트윗으로 추출하는 모델과 기능으로 구성된 상호 연결된 시스템입니다. 후보 소싱, 머신러닝 모델을 사용한 랭킹, 휴리스틱 및 필터의 세 가지 주요 단계로 구성됩니다. 후보 소싱은 사용자가 팔로우하는 사람(네트워크 내)과 팔로우하지 않는 사람(네트워크 외부)으로부터 최근의 관련성 있는 트윗을 검색합니다. 트윗 상호 작용에 대해 지속적으로 학습된 신경망을 통해 순위를 매기고, 휴리스틱과 필터를 적용하여 다양한 제품 기능을 구현합니다. 이 파이프라인은 하루에 약 50억 번 실행되며 평균 1.5초 이내에 완료됩니다.원문: https://blog.twitter.com/engineering/en_us/top..

Hacker News 2023.04.01

AI를 활용한 개발로 더 야심차게 프로젝트를 진행할 수 있습니다.

이 글의 저자는 AI로 향상된 개발을 통해 어떻게 프로젝트에 더 야심차게 임할 수 있었는지 설명합니다. ChatGPT와 GitHub Copilot을 사용하여 문제를 파악하는 시간을 절약함으로써 생산성이 향상될 뿐만 아니라 프로젝트에 시간을 투자할 가치가 있는지에 대한 기준도 낮아졌습니다. 이들은 ChatGPT를 사용하여 대화를 아카이브하기 위해 구축한 미니 프로젝트에 대해 설명합니다. 이들은 ChatGPT를 사용하여 ChatGPT 코드가 엔드포인트로 호출하는 것을 가로채서 JSON 데이터를 저장하는 새로운 JavaScript fetch() 함수를 작성했습니다. 그런 다음 JSON 데이터를 자체 서버에 게시하기 위해 CORS 프록시가 필요했고, Starlette를 사용하여 구축했습니다. 데이터세트 클라우드..

Hacker News 2023.03.31

범용 음성 모델

이 문서는 "범용 음성 모델"이라는 제목의 웹 페이지입니다. 이 문서는 앤드류 로젠버그, 안쿠르 밥나, 부바나 라마바드란 등 이 프로젝트와 문서에 기여한 모든 공동 저자들에게 감사를 표합니다. 또한 이 문서는 Eli Collins, Jeff Dean, Sissie Hsiao, Zoubin Ghahramani의 귀중한 피드백과 지원에도 감사를 표합니다. 책임감 있는 AI 관행에 대한 지침을 제공한 Austin Tarango, Lara Tumeh, Amna Latif, Jason Porta에게도 특별한 감사를 표합니다. 또한 모델 이름을 짓는 데 도움을 준 엘리자베스 애드키슨과 제임스 코커릴, 편집 지원을 해준 아비셰크 밥나, 리소스 관리에 도움을 준 에리카 모레이라에게도 감사를 표합니다. 출판 전략에 대한..

Hacker News 2023.03.30