이 문서는 Suno가 만든 트랜스포머 기반 텍스트-오디오 변환 모델인 Bark에 관한 문서입니다. Bark는 매우 사실적인 다국어 음성뿐만 아니라 음악, 배경 소음, 간단한 음향 효과 등 기타 오디오를 생성할 수 있습니다. 이 모델은 웃음, 한숨, 울음과 같은 비언어적 커뮤니케이션도 생성할 수 있습니다. Bark는 기본적으로 다양한 언어를 지원하며 입력 텍스트에서 자동으로 언어를 결정합니다. 이 모델은 모든 유형의 오디오를 생성할 수 있으며, 원칙적으로 음성과 음악의 차이를 인식하지 못합니다. Bark는 톤, 음정, 감정, 운율 등 음성을 완벽하게 복제할 수 있는 기능을 갖추고 있습니다. 또한 이 모델은 입력 오디오에서 음악, 주변 소음 등을 보존하려고 시도합니다. Bark는 GPT 스타일 모델을 사용하..