이 문서에서는 고해상도 비디오 합성을 위한 추상 잠재 확산 모델(LDM)의 사용에 대해 설명합니다. LDM 패러다임은 압축된 저차원 잠재 공간에서 확산 모델을 훈련하는 데 사용되며, 이 모델은 비디오 생성으로 확장됩니다. 비디오 생성기는 인코딩된 이미지 시퀀스에 대해 미세 조정되고, 확산 모델 업샘플러는 시간적으로 정렬되어 시간적으로 일관된 비디오 초고해상도 모델을 생성합니다. 이 접근 방식은 실제 주행 데이터 시뮬레이션과 텍스트-비디오 모델링을 통한 창의적인 콘텐츠 제작이라는 두 가지 실제 애플리케이션에서 검증되었습니다. 비디오 LDM은 해상도 512 x 1024의 실제 주행 비디오에서 최첨단 성능을 발휘하는 것으로 나타났습니다. 이 접근 방식은 개인화된 텍스트-비디오 생성에도 사용할 수 있습니다. 이..