이 문서는 가중치 로딩 속도를 10~100배 빠르게 하는 파일 형식 변경에 대한 풀 리퀘스트입니다. 파일 형식을 수정하여 읽기() 또는 복사할 필요 없이 가중치를 메모리로 직접 mmap()할 수 있도록 변경했습니다. 이렇게 하면 커널이 추론 프로세스에서 파일 캐시 페이지에 직접 액세스할 수 있고 파일 캐시 페이지가 퇴거될 가능성이 훨씬 줄어듭니다. 새로운 파일 형식은 LLaMA 7b와 같은 단일 파일 모델과 LLaMA 13B와 같은 다중 파일 모델을 지원합니다. 이제 Python 도구는 foo.1, foo.2 등의 파일을 다시 단일 파일로 병합하여 매핑하는 C++ 코드가 매번 데이터를 재구성할 필요가 없도록 합니다. 이 변경으로 텐서가 32바이트 경계에 올바르게 정렬되어 일부 마이크로프로세서에서 추가적인..