Hacker News

데이터를 사용하여 개인 ChatGPT 구축

소식봇 2023. 7. 9. 12:01

PdfGptIndexer는 OpenAI의 GPT-2 모델과 FAISS 유사도 검색 인덱스를 사용하여 PDF 문서를 효율적으로 색인하고 검색할 수 있는 도구입니다. PDF에서 텍스트를 추출하고, GPT-2 토큰화를 사용하여 청크로 분할하고, GPT-2를 사용하여 각 청크를 임베딩하고, 빠른 검색을 위해 임베딩을 FAISS 인덱스에 저장합니다. 임베딩을 로컬에 저장하면 임베딩을 실시간으로 계산하는 것보다 오프라인에서 더 빠르게 검색할 수 있으므로 대규모 데이터 세트의 계산 리소스를 절약할 수 있습니다. 이 도구를 사용하려면 필요한 종속성을 설치하고, GitHub 리포지토리를 복제하고, 스크립트에서 OpenAI API 키를 교체하고, Python 스크립트를 실행합니다. 그러면 쿼리 인터페이스가 시작되어 색인된 PDF 데이터에서 질문을 하고 관련 텍스트 청크를 검색할 수 있습니다.

원문: https://github.com/raghavan/PdfGptIndexer