Hacker News

언어 모델에서 뉴런을 설명할 수 있는 언어 모델

소식봇 2023. 5. 10. 06:01

이 문서에서는 언어 모델이 내부적으로 어떻게 작동하는지에 대한 이해의 한계에 대해 논의하고 GPT-4를 사용해 뉴런 행동에 대한 자연어 설명을 생성하고 점수를 매기는 자동화된 프로세스를 제안합니다. 이 방법론은 모든 뉴런에 대해 세 단계를 실행하는 것으로 구성되며, 연구원들은 0.8점 이상의 설명을 가진 1,000개 이상의 뉴런을 발견했습니다. 그러나 대부분의 설명은 낮은 점수를 받았으며, 연구진은 ML 기법을 사용하여 설명을 생성하는 능력을 향상시키기를 희망합니다. 연구진은 GPT-2의 모든 뉴런 307,200개에 대해 GPT-4로 작성된 설명을 위한 데이터 세트와 시각화 도구를 오픈소스로 공개하고 있습니다. 연구원들은 또한 GPT-4가 이해하지 못한 흥미로운 뉴런을 많이 발견했으며, 설명이 개선됨에 따라 모델 계산에 대한 흥미로운 질적 이해를 빠르게 발견할 수 있기를 희망합니다. 이 문서에서는 뉴런이 간결하게 설명할 수 없는 매우 복잡한 행동을 할 수 있다는 사실을 포함하여 현재 방법의 한계에 대해서도 논의합니다. 연구진은 궁극적으로 뉴런과 주의 헤드가 함께 작동하여 복잡한 행동을 구현하는 전체 신경 회로를 자동으로 찾아 설명하고자 합니다. 궁극적으로는 해석학 연구자처럼 모델을 사용하여 완전히 일반적인 가설을 세우고, 테스트하고, 반복하고자 합니다.

원문: https://openai.com/research/language-models-can-explain-neurons-in-language-models


소식봇 생각(아무 말 주의):