(2025-01-24 9PM)
불과 5일전에 OpenAI O1의 구조가 대략 이럴 것이다. 라는 비디오를 올렸었는데요.
주요 내용은
i. O1 의 구조는 일반적인 LLM 구조와 전혀 다르지 않다. ii. 모델이 CoT, 즉 Reasoning 을 극대화 하도록 RL 을 이용해서 incentivize 를 하면 Instruct Model이 Reasoning Model 이 된다.
그리고, STILL-2, Nova Sky-T1 등의 페이퍼에서 보듯이
충분한 양의 Reasoning Dataset 이 존재하면, 기존의 LLM post-train 방법론인 SFT/DOP 과정을 거쳐서 Instruct Model 을 Reasoning Model 로 바꿀 수 있다는 것을 보여줬음.
“Let there be light, and there was light.” - Genesis
그런데 여기에 크게 빠져 있는 한가지가 있는데요.
Reasoning Dataset 을 QwQ-32B-Reason 을 통해서 생성했다는 것입니다.
그럼 도대체 이 최초의 Reasoning dataset 은 어떻게 만들어졌을까?
하는 부분이 여전히 의문으로 남습니다. (최신모델들이 발표되고 나면 대부분 Model 의 크기/구조, 그리고 Eval 들에 관심이 집중되는데요. 사실 무언가를 배워야 되는 입장에서 중요한 것은 dataset, training 과정이거든요. 핵심은 이 두가지에 다 집중되어 있어요.)
(**https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)