(2025-01-24 9PM)

지난 에피소드 요약

불과 5일전에 OpenAI O1의 구조가 대략 이럴 것이다. 라는 비디오를 올렸었는데요.

주요 내용은

i. O1 의 구조는 일반적인 LLM 구조와 전혀 다르지 않다. ii. 모델이 CoT, 즉 Reasoning 을 극대화 하도록 RL 을 이용해서 incentivize 를 하면 Instruct Model이 Reasoning Model 이 된다.

그리고, STILL-2, Nova Sky-T1 등의 페이퍼에서 보듯이

충분한 양의 Reasoning Dataset 이 존재하면, 기존의 LLM post-train 방법론인 SFT/DOP 과정을 거쳐서 Instruct Model 을 Reasoning Model 로 바꿀 수 있다는 것을 보여줬음.

“Let there be light, and there was light.” - Genesis

그런데 여기에 크게 빠져 있는 한가지가 있는데요.

Reasoning Dataset 을 QwQ-32B-Reason 을 통해서 생성했다는 것입니다.

그럼 도대체 이 최초의 Reasoning dataset 은 어떻게 만들어졌을까?

하는 부분이 여전히 의문으로 남습니다. (최신모델들이 발표되고 나면 대부분 Model 의 크기/구조, 그리고 Eval 들에 관심이 집중되는데요. 사실 무언가를 배워야 되는 입장에서 중요한 것은 dataset, training 과정이거든요. 핵심은 이 두가지에 다 집중되어 있어요.)

**이번주에 드디어 Deepseek-R1 의 페이퍼가 공개되었습니다.

(**https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)