ddoryella 님의 블로그

[AI 논문 리뷰] 쉽게 풀어보는 AI 혁신 논문: 인간 피드백으로 진화한 AI, 'InstructGPT' 리뷰 본문

AI과학정보/AI관련 연구리뷰

[AI 논문 리뷰] 쉽게 풀어보는 AI 혁신 논문: 인간 피드백으로 진화한 AI, 'InstructGPT' 리뷰

ddoryella 2025. 2. 3. 14:44
728x90

📖 쉽게 이해하는 리뷰:

"InstructGPT: Training Language Models to Follow Instructions with Human Feedback"

AI가 인간의 지시를 더 잘 따르고, 친절하게 응답할 수 있도록 훈련된 방법

출처:  InstructGPT: Training Language Models to Follow Instructions with Human Feedback, arXiv:2203.02155

 

◈ 요약

2022년에 발표된 InstructGPT 논문은 GPT-3의 한계를 극복하기 위해, 인간의 피드백을 활용한 AI 모델 훈련 방식을 제안했습니다. GPT-3는 강력했지만, 종종 비논리적인 답변을 내놓거나 사용자 의도를 제대로 이해하지 못하는 문제가 있었습니다.
InstructGPT는 "더 친절하고, 더 정확하며, 인간의 지시를 더 잘 따르는 AI" 를 목표로, 강화학습(RLHF, Reinforcement Learning from Human Feedback) 을 활용한 새로운 학습 방식을 도입했습니다. 쉽게 말해, "GPT-3가 말을 더 잘 듣게 하려면 어떻게 해야 할까?" 를 연구한 논문입니다. 

 

◈ 핵심 아이디어

 강화학습을 활용한 인간 피드백 (RLHF)

GPT-3는 엄청난 데이터를 학습했지만, 정답을 확신할 수 없거나 엉뚱한 답변을 내놓는 경우가 많았습니다.
이를 개선하기 위해 OpenAI는 강화학습(RLHF) 을 적용했습니다.

  • 단계 1: GPT-3를 미세 조정(Fine-tuning)
    → 먼저, 기존 GPT-3를 다양한 지시(instructions)에 맞게 추가 학습시킵니다.
  • 단계 2: 인간 피드백 데이터 수집
    → 사람들에게 여러 AI 답변을 보여주고, 어떤 답변이 더 좋은지 랭킹을 매기도록 요청합니다.
  • 단계 3: 강화학습 적용
    → 인간이 평가한 데이터를 활용해 보상을 최적화하는 방식으로 모델을 개선합니다.

결과적으로, InstructGPT는 사용자 질문에 대해 더 정돈되고, 신뢰할 수 있으며, 인간 친화적인 응답을 생성할 수 있게 되었습니다!

 더 작은 모델이 더 나은 성능을 발휘

놀랍게도, InstructGPT(175B)는 원래 GPT-3보다 더 작은 모델(1.3B, 6B 등)에서도 성능이 뛰어나다는 결과가 나왔습니다.
왜냐하면, AI가 "정확한 답변을 생성하는 법"을 배우는 것이, 단순히 더 큰 모델을 훈련하는 것보다 효율적이기 때문입니다.

이 실험 결과는, 미래 AI 연구에서 모델 크기를 무조건 키우기보다 "효율적인 학습 방법"이 더 중요하다는 점을 시사합니다.

 AI의 유해한 콘텐츠 생성 방지 개선

기존 GPT-3는 편향(Bias), 거짓 정보, 유해한 콘텐츠(예: 혐오 발언) 생성 문제가 있었습니다.
InstructGPT는 이를 해결하기 위해 사용자 피드백을 통해 "도움이 되는" 답변을 선호하도록 학습했습니다.

실제로 실험 결과, InstructGPT는 다음과 같은 성능 향상을 보였습니다.

  • 더 적은 편향(Bias) 표현
  • 허위 정보 생성 감소
  • 더 명확한 문장 표현

즉, InstructGPT는 단순한 AI 챗봇이 아니라 인간과 협력할 수 있는 "도우미" 역할을 하게 되었습니다!

그림 1: 위 그래프는 AI 모델들이 생성한 응답을 인간이 얼마나 선호했는지를 비교한 결과를 보여줍니다.특히, InstructGPT 모델(PPO-ptx 및 PPO)이 기존 GPT-3 모델(GPT, GPT Prompted)보다 훨씬 높은 평가를 받았음을 알 수 있습니다. 흥미로운 점은, 175B(1750억 개의 파라미터)를 가진 기존 GPT-3보다, 1.3B(13억 개의 파라미터)만 가진 InstructGPT 모델이 더 선호되었다는 점입니다.즉, 단순히 모델 크기를 키우는 것보다, 인간의 피드백을 활용한 학습(RLHF)이 더 효과적일 수 있음을 시사합니다.
그림 2: (InstructGPT 훈련 과정의 3단계) 위 그림은 InstructGPT가 인간의 피드백을 활용하여 학습하는 과정을 세 단계로 정리한 다이어그램입니다. 먼저, 지도학습(SFT, Supervised Fine-Tuning) 단계에서는 기존 GPT-3 모델을 기반으로 사람이 작성한 정답 데이터를 활용하여 초기 학습을 진행합니다. 두 번째 단계에서는 보상 모델(RM, Reward Model)을 훈련합니다. AI가 생성한 여러 개의 답변을 사람이 평가하여, 어떤 답변이 더 좋은지 학습할 수 있도록 보상 모델을 구축합니다. 세 번째 단계에서는 강화학습(PPO, Proximal Policy Optimization)을 적용하여, 보상 모델을 활용해 AI가 더 높은 평가를 받을 수 있도록 답변을 최적화합니다. 또한, 파란색 화살표는 각 단계에서 사용되는 학습 데이터의 흐름을 나타냅니다.

◈ 왜 중요할까요? 

1. AI가 "더 똑똑한 조력자"가 되다

InstructGPT는 AI가 단순히 언어를 생성하는 것이 아니라, 사용자의 의도를 정확히 파악하고 "올바른" 답변을 줄 수 있도록 발전했음을 보여줍니다.

 2. ChatGPT의 탄생 배경

이 논문은 이후 ChatGPT의 근본적인 토대가 되었습니다. 현재 우리가 사용하는 AI 챗봇들은 InstructGPT의 학습 방법을 기반으로 설계된 것입니다.

3. 대규모 AI 모델의 한계를 넘다

GPT-3보다 작은 모델이라도 효과적으로 학습시키면 더 좋은 성능을 낼 수 있다는 점을 증명했습니다.
즉, 미래 AI는 무조건 크기를 키우기보다 "효율적인 훈련 방법"이 핵심이 될 가능성이 커졌습니다.

 

◈ 한계점은?

1. 여전히 데이터 편향(Bias) 문제

AI가 인간 피드백을 학습한다고 해도, 사람이 평가한 데이터 자체가 편향될 가능성이 있습니다.
즉, 잘못된 피드백이 많으면 AI도 그만큼 왜곡될 수 있습니다.

2. 높은 학습 비용

InstructGPT의 학습 과정에는 많은 인적·기술적 자원이 필요합니다.

  • GPT-3보다 더 복잡한 훈련 과정
  • 사람이 직접 데이터를 평가해야 하므로, 비용이 많이 듦

3. 완벽하지 않은 이해 능력

AI가 인간처럼 사고하는 것은 아니기 때문에, "진짜 이해"를 한다기보다는, 학습된 패턴을 따라가는 수준입니다.

 

◈ 결론

InstructGPT는 GPT-3의 단점을 보완하면서, AI가 더 인간 친화적으로 발전하는 중요한 전환점이 되었습니다. 특히 강화학습(RLHF)을 적용하여, 인간의 지시를 더 잘 따르고 정확한 답변을 제공하는 방식을 도입했다는 점에서 큰 의미가 있습니다.

이 기술은 이후 ChatGPT, GPT-4 같은 대화형 AI 모델의 핵심적인 기반이 되었으며, AI가 단순한 자동 응답기가 아니라, "도움이 되는" 도구로 발전할 가능성을 열었습니다. 즉, InstructGPT는 "AI가 인간과 더 잘 협력하는 미래"의 시작을 보여준 논문입니다! 

728x90