Author: KangchanRoh
Team: Reinforcement Learning Team @ CAI Lab
Date: 2022/11/30
모델이란
기본적으로 환경(environment)에 대한 모델을 가리킨다.
환경이 행동(action)에 어떻게 반응할 것인 지를 예측하기 위해 학습자가 활용할 수 있는 모든 것.
어떤 상태(state)와 어떤 행동(action)이 주어지면, 환경 모델은 다음 상태와 다음 보상을 예측한다.
즉, $p(s',r|s,a)$이 주어지거나 활용을 하는 지.
하지만 여기서 다음 상태와 다음 보상은 여러가지가 가능하고 각각은 나름의 발생 확률을 가진다.
모델은 크게 다음과 같이 두 종류가 있다.
분포 모델(Distribution Model)
- 모든 가능성을 제공하고 각 가능성에 해당하는 확률을 제공함
- 시뮬레이션된 경험(Simulated Experience)
표본 모델(Sample Model)
- 모든 가능성 중에 확률에 따라 추출(sampling)된 하나의 가능성만을 제공함
- 시뮬레이션(Simulation)
분포 모델은 표본 모델보다 모델을 사용하여 항상 표본을 추출할 수 있다는 점에서 강력하다.
하지만, 많은 실제 사례에서 분포 모델보다는 표본 모델을 얻기가 훨씬 수월하다.
ex) 주사위
주사위를 굴리고 나온 숫자를 더하는 프로그램을 작성하는 것은 쉽지만, 모든 가능한 합계와 각각의 확률을 계산하는 것은 더 어렵고 오류의 가능성이 많음.
강화학습 에이전트 내부에서는 실제 경험이 수행하는 최소한 두 가지 역할이 있다.
- 모델을 향상시키기 위해(모델이 실제 환경을 더 정확하게 모사하도록 하기 위해) 사용
- 강화학습 방법을 이용하여 가치함수(Value Function)와 정책(Policy)을 직접 향상시키기 위해 사용
전자를 모델학습(Model-Learning) 또는 간접적 강화학습(Indirect Reinforcement Learning), 후자를 직접적 강화학습(Direct Reinforcement Learning)이라 한다.
그래서 model-based는 계획(planning)이 중요하고 model-free는 학습(learning)이 중요하다고 한다.
model-based와 model-free 두 방법은 분명한 차이가 존재하지만, 상당히 유사한 부분도 존재한다.
이 두 방법 모두의 핵심은 가치 함수를 계산하는 것이다.
직접적 강화학습(Direct Reinforcement Learning)과 간접적 강화학습 모두 장단점이 있다.
간접적 강화학습(Indirect Reinforcement Learning)은 종종 제한된 경험을 좀 더 충실히 이용해서 환경과 더 적게 상호작용하고도 더 좋은 정책을 획득한다.
반면에, 직접적 강화학습은 훨씬 더 간단하고 모델의 설계에 포함된 편차에 영향을 받지 않는다.
어떤 사람들은 간접적인 방법이 항상 직접적인 방법보다 좋다고 주장하는 반면, 직접적인 방법이 대부분이 인간과 동물의 학습을 담당하고 있다고 주장하며 더 근본적이라는 사람들도 있다.
그러나 견지해야할 관점은 이 모든 model-based vs model-free 논쟁에 등장하는 차이점들이 과열된 상태라는 것이다.
이 두 가지 측면의 서로 반대되는 점보다는 유사한 점을 인지함으로써 더 깊고 많은 통찰을 얻을 수 있다.
'Reinforcement Learning' 카테고리의 다른 글
[RL] Q-Learning and Double Q-Learning (0) | 2023.04.12 |
---|---|
[RL] 순차적 의사결정 문제 정의 단계에서의 POMDP와 MDP 차이 (0) | 2023.03.10 |
[RL] Linear Inverse Reinforcement Learning에 대한 글 (0) | 2022.08.24 |
[RL] Imitation Learning(모방 학습)에 대한 설명 및 정리 (0) | 2022.08.23 |
[RL] DQN을 공부한 당신, 학습코드도 파헤쳐보자! (Car Racing, Gym, PyTorch) (2) | 2022.08.01 |