본문 바로가기

CS/강화 학습

[강화 학습] 4. 가치 함수

가치 함수


  • 강화학습에서 상태나 행동의 가치를 계산하여 가치가 큰 상태나 행동을 선택하는 방식으로 학습
  • 상태나 행동의 가치를 수익을 이용해 정량화함
  • 각 상태의 가치를 상태가치(State Value), 각 상태에서 가능한 행동의 가치를 행동가치(Action Value) 라고 함
  • 상태가치와 행동가치는 모두 기대 수익 G를 통해 계산됨
  • 알고리즘에 따라 상태가치나 행동가치만 사용하거나 둘 다 사용하는 경우도 있음

 

상태가치 함수 (State Value Function)


  • 특정 상태 s에서 얻을 수 있는 기대 수익 G의 기댓값
  • 상태 s의 상태가치 Vπ(s)는 정책 π를 따를 때 얻을 수 있는 기대 수익을 의미함
  • 목표 상태에 가까울수록 상태가치는 높은 값을 가짐
  • 도달했을 때의 상태가치와 도달했을 때 앞으로 받게될 보상의 합은 같다고 봐도됨

 

기댓값 (Expectation)


  • 각 사건이 일어날 확률과 그 사건이 발생했을 때의 보상을 곱하여 모든 사건에 대해 더한 값
  • 확률적 사건에서 얻을 수 있는 보상의 평균이라고 이해 가능

 

벨만 방정식 (Bellman Equation)


  • 특정 시간 t에서 상태 st의 상태가치 Vπ(st)와 다음 상태 st+1의 상태가치 V π (st+1) 사이의 관계를 수식으로 표현한 것
  • 강화학습 문제를 푸는 것은 벨만 방정식을 푸는 것과 동일
  • 결정론적 환경에서는 행동 선택 시 다음 상태로의 전이 확률이 항상 1이 됨

 

행동가치 함수


  • 어떤 상태 s에서 어떤 행동 a를 했을 때 얻을 수 있는 수익의 총합을 의미함
  • 행동가치는 Qπ(s, a)로 표현됨
  • 특정 상태에서 선택 가능한 모든 행동 각각에 대해 예측되는 보상을 수치로 평가
  • 행동가치는 각 행동에 대해 계산되므로 상태가치보다 더 많은 정보를 제공
  • 특정 상태에서 어떤 행동이 가장 유리한지를 결정하는 데 핵심적인 역할
  • 행동가치는 단일 행동에 대한 평가로, 행동 선택의 기준이 됨
  • 예: 미로 환경에서 어떤 방향으로 이동할지 선택 시 활용

 

행동가치와 상태가치의 관계


  • 행동가치와 상태가치는 의미는 다르지만 서로 밀접한 관계를 가짐
  • 행동가치는 다음 상태 s'의 상태가치 Vπ(s')를 바탕으로 계산 가능
  • 상태가치 함수와 행동가치 함수는 서로 참조하여 계산될 수 있음
  • 행동가치 함수와 상태가치 함수 모두 학습을 할수록 값은 수렴하지 않음
  • 두 함수의 수식 구조도 유사함