가치 함수
- 강화학습에서 상태나 행동의 가치를 계산하여 가치가 큰 상태나 행동을 선택하는 방식으로 학습
- 상태나 행동의 가치를 수익을 이용해 정량화함
- 각 상태의 가치를 상태가치(State Value), 각 상태에서 가능한 행동의 가치를 행동가치(Action Value) 라고 함
- 상태가치와 행동가치는 모두 기대 수익 G를 통해 계산됨
- 알고리즘에 따라 상태가치나 행동가치만 사용하거나 둘 다 사용하는 경우도 있음
상태가치 함수 (State Value Function)
- 특정 상태 s에서 얻을 수 있는 기대 수익 G의 기댓값
- 상태 s의 상태가치 Vπ(s)는 정책 π를 따를 때 얻을 수 있는 기대 수익을 의미함
- 목표 상태에 가까울수록 상태가치는 높은 값을 가짐
- 도달했을 때의 상태가치와 도달했을 때 앞으로 받게될 보상의 합은 같다고 봐도됨
기댓값 (Expectation)
- 각 사건이 일어날 확률과 그 사건이 발생했을 때의 보상을 곱하여 모든 사건에 대해 더한 값
- 확률적 사건에서 얻을 수 있는 보상의 평균이라고 이해 가능
벨만 방정식 (Bellman Equation)
- 특정 시간 t에서 상태 st의 상태가치 Vπ(st)와 다음 상태 st+1의 상태가치 V π (st+1) 사이의 관계를 수식으로 표현한 것
- 강화학습 문제를 푸는 것은 벨만 방정식을 푸는 것과 동일
- 결정론적 환경에서는 행동 선택 시 다음 상태로의 전이 확률이 항상 1이 됨
행동가치 함수
- 어떤 상태 s에서 어떤 행동 a를 했을 때 얻을 수 있는 수익의 총합을 의미함
- 행동가치는 Qπ(s, a)로 표현됨
- 특정 상태에서 선택 가능한 모든 행동 각각에 대해 예측되는 보상을 수치로 평가
- 행동가치는 각 행동에 대해 계산되므로 상태가치보다 더 많은 정보를 제공
- 특정 상태에서 어떤 행동이 가장 유리한지를 결정하는 데 핵심적인 역할
- 행동가치는 단일 행동에 대한 평가로, 행동 선택의 기준이 됨
- 예: 미로 환경에서 어떤 방향으로 이동할지 선택 시 활용
행동가치와 상태가치의 관계
- 행동가치와 상태가치는 의미는 다르지만 서로 밀접한 관계를 가짐
- 행동가치는 다음 상태 s'의 상태가치 Vπ(s')를 바탕으로 계산 가능
- 상태가치 함수와 행동가치 함수는 서로 참조하여 계산될 수 있음
- 행동가치 함수와 상태가치 함수 모두 학습을 할수록 값은 수렴하지 않음
- 두 함수의 수식 구조도 유사함
'CS > 강화 학습' 카테고리의 다른 글
[강화 학습] 3. 강화 학습의 기본 요소 - 2 (0) | 2025.03.08 |
---|---|
[강화 학습] 2. 강화 학습의 기본 요소 - 1 (0) | 2025.03.07 |
[강화 학습] 1. 인공지능이란 (0) | 2025.03.06 |