본문 바로가기

CS/강화 학습

[강화 학습] 4. 가치 함수

tkxx_ls 2025. 3. 11. 23:52

가치 함수

강화학습에서 상태나 행동의 가치를 계산하여 가치가 큰 상태나 행동을 선택하는 방식으로 학습
상태나 행동의 가치를 수익을 이용해 정량화함
각 상태의 가치를 상태가치(State Value), 각 상태에서 가능한 행동의 가치를 행동가치(Action Value) 라고 함
상태가치와 행동가치는 모두 기대 수익 G를 통해 계산됨
알고리즘에 따라 상태가치나 행동가치만 사용하거나 둘 다 사용하는 경우도 있음

상태가치 함수 (State Value Function)

특정 상태 s에서 얻을 수 있는 기대 수익 G의 기댓값
상태 s의 상태가치 Vπ(s)는 정책 π를 따를 때 얻을 수 있는 기대 수익을 의미함
목표 상태에 가까울수록 상태가치는 높은 값을 가짐
도달했을 때의 상태가치와 도달했을 때 앞으로 받게될 보상의 합은 같다고 봐도됨

기댓값 (Expectation)

각 사건이 일어날 확률과 그 사건이 발생했을 때의 보상을 곱하여 모든 사건에 대해 더한 값
확률적 사건에서 얻을 수 있는 보상의 평균이라고 이해 가능

벨만 방정식 (Bellman Equation)

특정 시간 t에서 상태 st의 상태가치 Vπ(st)와 다음 상태 st+1의 상태가치 V π (st+1) 사이의 관계를 수식으로 표현한 것
강화학습 문제를 푸는 것은 벨만 방정식을 푸는 것과 동일
결정론적 환경에서는 행동 선택 시 다음 상태로의 전이 확률이 항상 1이 됨

행동가치 함수

어떤 상태 s에서 어떤 행동 a를 했을 때 얻을 수 있는 수익의 총합을 의미함
행동가치는 Qπ(s, a)로 표현됨
특정 상태에서 선택 가능한 모든 행동 각각에 대해 예측되는 보상을 수치로 평가
행동가치는 각 행동에 대해 계산되므로 상태가치보다 더 많은 정보를 제공
특정 상태에서 어떤 행동이 가장 유리한지를 결정하는 데 핵심적인 역할
행동가치는 단일 행동에 대한 평가로, 행동 선택의 기준이 됨
예: 미로 환경에서 어떤 방향으로 이동할지 선택 시 활용

행동가치와 상태가치의 관계

행동가치와 상태가치는 의미는 다르지만 서로 밀접한 관계를 가짐
행동가치는 다음 상태 s'의 상태가치 Vπ(s')를 바탕으로 계산 가능
상태가치 함수와 행동가치 함수는 서로 참조하여 계산될 수 있음
행동가치 함수와 상태가치 함수 모두 학습을 할수록 값은 수렴하지 않음
두 함수의 수식 구조도 유사함

'CS > 강화 학습' 카테고리의 다른 글

[강화 학습] 3. 강화 학습의 기본 요소 - 2 (0)	2025.03.08
[강화 학습] 2. 강화 학습의 기본 요소 - 1 (0)	2025.03.07
[강화 학습] 1. 인공지능이란 (0)	2025.03.06

티스토리툴바