환경 (Environment)
- 강화학습에서 학습하려는 대상이나 문제 자체
- 에이전트를 제외한 모든 것이 환경에 포함됨
- 예시:
- 로봇의 미로 탐색 → 미로
- 자동 주식 트레이딩 → 주식 시장
- 인공지능 바둑 → 바둑판
환경의 종류
- 연속 공간(Continuous Space): 현실 세계처럼 연속적으로 이어진 공간
- 이산 공간(Discrete Space): 연속공간을 바둑판처럼 일정 구간으로 나눈 공간
- 대부분의 강화학습 연구는 이산공간을 사용하며, 연속공간은 이산공간으로 변환하여 사용함
- 변환 시 오차가 발생하며, 변환 방법에 따라 문제 난이도가 달라짐
- 문제를 쉽게 풀기 위해서는 환경을 최대한 단순화해서 정의하는 것이 중요
상태 (State, S)
- 학습하는 주체(에이전트)가 위치하거나 감지하고 있는 상태의 정보
- 예시:
- 로봇 미로 탐색 → 로봇의 현재 위치
- 자동 주식 트레이딩 → 시장의 흐름 및 주식 정보
- 인공지능 바둑 → 바둑판 위 돌의 배치
- 상태는 시간에 따라 변할 수 있으며, 특정 시간 t의 상태는 St로 표현
- 상태는 환경 내 모든 가능한 상태의 집합(S)으로 정의됨
에이전트 (Agent)
- 환경 내에서 행동을 수행하고 이를 통해 학습하는 주체(프로그램 또는 로봇)
- 예시:
- 로봇 미로 탐색 → 로봇
- 자동 주식 트레이딩 → 주식 매매 프로그램
- 인공지능 바둑 → 바둑을 두는 프로그램
행동 (Action, A)
- 에이전트가 특정 상태(S)에서 수행 가능한 동작
- 행동을 수행하면 새로운 상태로 이동
- 행동의 종류와 범위는 미리 정의되어야 하며, 정의되지 않은 행동은 수행할 수 없음
- 예시:
- 로봇 미로 탐색 → 상하좌우 이동, 멈춤, 회전
- 자동 주식 트레이딩 → 주식 매수, 매도
- 인공지능 바둑 → 착수 위치 선택
상태와 행동의 예시 (3x3 미로)
- 상태 집합:
S = {s0, s1, s2, s3, s4, s5, s6, s7, s8} - 행동 집합:
A = {a1(상), a2(우), a3(하), a4(좌)}
행동이 정의되지 않으면 해당 문제는 강화학습으로 해결할 수 없음.
상태 전이 확률 (State Transition Probability, P)
- 시간 t에서 에이전트가 상태 s에서 행동 a를 취했을 때 다음 상태 s'로 이동할 확률
- s'은 다음 상태 St+1과 같음
- 에이전트는 상태 전이 확률을 기반으로 의사결정을 함
- 상태 하나를 받을 때마다 시간 t가 증가하며 행동 하나를 결정함
수식 사진
환경의 결정론성 여부
- 결정론적 환경: 특정 행동 시 항상 동일한 상태로 이동 (상태 전이 확률이 항상 1)
- 확률적 환경: 특정 행동 시 다음 상태가 확률적으로 변동 가능 (상태 전이 확률이 1보다 작음)
- 예시: 미끄러운 도로에서 직진 시 미끄러질 확률 존재
- 다중 에이전트 환경에서는 확률적 환경이 자주 발생함
강화학습은 기본적으로 단일 에이전트를 위해 설계됨.
'CS > 강화 학습' 카테고리의 다른 글
| [강화 학습] 4. 가치 함수 (0) | 2025.03.11 |
|---|---|
| [강화 학습] 3. 강화 학습의 기본 요소 - 2 (0) | 2025.03.08 |
| [강화 학습] 1. 인공지능이란 (0) | 2025.03.06 |