본문 바로가기

CS/강화 학습

[강화 학습] 2. 강화 학습의 기본 요소 - 1

환경 (Environment)


  • 강화학습에서 학습하려는 대상이나 문제 자체
  • 에이전트를 제외한 모든 것이 환경에 포함됨
  • 예시:
    • 로봇의 미로 탐색 → 미로
    • 자동 주식 트레이딩 → 주식 시장
    • 인공지능 바둑 → 바둑판

환경의 종류

  • 연속 공간(Continuous Space): 현실 세계처럼 연속적으로 이어진 공간
  • 이산 공간(Discrete Space): 연속공간을 바둑판처럼 일정 구간으로 나눈 공간
  • 대부분의 강화학습 연구는 이산공간을 사용하며, 연속공간은 이산공간으로 변환하여 사용함
    • 변환 시 오차가 발생하며, 변환 방법에 따라 문제 난이도가 달라짐
    • 문제를 쉽게 풀기 위해서는 환경을 최대한 단순화해서 정의하는 것이 중요

 

상태 (State, S)


  • 학습하는 주체(에이전트)가 위치하거나 감지하고 있는 상태의 정보
  • 예시:
    • 로봇 미로 탐색 → 로봇의 현재 위치
    • 자동 주식 트레이딩 → 시장의 흐름 및 주식 정보
    • 인공지능 바둑 → 바둑판 위 돌의 배치
  • 상태는 시간에 따라 변할 수 있으며, 특정 시간 t의 상태는 St로 표현
  • 상태는 환경 내 모든 가능한 상태의 집합(S)으로 정의됨

 

에이전트 (Agent)


  • 환경 내에서 행동을 수행하고 이를 통해 학습하는 주체(프로그램 또는 로봇)
  • 예시:
    • 로봇 미로 탐색 → 로봇
    • 자동 주식 트레이딩 → 주식 매매 프로그램
    • 인공지능 바둑 → 바둑을 두는 프로그램

 

행동 (Action, A)


  • 에이전트가 특정 상태(S)에서 수행 가능한 동작
  • 행동을 수행하면 새로운 상태로 이동
  • 행동의 종류와 범위는 미리 정의되어야 하며, 정의되지 않은 행동은 수행할 수 없음
  • 예시:
    • 로봇 미로 탐색 → 상하좌우 이동, 멈춤, 회전
    • 자동 주식 트레이딩 → 주식 매수, 매도
    • 인공지능 바둑 → 착수 위치 선택

상태와 행동의 예시 (3x3 미로)

  • 상태 집합: S = {s0, s1, s2, s3, s4, s5, s6, s7, s8}
  • 행동 집합: A = {a1(상), a2(우), a3(하), a4(좌)}

행동이 정의되지 않으면 해당 문제는 강화학습으로 해결할 수 없음.

 

 

상태 전이 확률 (State Transition Probability, P)


  • 시간 t에서 에이전트가 상태 s에서 행동 a를 취했을 때 다음 상태 s'로 이동할 확률
  • s'은 다음 상태 St+1과 같음
  • 에이전트는 상태 전이 확률을 기반으로 의사결정을 함
  • 상태 하나를 받을 때마다 시간 t가 증가하며 행동 하나를 결정함

수식 사진

환경의 결정론성 여부

  • 결정론적 환경: 특정 행동 시 항상 동일한 상태로 이동 (상태 전이 확률이 항상 1)
  • 확률적 환경: 특정 행동 시 다음 상태가 확률적으로 변동 가능 (상태 전이 확률이 1보다 작음)
    • 예시: 미끄러운 도로에서 직진 시 미끄러질 확률 존재
    • 다중 에이전트 환경에서는 확률적 환경이 자주 발생함

강화학습은 기본적으로 단일 에이전트를 위해 설계됨.