본문 바로가기

CS/강화 학습

[강화 학습] 3. 강화 학습의 기본 요소 - 2

보상 (Reward)


  • 에이전트가 취한 행동에 대해 환경으로부터 좋고 나쁨의 평가를 수치적으로 받는 것
  • 잘했으면 (+) 보상, 잘못했으면 (-) 보상을 받음
  • 상태 st에서 행동 at를 수행하면 환경으로부터 에이전트의 행동을 평가받고, 보상 rt+1을 받음
    • 보상이 rt+1 인 이유는 에이전트가 상태 s에서 s'로 이동한 후 행동 평가가 이루어지기 때문
  • 에이전트는 의사결정만 하고 실제 행동 실행은 환경에서 이루어짐
    • 예시: 자율주행 자동차의 경우 의사결정은 AI가, 움직임은 자동차(환경)가 수행
  • 보상값의 절대적인 크기보다 상대적인 크기가 중요
    • 보상이 한 가지 종류라면 1이나 100이나 10000이나 결과적으로 동일함
  • 강화학습에서 보상값 설정은 매우 중요하며, 이론적으로 정립된 방식이 없음
  • 행동 선택은 상태 자체가 아닌 보상값에 따라 이루어짐
  • 강화 학습에서 에이전트는 받는 보상을 통해 직전에 선택한 행동의 좋고 나쁨을 알 수 있음
  • 일반적으로 하나의 보상값만 사용하는 것이 좋음 (2개 이상 사용하면 고려 요소가 많아져 결과가 나빠질 수 있음)
  • 목표 달성 시 보상값을 가장 크게 설정하고, 그 외 행동에는 적절한 음의 보상(-)을 부여하는 것이 일반적임
    • 예: 미로 내 이동 행동에 대한 음의 보상이 없으면 학습시간이 길어짐
    • 목표 달성 보상(+1)과 이동 행동 보상(-1)의 비율은 독립적이며 고려할 필요가 없음
    • 범위를 벗어난 행동에 음의 보상을 주어 학습을 지속하는 것이 효율적
      사진

 

백업 다이어그램


  • 상태, 행동, 다음 상태 간의 관계를 나타내는 그림
  • 강화학습 알고리즘 설명에 자주 사용됨
  • 정상 상태는 빈 원, 종료 상태(목표 도달 혹은 실패)는 네모, 행동은 검은 점으로 표시
    사진

 

수익 (Return, G)


  • 시간 ( t )에서 에이전트가 이후 행동을 계속 수행하며 얻는 보상의 총합
  • 무한 반복 시 모든 경우의 보상 총합이 무한대가 되므로 감가율 γ를 사용하여 미래 보상의 가치를 조정함
    • 감가율 γ가 0에 가까울수록 즉각적 보상을 중요시
    • 감가율 γ가 1에 가까울수록 먼 미래의 보상까지 고려, 미래의 가치가 지금의 수익에 반영된다는 의미
  • 에이전트는 주어진 상태에서 가장 큰 수익을 가져다주는 행동을 학습
    사진

 

정책 (Policy)


  • 에이전트가 특정 상태에서 어떤 행동을 선택할지 결정하는 기준
  • 정책 π는 시간 t 에서 상태 s일 때 행동 a를 선택할 확률
  • 강화학습의 가장 중요한 목표는 최적 정책을 찾는 것
    • 최적 정책: 수익 G가 최대가 되는 행동을 선택하는 정책
    • 학습을 많이 할수록 최적의 정책을 찾게 되며 이는 수학적으로 증명됨
      사진

 

에피소드 (Episode)


  • 초기 상태에서 시작해 성공(목표 상태 도달)이나 실패로 종료될 때까지의 일련의 과정
  • 종료 상태가 존재하는 경우와 무한 반복되는 경우가 있음
  • 강화학습은 하나의 에피소드로 끝나지 않고 다수의 에피소드를 통해 학습 진행 학습 단위
    사진

 

마르코프 의사결정 과정 (MDP)


  • 강화학습 문제는 마르코프 의사결정 과정(MDP)으로 정의됨
  • MDP는 상태, 행동, 상태 전이 확률, 보상, 감가율로 구성됨
  • 강화학습 문제는 반드시 MDP로 정의 가능해야만 해결 가능
    사진