CS/강화 학습 (4) 썸네일형 리스트형 [강화 학습] 4. 가치 함수 가치 함수강화학습에서 상태나 행동의 가치를 계산하여 가치가 큰 상태나 행동을 선택하는 방식으로 학습상태나 행동의 가치를 수익을 이용해 정량화함각 상태의 가치를 상태가치(State Value), 각 상태에서 가능한 행동의 가치를 행동가치(Action Value) 라고 함상태가치와 행동가치는 모두 기대 수익 G를 통해 계산됨알고리즘에 따라 상태가치나 행동가치만 사용하거나 둘 다 사용하는 경우도 있음 상태가치 함수 (State Value Function)특정 상태 s에서 얻을 수 있는 기대 수익 G의 기댓값상태 s의 상태가치 Vπ(s)는 정책 π를 따를 때 얻을 수 있는 기대 수익을 의미함목표 상태에 가까울수록 상태가치는 높은 값을 가짐도달했을 때의 상태가치와 도달했을 때 앞으로 받게될 보상의 합은 같다고 봐.. [강화 학습] 3. 강화 학습의 기본 요소 - 2 보상 (Reward)에이전트가 취한 행동에 대해 환경으로부터 좋고 나쁨의 평가를 수치적으로 받는 것잘했으면 (+) 보상, 잘못했으면 (-) 보상을 받음상태 st에서 행동 at를 수행하면 환경으로부터 에이전트의 행동을 평가받고, 보상 rt+1을 받음보상이 rt+1 인 이유는 에이전트가 상태 s에서 s'로 이동한 후 행동 평가가 이루어지기 때문에이전트는 의사결정만 하고 실제 행동 실행은 환경에서 이루어짐예시: 자율주행 자동차의 경우 의사결정은 AI가, 움직임은 자동차(환경)가 수행보상값의 절대적인 크기보다 상대적인 크기가 중요보상이 한 가지 종류라면 1이나 100이나 10000이나 결과적으로 동일함강화학습에서 보상값 설정은 매우 중요하며, 이론적으로 정립된 방식이 없음행동 선택은 상태 자체가 아닌 보상값에 .. [강화 학습] 2. 강화 학습의 기본 요소 - 1 환경 (Environment)강화학습에서 학습하려는 대상이나 문제 자체에이전트를 제외한 모든 것이 환경에 포함됨예시:로봇의 미로 탐색 → 미로자동 주식 트레이딩 → 주식 시장인공지능 바둑 → 바둑판환경의 종류연속 공간(Continuous Space): 현실 세계처럼 연속적으로 이어진 공간이산 공간(Discrete Space): 연속공간을 바둑판처럼 일정 구간으로 나눈 공간대부분의 강화학습 연구는 이산공간을 사용하며, 연속공간은 이산공간으로 변환하여 사용함변환 시 오차가 발생하며, 변환 방법에 따라 문제 난이도가 달라짐문제를 쉽게 풀기 위해서는 환경을 최대한 단순화해서 정의하는 것이 중요 상태 (State, S)학습하는 주체(에이전트)가 위치하거나 감지하고 있는 상태의 정보예시:로봇 미로 탐색 → 로봇의 .. [강화 학습] 1. 인공지능이란 인공지능의 종류강인공지능인간의 지능을 완전히 구현한 형태영화 『터미네이터』, 『바이센테니얼 맨』의 로봇처럼 자율적인 사고와 감정을 가진 인공지능약인공지능특정 작업을 수행하거나 인간의 작업을 보조하는 형태예: 추천 시스템, 음성 인식 시스템, 알파고 등 머신러닝 (Machine Learning)개요인공지능의 하위 분야로, 데이터를 활용해 목적에 맞는 규칙을 찾거나 미래를 예측하는 기술활용 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등주요 학습 방법: 지도학습, 비지도학습, 강화학습지도학습 (Supervised Learning)사전에 문제와 정답(라벨)이 쌍으로 구성된 데이터셋을 통해 학습반복적인 학습으로 예측 정확도를 높이며, 학습 후 새로운 데이터의 분류 및 예측 가능데이터셋 구성:Tr.. 이전 1 다음