본문 바로가기

CS/강화 학습

[강화 학습] 1. 인공지능이란

인공지능의 종류


강인공지능

  • 인간의 지능을 완전히 구현한 형태
  • 영화 『터미네이터』, 『바이센테니얼 맨』의 로봇처럼 자율적인 사고와 감정을 가진 인공지능

약인공지능

  • 특정 작업을 수행하거나 인간의 작업을 보조하는 형태
  • 예: 추천 시스템, 음성 인식 시스템, 알파고 등

 

머신러닝 (Machine Learning)


개요

  • 인공지능의 하위 분야로, 데이터를 활용해 목적에 맞는 규칙을 찾거나 미래를 예측하는 기술
  • 활용 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등
  • 주요 학습 방법: 지도학습, 비지도학습, 강화학습

지도학습 (Supervised Learning)

  • 사전에 문제와 정답(라벨)이 쌍으로 구성된 데이터셋을 통해 학습
  • 반복적인 학습으로 예측 정확도를 높이며, 학습 후 새로운 데이터의 분류 및 예측 가능
  • 데이터셋 구성:
    • Training Data: 학습에 사용되는 데이터
    • Test Data: 성능 평가에 사용되는 데이터
  • 대표 알고리즘: Decision Tree, Neural Network, Linear Regression, SVM 등

비지도학습 (Unsupervised Learning)

  • 정답(라벨)이 주어지지 않은 상태에서 데이터 내의 숨겨진 규칙이나 구조를 찾는 학습 방법
  • 대표 알고리즘: 주성분 분석(PCA), 군집화(Clustering, 예: K-Means), 자기조직화 지도(SOM)

강화학습 (Reinforcement Learning)

  • 보상(Reward)과 벌칙(Punishment)을 정의하고 시행착오를 통해 최적의 행동을 학습하는 방식
  • 학습에 필요한 정답이 전혀 없으며, 스스로 환경과 상호작용하며 학습
  • 보상이 이용할 수 있는 유일한 정보이기 때문에 적절한 보상 체계 설계가 매우 중요
  • 대표적인 문제: 학습 시간과 학습 공간의 한계
  • 사용 예: 자율주행 자동차, 게임 AI
  • 대표 알고리즘: Q-Learning, DQN(Deep Q-Network)

 

강화학습과 신경망(Neural Network)의 결합


  • 강화: 어떤 지속적인 자극에 의한 반응이 점점 강해지거나 약해지는 것
  • Q-Learning은 상태공간이 커질수록 메모리(Q-table)의 한계 발생
  • 메모리 문제를 해결하기 위해 함수 근사(Function Approximation) 사용
  • 초기에는 간단한 근사 기법을 사용했으나, 이것 또한 한계가 있음
  • 신경망으로 다차원 비선형 함수를 효과적으로 근사 가능하다는 연구가 진행되며 강화 학습에 도입됨
  • 오차 역전파(Backpropagation) 기법으로 신경망 학습 가능해짐
  • 신경망이 깊어질수록 경사 소실(Vanishing Gradient) 문제가 발생 → 알렉스넷(AlexNet)의 등장으로 해결
  • 이후 합성곱 신경망(Convolutional Neural Network, CNN)으로 발전하여 현재의 딥러닝 시대를 열었음
  • 현재도 학습 속도 및 효율성 문제를 개선하기 위한 연구가 활발히 진행 중