본문 바로가기

CS/강화 학습

[강화 학습] 1. 인공지능이란

tkxx_ls 2025. 3. 6. 23:59

인공지능의 종류

강인공지능

인간의 지능을 완전히 구현한 형태
영화 『터미네이터』, 『바이센테니얼 맨』의 로봇처럼 자율적인 사고와 감정을 가진 인공지능

약인공지능

특정 작업을 수행하거나 인간의 작업을 보조하는 형태
예: 추천 시스템, 음성 인식 시스템, 알파고 등

머신러닝 (Machine Learning)

개요

인공지능의 하위 분야로, 데이터를 활용해 목적에 맞는 규칙을 찾거나 미래를 예측하는 기술
활용 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등
주요 학습 방법: 지도학습, 비지도학습, 강화학습

지도학습 (Supervised Learning)

사전에 문제와 정답(라벨)이 쌍으로 구성된 데이터셋을 통해 학습
반복적인 학습으로 예측 정확도를 높이며, 학습 후 새로운 데이터의 분류 및 예측 가능
데이터셋 구성:
- Training Data: 학습에 사용되는 데이터
- Test Data: 성능 평가에 사용되는 데이터
대표 알고리즘: Decision Tree, Neural Network, Linear Regression, SVM 등

비지도학습 (Unsupervised Learning)

정답(라벨)이 주어지지 않은 상태에서 데이터 내의 숨겨진 규칙이나 구조를 찾는 학습 방법
대표 알고리즘: 주성분 분석(PCA), 군집화(Clustering, 예: K-Means), 자기조직화 지도(SOM)

강화학습 (Reinforcement Learning)

보상(Reward)과 벌칙(Punishment)을 정의하고 시행착오를 통해 최적의 행동을 학습하는 방식
학습에 필요한 정답이 전혀 없으며, 스스로 환경과 상호작용하며 학습
보상이 이용할 수 있는 유일한 정보이기 때문에 적절한 보상 체계 설계가 매우 중요
대표적인 문제: 학습 시간과 학습 공간의 한계
사용 예: 자율주행 자동차, 게임 AI
대표 알고리즘: Q-Learning, DQN(Deep Q-Network)

강화학습과 신경망(Neural Network)의 결합

강화: 어떤 지속적인 자극에 의한 반응이 점점 강해지거나 약해지는 것
Q-Learning은 상태공간이 커질수록 메모리(Q-table)의 한계 발생
메모리 문제를 해결하기 위해 함수 근사(Function Approximation) 사용
초기에는 간단한 근사 기법을 사용했으나, 이것 또한 한계가 있음
신경망으로 다차원 비선형 함수를 효과적으로 근사 가능하다는 연구가 진행되며 강화 학습에 도입됨
오차 역전파(Backpropagation) 기법으로 신경망 학습 가능해짐
신경망이 깊어질수록 경사 소실(Vanishing Gradient) 문제가 발생 → 알렉스넷(AlexNet)의 등장으로 해결
이후 합성곱 신경망(Convolutional Neural Network, CNN)으로 발전하여 현재의 딥러닝 시대를 열었음
현재도 학습 속도 및 효율성 문제를 개선하기 위한 연구가 활발히 진행 중

'CS > 강화 학습' 카테고리의 다른 글

[강화 학습] 4. 가치 함수 (0)	2025.03.11
[강화 학습] 3. 강화 학습의 기본 요소 - 2 (0)	2025.03.08
[강화 학습] 2. 강화 학습의 기본 요소 - 1 (0)	2025.03.07

티스토리툴바