제2강: 머신러닝의 기초 — AI는 어떻게 배우는가?

AI와 머신러닝의 관계

1강에서 LLM이 어떻게 작동하는지 배웠습니다. 이번 강에서는 한 단계 뒤로 물러나 AI의 근간인 머신러닝을 이해합니다.

AI 계층 구조
용어	범위	정의
인공지능 (AI)	가장 넓음	인간 지능 행동을 모방하는 모든 시스템
머신러닝 (ML)	AI의 부분집합	데이터에서 자동으로 패턴을 학습하는 알고리즘
딥러닝 (DL)	ML의 부분집합	다층 신경망을 사용한 머신러닝
LLM	DL의 응용	대규모 텍스트로 훈련된 트랜스포머 기반 언어 모델

3가지 학습 패러다임

머신러닝 학습 유형 비교
유형	작동 방식	데이터 요구	현실 사례
지도학습 (Supervised)	정답 라벨이 있는 데이터로 학습	라벨된 대량 데이터	스팸 필터, 얼굴 인식, 의료 진단
비지도학습 (Unsupervised)	라벨 없이 데이터 구조 발견	라벨 없어도 됨	고객 세분화, 이상 탐지, 추천 시스템
강화학습 (Reinforcement)	환경과 상호작용하며 보상 최대화	환경 시뮬레이터	알파고, 자율주행, 게임 AI

지도학습: 선생님과 함께

고양이 사진 100만 장에 '고양이/아님' 라벨을 붙여 학습시킵니다. 새로운 사진에서 고양이를 찾는 것이 목표입니다. 이메일 스팸 필터, 의료 영상 판독이 대표적입니다.

비지도학습: 스스로 발견

고객 구매 데이터에서 유사한 구매 패턴의 고객끼리 자동으로 묶습니다. 어떤 군집이 생길지 사전에 모릅니다. 마케팅 세분화, 이상 거래 탐지에 사용됩니다.

강화학습: 시행착오로 학습

바둑 게임에서 이기면 +1점, 지면 -1점 보상을 주고 수억 번 대국하며 학습합니다. 알파고가 이 방법으로 세계 챔피언을 이겼습니다.

자기지도학습: LLM의 방법

LLM은 텍스트의 다음 단어를 예측하는 방식으로 학습합니다. 라벨이 필요 없고 인터넷의 방대한 텍스트가 훈련 데이터가 됩니다.

과적합 (Overfitting)

머신러닝에서 가장 흔한 함정입니다.

과적합 vs 과소적합
문제	정의	비유	해결책
과적합 (Overfitting)	훈련 데이터는 완벽하나 새 데이터에 실패	시험 문제만 외워 시험 봄	더 많은 데이터, 규제(Regularization)
과소적합 (Underfitting)	훈련 데이터도 제대로 학습 못함	공부를 전혀 안 함	더 복잡한 모델, 더 많은 학습
적절한 적합	훈련·테스트 모두 좋은 성능	개념 이해 후 새 문제 풀기	편향-분산 균형

훈련/검증/테스트 데이터 분리가 필요한 이유:
→ 훈련 데이터(70%): 모델이 패턴 학습
→ 검증 데이터(15%): 하이퍼파라미터 튜닝
→ 테스트 데이터(15%): 최종 성능 평가 (한 번만 사용)

핵심: 테스트 데이터는 철저히 봉인
→ 개봉 전까지 절대 보지 않는다
→ 실제 세계의 미지 데이터를 시뮬레이션

테스트 데이터 정보가 훈련 과정에 스며들면 데이터 누수가 발생합니다. 모델은 테스트 성능이 좋지만 현실에서는 실패합니다. 실제 의료 AI 시스템 오류의 주요 원인 중 하나입니다.

주요 머신러닝 알고리즘

비전문가가 알아야 할 주요 ML 알고리즘
알고리즘	원리	장점	대표 사용처
선형 회귀	연속 출력 예측 직선 모델	해석 가능, 빠름	집값 예측, 수요 예측
의사결정 트리	예/아니오 질문으로 분류	직관적, 시각화 쉬움	신용 평가, 의료 진단
랜덤 포레스트	트리 수백 개 앙상블	정확도 높음, 강건함	추천, 분류 전반
신경망 (딥러닝)	층층이 쌓인 비선형 변환	복잡한 패턴 학습	이미지, 음성, 텍스트
SVM	최대 마진 초평면 분류	고차원 데이터에 강함	텍스트 분류, 생물정보

핵심 암기 포인트

지도학습: 라벨 데이터 → 패턴 학습 → 새 데이터 예측 강화학습: 시행착오 + 보상 → 알파고·자율주행의 엔진 과적합: 훈련 데이터 외워도 실제 세계에서 실패 → 테스트 분리 필수 머신러닝 ⊂ AI, 딥러닝 ⊂ 머신러닝, LLM ⊂ 딥러닝

AI와 머신러닝의 관계

3가지 학습 패러다임

과적합 (Overfitting)

주요 머신러닝 알고리즘

핵심 암기 포인트

OIYO 편집부