AI 리터러시 챕터 2 약 3분

제2강: 머신러닝의 기초 — AI는 어떻게 배우는가?

O
OIYO 편집부 기여자
2/5

AI와 머신러닝의 관계

1강에서 LLM이 어떻게 작동하는지 배웠습니다. 이번 강에서는 한 단계 뒤로 물러나 AI의 근간인 머신러닝을 이해합니다.

AI 계층 구조
용어범위정의
인공지능 (AI)가장 넓음인간 지능 행동을 모방하는 모든 시스템
머신러닝 (ML)AI의 부분집합데이터에서 자동으로 패턴을 학습하는 알고리즘
딥러닝 (DL)ML의 부분집합다층 신경망을 사용한 머신러닝
LLMDL의 응용대규모 텍스트로 훈련된 트랜스포머 기반 언어 모델

3가지 학습 패러다임

머신러닝 학습 유형 비교
유형작동 방식데이터 요구현실 사례
지도학습 (Supervised)정답 라벨이 있는 데이터로 학습라벨된 대량 데이터스팸 필터, 얼굴 인식, 의료 진단
비지도학습 (Unsupervised)라벨 없이 데이터 구조 발견라벨 없어도 됨고객 세분화, 이상 탐지, 추천 시스템
강화학습 (Reinforcement)환경과 상호작용하며 보상 최대화환경 시뮬레이터알파고, 자율주행, 게임 AI
1
지도학습: 선생님과 함께

고양이 사진 100만 장에 '고양이/아님' 라벨을 붙여 학습시킵니다. 새로운 사진에서 고양이를 찾는 것이 목표입니다. 이메일 스팸 필터, 의료 영상 판독이 대표적입니다.

2
비지도학습: 스스로 발견

고객 구매 데이터에서 유사한 구매 패턴의 고객끼리 자동으로 묶습니다. 어떤 군집이 생길지 사전에 모릅니다. 마케팅 세분화, 이상 거래 탐지에 사용됩니다.

3
강화학습: 시행착오로 학습

바둑 게임에서 이기면 +1점, 지면 -1점 보상을 주고 수억 번 대국하며 학습합니다. 알파고가 이 방법으로 세계 챔피언을 이겼습니다.

4
자기지도학습: LLM의 방법

LLM은 텍스트의 다음 단어를 예측하는 방식으로 학습합니다. 라벨이 필요 없고 인터넷의 방대한 텍스트가 훈련 데이터가 됩니다.


과적합 (Overfitting)

머신러닝에서 가장 흔한 함정입니다.

과적합 vs 과소적합
문제정의비유해결책
과적합 (Overfitting)훈련 데이터는 완벽하나 새 데이터에 실패시험 문제만 외워 시험 봄더 많은 데이터, 규제(Regularization)
과소적합 (Underfitting)훈련 데이터도 제대로 학습 못함공부를 전혀 안 함더 복잡한 모델, 더 많은 학습
적절한 적합훈련·테스트 모두 좋은 성능개념 이해 후 새 문제 풀기편향-분산 균형
훈련/검증/테스트 데이터 분리가 필요한 이유:
→ 훈련 데이터(70%): 모델이 패턴 학습
→ 검증 데이터(15%): 하이퍼파라미터 튜닝
→ 테스트 데이터(15%): 최종 성능 평가 (한 번만 사용)

핵심: 테스트 데이터는 철저히 봉인
→ 개봉 전까지 절대 보지 않는다
→ 실제 세계의 미지 데이터를 시뮬레이션

테스트 데이터 정보가 훈련 과정에 스며들면 데이터 누수가 발생합니다. 모델은 테스트 성능이 좋지만 현실에서는 실패합니다. 실제 의료 AI 시스템 오류의 주요 원인 중 하나입니다.


주요 머신러닝 알고리즘

비전문가가 알아야 할 주요 ML 알고리즘
알고리즘원리장점대표 사용처
선형 회귀연속 출력 예측 직선 모델해석 가능, 빠름집값 예측, 수요 예측
의사결정 트리예/아니오 질문으로 분류직관적, 시각화 쉬움신용 평가, 의료 진단
랜덤 포레스트트리 수백 개 앙상블정확도 높음, 강건함추천, 분류 전반
신경망 (딥러닝)층층이 쌓인 비선형 변환복잡한 패턴 학습이미지, 음성, 텍스트
SVM최대 마진 초평면 분류고차원 데이터에 강함텍스트 분류, 생물정보

핵심 암기 포인트

지도학습: 라벨 데이터 → 패턴 학습 → 새 데이터 예측 강화학습: 시행착오 + 보상 → 알파고·자율주행의 엔진 과적합: 훈련 데이터 외워도 실제 세계에서 실패 → 테스트 분리 필수 머신러닝 ⊂ AI, 딥러닝 ⊂ 머신러닝, LLM ⊂ 딥러닝

O

OIYO 편집부

Content Editor

지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.