제3강: 딥러닝과 신경망 — AI가 세상을 인식하는 방법

뇌에서 영감을 받은 딥러닝

인공신경망(ANN)은 뇌의 뉴런 구조에서 영감을 받았습니다. 하지만 실제 작동 방식은 생물학적 뇌와 상당히 다릅니다.

생물학적 뉴런 vs 인공 뉴런
특성	생물학적 뉴런	인공 뉴런
입력	수상돌기로 화학 신호 수신	숫자(가중치 × 입력값)의 합산
처리	역치 초과 시 전기 신호 발화	활성화 함수 통과 (ReLU, Sigmoid)
출력	축삭을 통해 다음 뉴런으로 전달	다음 층으로 숫자 전달
학습	시냅스 강도 변화 (헤비안 학습)	역전파로 가중치 조정

신경망의 작동 원리

순전파 (Forward Pass)

입력 데이터가 여러 층을 통과하며 변환됩니다. 각 층에서 가중치를 곱하고 활성화 함수를 거쳐 최종 출력을 생성합니다.

손실 계산 (Loss)

모델의 출력과 정답의 차이를 수치화합니다. 손실이 작을수록 모델이 정확합니다.

역전파 (Backpropagation)

손실을 줄이기 위해 출력층에서 입력층 방향으로 오차를 전파합니다. 각 가중치가 손실에 얼마나 기여했는지 계산합니다.

경사하강법 (Gradient Descent)

계산된 기울기의 반대 방향으로 가중치를 조금씩 조정합니다. 수백만 번 반복하면 모델이 점점 정확해집니다.

직관적 비유:
→ 눈을 가리고 산에서 내려가기 (경사하강법)
→ 발 아래 기울기를 느끼며 (기울기 = 기울기)
→ 내리막 방향으로 한 걸음씩 (가중치 업데이트)
→ 결국 가장 낮은 곳(최솟값)에 도달

문제:
→ 전역 최솟값 vs 지역 최솟값
→ 학습률(Learning Rate): 너무 크면 튀고, 너무 작으면 느림

딥러닝의 혁명적 아키텍처

주요 딥러닝 아키텍처 비교
아키텍처	특화 분야	핵심 아이디어	대표 응용
CNN (합성곱 신경망)	이미지·영상	공간적 패턴을 필터로 추출	얼굴 인식, 의료 영상, 자율주행
RNN / LSTM	순서가 있는 데이터	이전 정보를 기억 (게이트 메커니즘)	번역, 음성 인식 (2017 이전)
트랜스포머	텍스트·범용	Attention으로 전체 문맥 동시 처리	GPT, BERT, ChatGPT, Claude
GAN (생성적 적대)	이미지·음성 생성	생성자 vs 판별자 경쟁 학습	이미지 생성, Deepfake
Diffusion 모델	이미지 생성	노이즈 제거 과정으로 이미지 생성	DALL·E, Stable Diffusion

CNN — AI의 눈

CNN의 계층적 특징 추출
층	추출하는 특징	비유
초기 층 (Low-level)	엣지, 선, 색상 변화	점, 선, 원 같은 기본 도형
중간 층 (Mid-level)	텍스처, 패턴, 모서리 조합	눈, 코, 귀 같은 부위
후기 층 (High-level)	얼굴, 자동차, 동물 전체	고양이, 강아지, 사람 인식

2012년 알렉스넷(AlexNet)이 이미지넷 분류 경쟁에서 이전 방법 대비 오류율을 절반으로 낮추었습니다. 이 순간이 딥러닝 혁명의 시작이었습니다. 이후 AI의 시각 능력은 인간 수준을 넘어섰습니다.

트랜스포머 — 현대 AI의 엔진

1강에서 소개한 트랜스포머를 더 깊이 이해합니다.

RNN vs 트랜스포머
특성	RNN/LSTM	트랜스포머
처리 방식	순서대로 (순차적)	한 번에 전체 (병렬)
장거리 의존성	먼 위치 정보 희미해짐	Attention으로 어디든 직접 연결
학습 속도	병렬화 불가 → 느림	병렬화 가능 → 빠름
모델 크기	수백만 파라미터	수십~수천억 파라미터
대표 모델	LSTM 번역 모델	GPT-4, Claude, Gemini

트랜스포머의 핵심 혁신 — Attention:
문장: "동물이 피곤해서 자지 않았다. 그것은 ___."

RNN: "그것" → 앞에서 순차적으로 정보 전달 → 먼 "동물" 희미
트랜스포머: "그것" → 모든 단어에 동시에 주목 → "동물" 직접 연결

→ "그것 = 동물" 정확히 파악
→ 이것이 LLM이 복잡한 문맥을 이해하는 비결

딥러닝의 한계

딥러닝의 주요 한계점
한계	설명	실제 문제
블랙박스	왜 그 결론을 내렸는지 설명 불가	의료·법률 AI 신뢰성 문제
데이터 의존성	대량의 고품질 데이터 필요	희귀 질병 진단 AI 부족
분포 이탈	훈련 데이터와 다른 상황에서 실패	자율주행차 새로운 도로 상황
연산 비용	훈련에 막대한 에너지·비용	환경 부하, 접근성 불평등

핵심 암기 포인트

역전파: 오차를 뒤에서 앞으로 전달 → 가중치 조정 → 반복 CNN: 계층적 특징 추출 — 엣지 → 부위 → 전체 객체 트랜스포머: 순차 처리 → 병렬 Attention → 속도·성능 혁명 딥러닝 한계: 블랙박스 + 데이터 의존 + 연산 비용