정수빈 기술블로그임.

Linear Regression(선형회귀)

Binsoo — Tue, 21 Apr 2026 13:51:10 +0900

머신러닝을 처음 공부하면 가장 먼저 만나게 되는 대표 모델이 바로 Linear Regression(선형회귀) 입니다.
이름만 들으면 어렵게 느껴지지만, 사실 핵심은 아주 단순합니다.

“입력값이 변할 때 결과값이 어떻게 달라지는지, 가장 잘 맞는 직선을 찾는 것”

예를 들어 공부 시간이 늘어나면 시험 점수가 오르는지, 집 크기가 커지면 집값이 비싸지는지, 광고비를 늘리면 매출이 증가하는지를 숫자로 예측하는 문제에 선형회귀를 사용할 수 있습니다. 슬라이드에서도 선형회귀를 가장 단순한 회귀 모델로 소개하며, 목표를 특성(feature)과 라벨(label) 사이의 관계를 모델링하는 것이라고 설명합니다.

1. Linear Regression이란?

선형회귀는 데이터를 가장 잘 설명하는 하나의 직선을 찾는 방법입니다.
결과값이 숫자로 나오는 문제, 즉 회귀(regression) 문제에서 사용합니다. 슬라이드에서도 Regression은 연속적인 숫자 값을 예측하는 문제라고 설명합니다.

예를 들어 이런 데이터가 있다고 해보겠습니다.

공부 시간(x)시험 점수(y)

1시간	50점
2시간	60점
3시간	70점
4시간	80점

이 데이터를 보면 자연스럽게 이런 생각이 듭니다.

공부를 1시간 더 할 때마다 점수가 대략 10점씩 오르는 것 같네?

이렇게 데이터 속 규칙을 직선으로 표현하는 것이 바로 선형회귀입니다.

2. 선형회귀는 언제 사용할까?

선형회귀는 결과가 숫자일 때 사용합니다.

예를 들면 다음과 같습니다.

집값 예측
매출 예측
배송 시간 예측
시험 점수 예측
주가 예측

즉, “합격/불합격”, “스팸/정상”처럼 카테고리를 맞히는 문제가 아니라, 얼마인지, 몇 점인지, 몇 분인지처럼 숫자를 맞히는 문제에 적합합니다. 슬라이드에서도 House Price, Stock Price 같은 예시를 회귀 문제로 제시합니다.

3. 선형회귀의 핵심 공식

선형회귀의 가장 기본적인 식은 다음과 같습니다.

[y' = wx + b]

슬라이드에서는 이 식을 모델의 best estimate라고 설명합니다. 즉, 모델이 입력값 x를 보고 가장 그럴듯하다고 판단한 예측값이 (y') 입니다.

처음 보면 수식이 어려워 보일 수 있지만, 사실 하나씩 보면 전혀 어렵지 않습니다.

4. 공식 속 기호 하나씩 이해하기

4-1. x: 입력값(Feature)

x는 예측에 사용하는 입력 정보입니다.
머신러닝에서는 보통 Feature(특성) 라고 부릅니다.

예를 들어 집값을 예측한다면 x는 다음과 같은 값이 될 수 있습니다.

집 크기
방 개수
지하철역과의 거리
층수

공부 시간으로 시험 점수를 예측한다면 x는 “공부 시간”이 됩니다.

4-2. y: 실제값(Actual Value)

y는 현실에 존재하는 진짜 정답입니다.

예를 들어

실제 시험 점수
실제 집값
실제 배송 시간

이런 값들이 y입니다.

4-3. y': 예측값(Prediction)

(y')는 모델이 예측한 값입니다.
즉, AI가 “아마 이 정도일 거야”라고 내놓은 숫자입니다.

예를 들어 공부 시간 3시간을 넣었을 때
모델이 70점을 예측했다면, 그 70이 바로 (y') 입니다.

4-4. w: 가중치(Weight)

w는 기울기입니다.
쉽게 말하면, x가 1 증가할 때 y가 얼마나 변하는지를 나타냅니다.

예를 들어 공부 시간을 1시간 늘릴 때마다 시험 점수가 10점씩 오른다면, w는 10이라고 볼 수 있습니다.

즉, w는
“입력값이 결과에 얼마나 큰 영향을 주는가”
를 나타내는 값입니다. 슬라이드에서도 weight를 영향력(influence) 으로 설명합니다.

4-5. b: 편향(Bias)

b는 시작점, 또는 기본값입니다.
x가 0일 때도 존재하는 값이라고 이해하면 쉽습니다.

예를 들어 공부를 전혀 하지 않아도 기본 실력으로 40점은 나오는 학생이라면, b를 40 정도로 볼 수 있습니다.

슬라이드에서도 bias는 기준선(baseline) 이라고 설명합니다.

5. 식에 숫자를 넣어 직접 계산해보기

예를 들어 모델이 이렇게 나왔다고 해봅시다.

[y' = 3x + 2]

이 식은 다음 뜻입니다.

x가 1 늘어나면 y는 3씩 증가한다.
기본 시작값은 2다.

이제 x에 값을 넣어보겠습니다.

x = 1일 때

[y' = 3(1) + 2 = 5]

x = 4일 때

[y' = 3(4) + 2 = 14]

x = 10일 때

[ y' = 3(10) + 2 = 32 ]

즉, 이 모델은
입력값이 커질수록 결과값도 일정한 비율로 커지는 관계를 표현하고 있는 것입니다. 슬라이드의 퀴즈에서도 같은 방식으로 (y' = 3x + 2) 식에서 x=4일 때 예측값을 구하도록 되어 있습니다.

6. 왜 ‘직선’을 찾는 걸까?

현실 데이터는 수학 문제처럼 딱 떨어지지 않습니다.
예를 들어 공부 시간을 기준으로 학생들의 점수를 모아 보면, 같은 3시간을 공부했더라도 어떤 학생은 65점을 받고 어떤 학생은 78점을 받을 수 있습니다.

이유는 너무 많습니다.

집중력 차이
시험 난이도
컨디션
기본 실력
운

즉, 현실 데이터는 늘 조금씩 흔들리고, 이런 흔들림을 슬라이드에서는 noisy data라고 설명합니다. 그리고 모델은 완벽한 정답을 내는 것이 아니라 best estimate, 즉 가장 그럴듯한 추정값을 내놓는다고 설명합니다.

그래서 선형회귀는
모든 점을 100% 정확하게 지나가는 직선을 찾는 것이 아니라,
전체적으로 가장 잘 설명하는 직선을 찾습니다.

7. 왜 예측이 완벽하지 않을까?

머신러닝 초보자가 가장 많이 하는 오해 중 하나가
“AI면 왜 틀리지?”라는 생각입니다.

하지만 선형회귀는 애초에 “완벽한 답”을 내는 모델이 아닙니다.

슬라이드에서는 그 이유를 세 가지로 설명합니다.

모델은 확률적(probabilistic) 이다.
현실 데이터는 노이즈가 많다.
모델은 총 오차(total error)를 최소화할 뿐, 오차를 0으로 만드는 것이 목적은 아니다.

쉽게 말하면, 선형회귀는
“모든 사람을 완벽하게 맞히는 점쟁이”가 아니라
“전체 흐름을 가장 잘 읽는 분석가”에 가깝습니다.

8. Error(오차)란 무엇일까?

선형회귀에서는 예측이 실제와 얼마나 다른지를 계산해야 합니다.
그 차이를 Error(오차) 라고 합니다.

슬라이드의 정의는 다음과 같습니다.

[Error = y - y']

즉,실제값 - 예측값입니다.

예를 들어 실제 점수가 80점이고, 모델이 75점을 예측했다면

[Error = 80 - 75 = 5]

입니다.

반대로 실제 점수가 70점인데 모델이 78점을 예측했다면

[Error = 70 - 78 = -8]

이 됩니다.

즉, 오차는 플러스일 수도 있고 마이너스일 수도 있습니다.

9. Error와 Loss의 차이

이 둘은 비슷해 보이지만 다릅니다.

Error

한 개 데이터가 얼마나 틀렸는지 보는 값

Loss

전체 데이터에 대해 모델이 얼마나 틀렸는지 측정하는 값

쉽게 비유하면,

Error = 한 문제 틀린 정도
Loss = 시험 전체 성적이 얼마나 깎였는지

입니다.

슬라이드에서도 Error, Loss, Metric을 구분해서 설명합니다.
Error는 개별 오차이고, Loss는 오차에 벌점을 주는 방식이며, Metric은 전체 성능을 요약한 값입니다.

10. MSE(Mean Squared Error)

선형회귀에서 가장 대표적인 손실 함수가 MSE입니다.

공식은 다음과 같습니다.

[MSE = \frac{1}{N}\sum (y_i - y'_i)^2]

즉, 각 데이터의 오차를 제곱한 뒤 평균을 낸 값입니다. 슬라이드에서도 MSE를 대표적인 손실 함수로 설명하며, 제곱을 통해 큰 오차에 더 큰 벌칙을 준다고 말합니다.

왜 제곱을 할까?

첫째, 음수를 없애기 위해서입니다.

오차가 -3이든 +3이든 둘 다 틀린 것이므로, 부호를 없애고 크기만 보려는 목적이 있습니다.

둘째, 큰 실수에 더 큰 벌점을 주기 위해서입니다.

예를 들어

오차 2 → 제곱하면 4
오차 10 → 제곱하면 100

이 됩니다.

즉, MSE는
큰 실수를 특히 더 심각하게 본다는 특징이 있습니다.

11. MSE 직접 계산해보기

실제값과 예측값이 아래와 같다고 해봅시다.

실제값(y)예측값(y')

80	78
70	75
90	85

먼저 오차를 구하면

80 - 78 = 2
70 - 75 = -5
90 - 85 = 5

이제 제곱합니다.

(2^2 = 4)
((-5)^2 = 25)
(5^2 = 25)

평균을 내면

[
MSE = \frac{4 + 25 + 25}{3} = 18
]

즉, 이 모델의 MSE는 18입니다.

12. MAE(Mean Absolute Error)

MSE와 함께 자주 비교되는 것이 MAE입니다.

공식은 다음과 같습니다.

[MAE = \frac{1}{N}\sum |y_i - y'_i|]

즉, 오차의 절댓값을 구해서 평균을 낸 값입니다. 슬라이드에서는 MAE를 선형적인 벌점(linear penalty) 을 주는 방식으로 설명하며, 이상치에 더 강하다고 설명합니다.

같은 예시로 MAE를 계산해보면

오차는 아까처럼

2
-5
5

이고, 절댓값을 취하면

|2| = 2
|-5| = 5
|5| = 5

평균은

[MAE = \frac{2 + 5 + 5}{3} = 4]

즉, 이 모델은 평균적으로 4점 정도 틀린다는 의미입니다.

MAE의 장점은 사람에게 설명하기 쉽다는 점입니다.

우리 모델은 평균적으로 4점 정도 오차가 납니다.

이렇게 바로 말할 수 있기 때문입니다.

13. MSE와 MAE의 차이

둘 다 오차를 측정하지만 성격은 분명히 다릅니다.

MSE

큰 오차를 아주 싫어합니다.
그래서 심각한 실수를 강하게 벌주고 싶을 때 적합합니다.

MAE

오차를 있는 그대로 평균냅니다.
그래서 평균적으로 얼마나 틀리는지 직관적으로 보고 싶을 때 적합합니다.

슬라이드에서도 MSE는 outlier에 민감하고, MAE는 majority trend를 잘 따른다고 비교합니다.

14. 언제 MSE를 쓰고, 언제 MAE를 쓸까?

이 부분은 시험에도 자주 나오고, 실무에서도 정말 중요합니다.

MSE가 적합한 경우

큰 실수 한 번이 치명적인 경우입니다.

예를 들어

건물 유지보수 시점 예측
대규모 사기 금액 예측
항공 지연 예측
의료 진단 관련 위험 예측

슬라이드의 예시에서도 큰 오차가 재앙 수준의 피해로 이어질 때는 MSE가 적합하다고 설명합니다.

MAE가 적합한 경우

평균적인 오차를 쉽게 설명해야 하는 경우입니다.

예를 들어

배송 시간 예측
일반적인 가격 예측
매출 예측
수요 예측

슬라이드에서는 실제로 훈련은 MSE로 하고, 설명은 MAE로 하라는 포인트도 제시합니다.
즉, 모델은 엄격하게 훈련시키고, 사람에게는 이해하기 쉬운 지표로 설명하는 것입니다.

15. 왜 MSE는 이상치에 민감할까?

이상치(outlier)란 대부분의 데이터와 많이 동떨어진 값을 말합니다.

예를 들어 집값 데이터 대부분이 3억~6억 사이인데
딱 하나만 50억짜리 집이 섞여 있다고 해봅시다.

MSE는 오차를 제곱하기 때문에
이런 큰 값 하나가 전체 손실을 크게 흔들 수 있습니다.
슬라이드에서도 MSE는 extreme points가 모델을 끌어당긴다고 설명합니다.

즉, 모델이 전체 데이터를 고르게 보기보다
이상치 하나를 맞추는 데 과하게 신경 쓸 수 있습니다.

반면 MAE는 절댓값만 쓰기 때문에
이상치의 영향이 상대적으로 덜합니다.

16. Gradient Descent(경사하강법)란?

선형회귀에서 중요한 또 하나의 개념은 Gradient Descent(경사하강법) 입니다.

슬라이드에서는 이를
안개 속 산에서 가장 낮은 곳을 찾아 내려가는 과정에 비유합니다.
목표는 손실(Loss)을 최소화하는 최적의 w와 b를 찾는 것입니다.

이 비유가 정말 이해하기 쉽습니다.

앞이 보이지 않는 산 위에서
가장 낮은 곳으로 가려면
지금 발밑의 기울기를 느끼면서 조금씩 내려가야 합니다.

머신러닝도 똑같습니다.

산의 높이 = Loss
가장 낮은 지점 = 최소 Loss
내려가는 과정 = Gradient Descent

즉, 경사하강법은
손실이 가장 작아지는 방향으로 w와 b를 조금씩 수정하는 방법입니다.

17. 선형회귀 학습은 어떻게 진행될까?

슬라이드에서는 선형회귀 학습 과정을 4단계로 설명합니다.

1) Guess

처음에는 w와 b를 임의로 설정합니다.

2) Predict

현재 식으로 예측값 (y')를 계산합니다.

3) Measure

예측값과 실제값의 차이를 계산하고, 손실을 측정합니다.

4) Update

손실이 줄어들도록 w와 b를 수정합니다.

이 과정을 계속 반복하면
점점 더 좋은 직선을 찾게 됩니다.

쉽게 말하면

대충 시작해서 → 예측해보고 → 얼마나 틀렸는지 확인하고 → 더 잘 맞게 고치는 것

을 반복하는 과정입니다.

18. Loss Curve는 무엇을 보여줄까?

슬라이드의 Loss Curve는
x축에 반복 횟수(iteration), y축에 손실(loss)을 놓고
학습이 잘 되고 있는지를 보여줍니다.

보통 학습 초반에는 손실이 큽니다.
하지만 반복 학습을 하면서 손실이 점점 줄어듭니다.
어느 순간 거의 줄어들지 않는 지점이 오는데, 이 상태를 수렴(convergence) 했다고 합니다.

즉,

이제 거의 최적의 값에 도달했구나

라고 볼 수 있습니다.

19. Convexity가 중요한 이유

선형회귀의 손실 곡면은 보통 볼록(convex) 한 형태를 가집니다.
슬라이드에서는 이 점 때문에 선형회귀는 가짜 바닥(local minimum) 에 빠지지 않고, 경사하강법이 전역 최솟값(global minimum) 을 찾을 수 있다고 설명합니다.

쉽게 말하면,
길을 잘못 들어서 엉뚱한 곳에 갇힐 확률이 적다는 뜻입니다.

그래서 선형회귀는
머신러닝 입문 모델로 배우기에 아주 좋은 예시입니다.

20. Hyperparameter란?

슬라이드에서는
w와 b는 모델이 최적화하고, Hyperparameter는 개발자가 조절한다고 설명합니다.

즉,

w, b = 모델이 학습하면서 자동으로 찾는 값
Hyperparameter = 사람이 미리 정해주는 설정값

입니다.

이 둘을 헷갈리면 안 됩니다.

21. 대표적인 Hyperparameter 3가지

1) Learning Rate

한 번 업데이트할 때 얼마나 크게 움직일지를 정하는 값입니다.

너무 작으면: 안정적이지만 너무 느립니다.
너무 크면: 최적점을 지나쳐서 발산할 수 있습니다.
적당하면: 빠르고 안정적으로 수렴합니다.

슬라이드에서도 Learning Rate를
Too Small / Just Right / Too Large 로 나누어 설명합니다.

2) Batch Size

한 번 업데이트할 때 몇 개의 데이터를 사용할지 정하는 값입니다.

예를 들어 데이터가 1000개이고 batch size가 100이면,
한 번에 100개씩 보고 업데이트합니다.

3) Epoch

전체 데이터를 몇 번 반복해서 학습할지 정하는 값입니다.

데이터 1000개를 한 번 모두 보면 1 epoch입니다.
이를 10번 반복하면 10 epoch가 됩니다.
슬라이드에서도 batch와 epoch의 관계를 예시로 설명합니다.

22. Iteration, Batch, Epoch 차이 정리

이 부분은 초보자가 가장 많이 헷갈리는 개념입니다.

예를 들어 데이터가 1000개 있고, batch size가 100이라고 해봅시다.

그러면

한 번에 100개씩 학습
1000개를 다 보려면 10번 필요

즉,

1 iteration = 100개를 보고 한 번 업데이트
1 epoch = 전체 1000개를 다 본 것 = 10 iterations

입니다.

이 구조를 이해하면 이후 딥러닝에서도 훨씬 덜 헷갈립니다.

23. Learning Rate가 너무 크거나 작으면 생기는 일

너무 큰 경우

최적 지점을 지나쳐서 이리저리 튕길 수 있습니다.
즉, 손실이 줄지 않고 오히려 커질 수도 있습니다.
이를 발산(diverge) 이라고 합니다.

너무 작은 경우

안정적이기는 하지만 너무 천천히 움직여서 학습 시간이 오래 걸립니다.

따라서 좋은 학습을 위해서는
적절한 Learning Rate를 찾는 것이 매우 중요합니다.

24. 선형회귀의 최종 목표

선형회귀의 목표는 단순히 선 하나 긋는 것이 아닙니다.

그 직선이

데이터를 잘 설명하고
손실을 줄이며
너무 복잡하지 않고
새로운 데이터에도 잘 작동해야 합니다

슬라이드에서는 이를
“Accurate but Simple”, 즉 정확하지만 단순한 모델이라고 표현합니다.

이 말이 정말 중요합니다.

머신러닝은 무조건 복잡하다고 좋은 것이 아닙니다.
오히려 너무 복잡하면 현실에서는 잘 안 맞을 수 있습니다.
그래서 잘 맞으면서도 단순한 모델이 좋은 모델입니다.

25. 마무리

Linear Regression은 단순히 “직선을 찾는 모델”이 아닙니다.
이 안에는 머신러닝의 핵심 개념이 거의 다 들어 있습니다.

입력과 출력
예측
오차
손실 함수
최적화
하이퍼파라미터
일반화

즉, 선형회귀를 제대로 이해하면
이후 배우게 될 로지스틱 회귀, 신경망, 딥러닝까지도 훨씬 쉽게 이해할 수 있습니다.

이번 Week 7의 핵심을 한 줄로 정리하면 이렇습니다.

선형회귀는 데이터에 가장 잘 맞는 직선을 찾고, 오차를 줄이기 위해 반복적으로 학습하는 가장 기본적인 회귀 모델이다.

핵심 한 줄 요약

선형회귀: 숫자를 예측하는 가장 기본적인 모델
공식: (y' = wx + b)
Error: 실제값과 예측값의 차이
MSE: 큰 오차에 더 큰 벌점을 주는 손실 함수
MAE: 평균적으로 얼마나 틀렸는지 직관적으로 보여주는 지표
Gradient Descent: 손실이 가장 작아지도록 w와 b를 계속 수정하는 과정
Hyperparameter: 사람이 정하는 학습 설정값
목표: 정확하면서도 단순한 모델 만들기

[MLOps] Quiz - WEEK 6

Binsoo — Thu, 9 Apr 2026 14:38:39 +0900

WEEK 6 – Model Evaluation & Metric 판단

이번 주차에서는 모델 평가에서 중요한
Precision, Recall, F1-score, Data Leakage 개념을 실제 문제 상황에 적용하는 방법을 다룬다.

핵심은 단순히 개념을 아는 것이 아니라
상황에 맞는 지표를 선택하는 능력이다.

✅ Quiz 1

문제 (영어)

In an insurance model, "falsely predicting a high-risk individual as low-risk" (False Negative) leads to unexpected payouts.
To prevent this, which metric should be managed?

(A) Recall
(B) Precision
(C) Accuracy
(D) Training Loss

문제 (한글)

보험 모델에서 고위험 고객을 정상으로 잘못 예측하는 경우(False Negative)가 발생하면 큰 손실로 이어진다.
이를 방지하기 위해 어떤 지표를 관리해야 하는가?

(A) 재현율(Recall)
(B) 정밀도(Precision)
(C) 정확도(Accuracy)
(D) 훈련 손실(Training Loss)

✅ 답안

A (Recall)

풀이

False Negative는 실제로 위험한 고객을 놓치는 경우이다.

이 문제에서는 “위험한 사람을 놓치지 않는 것”이 핵심이므로
실제 양성 데이터를 얼마나 잘 찾아내는지를 의미하는 Recall이 중요하다.

키포인트

False Negative 줄이기 → Recall

✅ Quiz 2

문제 (영어)

An insurance fraud detection model shows 99.9% Accuracy but only 0.1 F1-Score. What can we conclude about this model?

(A) The model is perfect and ready for deployment.
(B) The model is likely ignoring rare fraud cases and just predicting "No Fraud" for everyone.
(C) The model is overfitted to the training data.
(D) There is a numerical error in the calculation

문제 (한글)

보험 사기 탐지 모델의 정확도는 99.9%이지만 F1-score는 0.1에 불과하다.
이 모델에 대해 내릴 수 있는 결론은 무엇인가?

(A) 모델은 완벽하며 바로 실제 환경에 적용 가능하다.
(B) 모델이 희귀한 사기 케이스를 무시하고 대부분을 “정상(No Fraud)”으로 예측하고 있다.
(C) 모델이 학습 데이터에 과적합(Overfitting)되었다.
(D) 계산 과정에 수치적인 오류가 있다.

✅ 답안

풀이

데이터가 불균형한 경우
모델이 대부분을 차지하는 클래스만 예측해도 Accuracy는 매우 높게 나온다.

하지만 실제 중요한 사기 데이터를 놓치면
Precision과 Recall이 낮아지고 F1-score도 낮아진다.

따라서 이 모델은 사기 케이스를 거의 탐지하지 못하고
대부분을 정상으로 예측하고 있을 가능성이 높다.

키포인트

Accuracy 높아도 신뢰 불가
불균형 데이터 → F1-score 확인

✅ Quiz 3

문제 (영어)

To ensure your training, validation, and test sets all represent the same kind of data, what is the most important step after collecting your data?

문제 (한글)

훈련, 검증, 테스트 데이터가 동일한 분포를 가지도록 하기 위해
데이터 수집 후 가장 중요한 단계는 무엇인가?

✅ 답안

데이터를 무작위로 섞는다 (Shuffle)

풀이

데이터를 섞지 않으면 특정 패턴이 한쪽 데이터셋에만 몰릴 수 있다.

예를 들어

Train → 특정 기간 데이터
Test → 다른 기간 데이터

이 경우 모델 평가 결과가 왜곡된다.

따라서 분할 전에 반드시 데이터를 무작위로 섞어야 한다.

키포인트

데이터 분할 전 → Shuffle 필수

✅ Quiz 4

문제 (영어)

You are building a model to detect a dangerous invasive insect.

• Missing one insect → very costly
• False Alarm → low cost

Which metric should be your top priority?

문제 (한글)

위험한 외래 해충을 탐지하는 모델에서
해충을 놓치는 경우는 매우 큰 피해를 발생시키고,
오탐(False Alarm)은 비용이 낮다.

이 경우 가장 중요한 지표는 무엇인가?

(A) Accuracy
(B) Precision
(C) Recall

✅ 답안

C (Recall)

풀이

이 문제의 핵심은 “놓치면 안 된다”는 점이다.

즉, False Negative가 매우 치명적인 상황이며
실제 해충을 최대한 많이 찾아내는 것이 중요하다.

따라서 Recall을 최우선으로 고려해야 한다.

키포인트

놓치면 큰 문제 → Recall

✅ Quiz 5

문제 (영어)

If your Spam Filter keeps moving important work emails to the Spam folder, which metric do you need to improve?

(A) Precision
(B) Recall
(C) Loss
(D) Iterations

문제 (한글)

중요한 이메일이 스팸으로 잘못 분류되는 경우
어떤 지표를 개선해야 하는가?

(A) 정밀도(Precision)
(B) 재현율(Recall)
(C) 손실(Loss)
(D) 반복 횟수(Iterations)

✅ 답안

A (Precision)

풀이

정상 메일을 스팸으로 분류하는 것은 False Positive이다.

Precision은
“스팸이라고 예측한 것 중 실제 스팸의 비율”을 의미한다.

따라서 Precision을 높이면
이러한 오류를 줄일 수 있다.

키포인트

False Positive 줄이기 → Precision

✅ Quiz 6

문제 (영어)

Your model achieves a 100% accuracy score on the test set. Why is this result considered suspicious?

(A) The model has generalized perfectly to new, unseen data.
(B) Many examples in the test set are duplicates of examples in the training set.
(C) The model is using an extremely complex and advanced algorithm.
(D) The training set was too small for the model to learn any meaningful patterns.

문제 (한글)

모델이 테스트 데이터에서 100% 정확도를 기록했다.
이 결과가 왜 의심스러운가?

(A) 모델이 완벽하게 일반화되었다.
(B) 테스트 데이터와 훈련 데이터가 중복되었을 가능성이 있다.
(C) 모델이 매우 복잡한 알고리즘을 사용했다.
(D) 훈련 데이터가 너무 적었다.

✅ 답안

풀이

테스트 데이터는 모델이 처음 보는 데이터여야 한다.

하지만 train과 test에 동일한 데이터가 포함되어 있다면
모델이 이미 본 데이터를 다시 맞추는 것이므로
비정상적으로 높은 정확도가 나온다.

이는 대표적인 Data Leakage 상황이다.

키포인트

100% 정확도 → Data Leakage 의심

WEEK 6 핵심 요약

1️⃣ Precision vs Recall

Precision → False Positive 줄이기
Recall → False Negative 줄이기

2️⃣ F1-score

Precision과 Recall의 균형 지표
불균형 데이터에서 중요

3️⃣ Data Split

Train / Validation / Test 분리
반드시 Shuffle 수행

4️⃣ Data Leakage

미래 정보 사용 금지
비정상적으로 높은 성능은 의심

한 줄 정리

모델 평가는 정확도 하나로 판단할 수 없으며,
문제 상황에 따라 Precision과 Recall을 적절히 선택하는 것이 핵심이다.

[MLOps] Quiz - WEEK 5

Binsoo — Thu, 9 Apr 2026 14:37:58 +0900

WEEK 5 – Data Splitting & Evaluation

이번 주차에서는 모델의 성능을 올바르게 평가하기 위한
Precision, Recall, F1-score, Data Leakage, Data Splitting 개념을 학습한다.

핵심은
상황에 따라 어떤 지표를 선택해야 하는지 판단하는 것이다.

✅ Quiz 1

문제 (영어)

You developed an AI model to predict whether a property is a "bargain."
An investor only visits a property if the model predicts it as a "bargain."
To minimize the cost of wasted time (False Positives), which metric should the model prioritize?

(A) Recall
(B) Precision
(C) Data Splitting
(D) Data Bucketing

문제 (한글)

급매물 여부를 예측하는 모델에서
잘못된 추천(헛걸음, False Positive)을 줄이려면 어떤 지표를 우선해야 하는가?

(A) 재현율(Recall)
(B) 정밀도(Precision)
(C) 데이터 분할(Data Splitting)
(D) 데이터 버킷팅(Data Bucketing)

✅ 답안

B (Precision)

풀이

False Positive는 실제로는 급매물이 아닌데
모델이 급매물이라고 잘못 예측하는 경우이다.

이 문제에서는 헛걸음을 줄이는 것이 중요하므로
정확하게 맞춘 비율을 의미하는 Precision이 중요하다.

키포인트

False Positive 줄이기 → Precision

✅ Quiz 2

문제 (영어)

You developed an AI model to find every 'bargain' in the market.
An investor wants to review every single potential 'bargain,' even if some are not actually bargains.
Which metric is most important here?

(A) Recall
(B) Precision
(C) Feature Cross
(D) Accuracy

문제 (한글)

실제 급매물을 하나도 놓치지 않는 것이 중요하다면
어떤 지표가 가장 중요한가?

(A) 재현율(Recall)
(B) 정밀도(Precision)
(C) 특성 결합(Feature Cross)
(D) 정확도(Accuracy)

✅ 답안

A (Recall)

풀이

이 문제에서는 실제 급매물을 놓치지 않는 것이 핵심이다.

즉, False Negative를 줄이는 것이 중요하며
이는 Recall이 담당하는 역할이다.

키포인트

놓치면 안 되는 경우 → Recall

✅ Quiz 3

문제 (영어)

Which of the following is a classic example of "Data Leakage"?

(A) Using "Distance to Subway Station"
(B) Including "Transaction Finalized" status
(C) Splitting data 80/20
(D) Shuffling data

문제 (한글)

다음 중 데이터 누수(Data Leakage)의 대표적인 사례는 무엇인가?

(A) 지하철역과의 거리를 사용하는 경우
(B) 거래 완료 여부 데이터를 포함하는 경우
(C) 데이터를 80/20으로 나누는 경우
(D) 데이터를 섞는 경우

✅ 답안

풀이

Data Leakage는 실제 예측 시점에는 알 수 없는 정보를
모델이 학습에 사용하는 경우를 의미한다.

“거래 완료 여부”는 결과 이후에 알 수 있는 정보이므로
이를 사용하면 모델이 미래 정보를 미리 보는 것이 된다.

키포인트

미래 정보 사용 → Data Leakage

✅ Quiz 4

문제 (영어)

In an insurance model, falsely predicting a high-risk individual as low-risk (False Negative) leads to unexpected payouts.
Which metric should be managed?

(A) Recall
(B) Precision
(C) Accuracy
(D) Training Loss

문제 (한글)

고위험 고객을 놓치는(False Negative) 것을 방지하려면 어떤 지표를 관리해야 하는가?

(A) 재현율(Recall)
(B) 정밀도(Precision)
(C) 정확도(Accuracy)
(D) 훈련 손실(Training Loss)

✅ 답안

A (Recall)

풀이

False Negative는 실제 위험한 고객을 놓치는 경우이다.

이 경우 손실이 매우 크기 때문에
실제 양성을 잘 잡아내는 Recall이 중요하다.

키포인트

False Negative 줄이기 → Recall

✅ Quiz 5

문제 (영어)

An insurance fraud detection model shows 99.9% Accuracy but only 0.1 F1-Score. What can we conclude?

(A) The model is perfect
(B) Ignoring rare fraud cases
(C) Overfitting
(D) Numerical error

문제 (한글)

정확도는 매우 높지만 F1-score가 낮은 경우 무엇을 의미하는가?

(A) 완벽한 모델이다
(B) 희귀한 사기 케이스를 무시하고 있다
(C) 과적합되었다
(D) 계산 오류이다

✅ 답안

풀이

데이터가 불균형한 경우
모델이 대부분 클래스만 예측해도 Accuracy는 높게 나온다.

하지만 중요한 클래스(사기)를 놓치면
Precision과 Recall이 낮아지고 F1-score도 낮아진다.

키포인트

Accuracy만 보면 안됨
불균형 데이터 → F1-score 중요

✅ Quiz 6

문제 (영어)

To ensure your training, validation, and test sets all represent the same kind of data, what is the most important step?

A. Sort by date
B. Do nothing
C. Shuffle data

문제 (한글)

데이터 분할 시 동일한 분포를 유지하기 위해 가장 중요한 것은 무엇인가?

(A) 날짜순 정렬
(B) 아무것도 하지 않음
(C) 데이터 셔플

✅ 답안

풀이

데이터를 섞지 않으면 특정 패턴이 한쪽 데이터에 몰릴 수 있다.

따라서 분할 전에 반드시 무작위로 섞어야 한다.

키포인트

데이터 분할 전 → Shuffle 필수

✅ Quiz 7

문제 (영어)

Detecting dangerous insects. Missing one is very costly. False alarm is cheap. Which metric is priority?

A. Accuracy
B. Precision
C. Recall

문제 (한글)

해충을 놓치는 것이 매우 위험한 상황에서 어떤 지표가 중요한가?

(A) 정확도
(B) 정밀도
(C) 재현율

✅ 답안

C (Recall)

풀이

놓치는 것이 가장 위험하므로
False Negative를 줄이는 것이 핵심이다.

따라서 Recall이 중요하다.

키포인트

놓치면 안됨 → Recall

✅ Quiz 8

문제 (영어)

Spam filter moves important emails to spam. Which metric to improve?

(A) Precision
(B) Recall
(C) Loss
(D) Iterations

문제 (한글)

중요한 이메일이 스팸으로 잘못 분류되는 경우 어떤 지표를 개선해야 하는가?

(A) 정밀도
(B) 재현율
(C) 손실
(D) 반복 횟수

✅ 답안

A (Precision)

풀이

정상 메일을 스팸으로 분류하는 것은 False Positive이다.

따라서 Precision을 높여야 한다.

키포인트

False Positive 줄이기 → Precision

✅ Quiz 9

문제 (영어)

Your model achieves 100% accuracy on the test set. Why suspicious?

(A) Perfect generalization
(B) Duplicate data
(C) Complex model
(D) Small dataset

문제 (한글)

테스트 데이터에서 100% 정확도가 나온 경우 왜 의심스러운가?

(A) 완벽한 일반화
(B) 데이터 중복
(C) 복잡한 모델
(D) 데이터 부족

✅ 답안

풀이

Train과 Test에 동일한 데이터가 포함되면
모델이 이미 본 데이터를 다시 맞추게 된다.

이는 Data Leakage 상황이다.

키포인트

100% 정확도 → Data Leakage 의심

WEEK 5 핵심 요약

1️⃣ Precision vs Recall

Precision → False Positive 줄이기
Recall → False Negative 줄이기

2️⃣ F1-score

Precision + Recall 균형 지표
불균형 데이터에서 중요

3️⃣ Data Splitting

Train / Validation / Test 분리
반드시 Shuffle 수행

4️⃣ Data Leakage

미래 정보 사용 금지
비정상적인 성능은 의심

한 줄 정리

모델 평가는 단순 정확도가 아니라,
문제 상황에 맞는 Precision과 Recall을 선택하는 것이 핵심이다.

[MLOps] Quiz - WEEK 4

Binsoo — Thu, 9 Apr 2026 14:37:11 +0900

WEEK 4 – Categorical Data & Feature Cross

이번 주차에서는 범주형 데이터를 처리하는 방법과
선형 모델의 한계를 보완하는 Feature Cross 개념을 학습한다.

핵심은
카테고리 데이터 처리 방식 (One-Hot, Hashing)
비선형 패턴을 잡기 위한 Feature Cross

✅ Quiz 1

문제 (영어)

What is the primary strategic difference between an Outlier Bucket and Feature Hashing?

(A) Outlier Bucket is for numerical data, while Hashing is for categorical data.
(B) Outlier Bucket is selective grouping for rare data, while Hashing is universal compression for all data.
(C) Hashing requires a predefined vocabulary, but Outlier Bucket does not.
(D) Outlier Bucket increases the dimensionality, while Hashing reduces it.

문제 (한글)

Outlier Bucket과 Feature Hashing의 핵심적인 차이는 무엇인가?

(A) Outlier Bucket은 수치형 데이터용이고, Hashing은 범주형 데이터용이다.
(B) Outlier Bucket은 희귀 데이터만 묶는 방식이고, Hashing은 전체 데이터를 압축하는 방식이다.
(C) Hashing은 사전 정의된 단어 집합이 필요하지만, Outlier Bucket은 필요 없다.
(D) Outlier Bucket은 차원을 증가시키고, Hashing은 차원을 감소시킨다.

✅ 답안

풀이

Outlier Bucket은 등장 빈도가 낮은 일부 카테고리만 묶는 방식이다.

반면 Feature Hashing은 모든 카테고리를
고정된 크기의 공간으로 압축하는 방식이다.

즉,

Outlier Bucket → 일부 데이터 처리
Hashing → 전체 데이터 압축

키포인트

Outlier Bucket → 선택적 처리
Hashing → 전체 압축

✅ Quiz 2

문제 (영어)

When dealing with millions of Product IDs at a scale like Amazon, why are Hashing or Embeddings preferred over One-Hot Encoding?

(A) To solve the O(N) memory explosion problem
(B) Encryption
(C) Cannot represent numbers
(D) All are outliers

문제 (한글)

수백만 개의 상품 ID를 다룰 때
왜 One-Hot Encoding 대신 Hashing 또는 Embedding을 사용하는가?

(A) 차원 증가로 인한 메모리 폭발 문제를 해결하기 위해
(B) 보안상의 이유로 암호화가 필요하기 때문에
(C) One-Hot Encoding이 숫자를 표현할 수 없기 때문에
(D) 모든 ID가 이상치이기 때문에

✅ 답안

풀이

One-Hot Encoding은 카테고리 수만큼 차원이 증가한다.

상품 ID가 수백만 개라면
벡터의 길이도 수백만이 되어
메모리와 연산 비용이 매우 커진다.

따라서 이를 해결하기 위해
Hashing이나 Embedding을 사용한다.

키포인트

One-Hot → 차원 폭발 문제
Hashing / Embedding → 효율적 표현

✅ Quiz 3

문제 (영어)

How can a Machine Learning model still distinguish between two different categories that "collide" in the same hash bucket?

(A) By using the context provided by other features appearing together in the record.
(B) The hash function changes in real-time.
(C) The model ignores the data.
(D) Manual relabeling

문제 (한글)

같은 해시 버킷에 충돌된 서로 다른 카테고리를
모델은 어떻게 구분할 수 있는가?

(A) 다른 feature들과 함께 나타나는 맥락(context)을 활용한다.
(B) 해시 함수가 실시간으로 변경된다.
(C) 해당 데이터를 무시한다.
(D) 사람이 직접 라벨을 수정한다.

✅ 답안

풀이

Hashing에서는 서로 다른 카테고리가
같은 버킷에 들어가는 충돌이 발생할 수 있다.

이때 모델은 하나의 feature만 보는 것이 아니라
다른 feature들과의 조합을 함께 고려하여 판단한다.

즉, Context를 통해 구분한다.

키포인트

Hash 충돌 해결 → Context 활용

✅ Quiz 4 (Feature Cross)

문제 (영어)

Why does a linear model with Latitude and Longitude fail to identify a specific, small expensive neighborhood?

문제 (한글)

위도와 경도만 사용하는 선형 모델이
특정 작은 고가 지역을 식별하지 못하는 이유는 무엇인가?

✅ 답안

선형 모델은 비선형적인 지역 패턴을 표현할 수 없기 때문이다.

풀이

선형 모델은 기본적으로 직선(또는 평면) 형태의 관계만 학습한다.

하지만 실제 데이터에서는
특정 위치 조합에서만 가격이 급격히 상승하는
비선형 패턴이 존재한다.

이러한 패턴은 단일 feature로는 표현이 어렵고,
Latitude × Longitude와 같은 Feature Cross를 통해
모델이 학습할 수 있다.

키포인트

선형 모델 → 비선형 패턴 한계
해결 방법 → Feature Cross

WEEK 4 핵심 요약

1️⃣ 범주형 데이터 처리

One-Hot → 기본 방식
Hashing / Embedding → 대규모 데이터 처리

2️⃣ Outlier Bucket vs Hashing

Outlier Bucket → 희귀 데이터 묶기
Hashing → 전체 압축

3️⃣ Hash 충돌 해결

Context 활용 (feature 조합)

4️⃣ Feature Cross

비선형 패턴 학습 가능
선형 모델 한계 해결

한 줄 정리

범주형 데이터는 효율적으로 표현해야 하며,
복잡한 패턴은 Feature Cross를 통해 모델이 학습할 수 있도록 만들어야 한다.

[MLOps] Quiz - WEEK 3

Binsoo — Thu, 9 Apr 2026 14:31:25 +0900

WEEK 3 – Numerical Data & Scaling

이번 주차에서는 수치형 데이터를 다루는 방법과
모델 학습을 돕기 위한 스케일링(Scaling) 기법을 학습한다.

핵심은
Min-Max vs Z-score 차이
이상치 처리 전략
Binning 사용 여부 판단

✅ Quiz 1

문제 (영어)

Why is Linear Scaling (Min-Max) preferred over Z-score for digital image data (0 ~ 255)?

A. Because Linear Scaling is mathematically more complex.
B. To preserve the 'Lighting Context' (absolute brightness) of each image.
C. Because pixel values never have outliers.
D. Because image data always follows a perfect Normal Distribution

문제 (한글)

이미지 데이터 (0~255 픽셀값)에서
왜 Z-score보다 Min-Max Scaling이 더 적합한가?

(A) Linear Scaling이 더 복잡하기 때문
(B) 이미지의 밝기 정보(절대값)를 유지하기 위해
(C) 픽셀 값에는 이상치가 없기 때문
(D) 이미지 데이터는 항상 정규분포를 따르기 때문

✅ 답안

풀이

이미지에서 픽셀 값은 밝기를 의미한다.

0 → 어두움
255 → 밝음

이처럼 절대값 자체가 의미를 가지기 때문에
평균 기준으로 변환하는 Z-score를 사용하면
밝기 정보가 왜곡될 수 있다.

반면 Min-Max는 비율만 유지하면서 변환하므로
이미지 데이터에 적합하다.

키포인트

이미지 → 절대값 중요
따라서 → Min-Max Scaling 사용

✅ Quiz 2

문제 (영어)

What is the primary goal of using Z-score (Standardization) for exam scores?

A. To fix all scores within a range of 0 to 100.
B. To remove "Difficulty Noise" and identify relative standing.
C. To force the distribution into a Uniform Distribution.
D. To convert all decimal scores into integers

문제 (한글)

시험 점수에서 Z-score를 사용하는 주요 목적은 무엇인가?

(A) 점수를 0~100으로 고정하기 위해
(B) 시험 난이도 차이를 제거하고 상대적 위치를 비교하기 위해
(C) 균등 분포로 만들기 위해
(D) 소수점을 정수로 바꾸기 위해

✅ 답안

풀이

시험은 난이도에 따라 평균 점수가 달라진다.

Z-score는 평균을 기준으로
각 점수가 얼마나 떨어져 있는지를 나타내기 때문에
난이도 차이를 제거하고 공정한 비교가 가능하다.

키포인트

Z-score → 상대적 위치 비교

✅ Quiz 3

문제 (영어)

Suppose your data follows a Normal Distribution for 99% of the range, but contains extreme outliers (e.g., 100+ standard deviations away). What is the most robust scaling strategy?

문제 (한글)

데이터의 대부분은 정규분포를 따르지만
극단적인 이상치가 존재할 때 가장 적절한 스케일링 전략은 무엇인가?

✅ 답안

Clipping (또는 Log Scaling) 후 Z-score 적용

풀이

극단적인 이상치는 평균과 표준편차를 왜곡시킨다.

따라서 바로 Z-score를 적용하면
전체 데이터가 영향을 받는다.

먼저

Clipping → 값 제한
Log Scaling → 큰 값 압축

을 통해 이상치를 완화한 후
Z-score를 적용하는 것이 가장 안정적이다.

키포인트

이상치 존재 → 먼저 처리 → 이후 Z-score

✅ Quiz 4 (Binning)

문제 (영어)

This plot shows median home price vs. latitude. The pattern is highly irregular. Is binning a good strategy here?

A. Yes, create many small bins.
B. Yes, create a few large bins based on the visible clusters.
C. No, the pattern is too random for binning to be effective

문제 (한글)

데이터 패턴이 매우 불규칙할 때
binning을 사용하는 것이 적절한가?

(A) 작은 구간으로 많이 나눈다
(B) 큰 구간으로 나눈다
(C) 패턴이 너무 랜덤하여 적절하지 않다

✅ 답안

풀이

Binning은 데이터를 구간으로 나누어
패턴을 단순화하는 방법이다.

하지만 데이터가 불규칙하고 랜덤한 경우에는
구간을 나누어도 의미 있는 패턴이 생기지 않는다.

따라서 binning이 효과적이지 않다.

키포인트

Binning → 패턴 있을 때만 사용

WEEK 3 핵심 요약

1️⃣ Scaling 선택 기준

Min-Max → 절대값 중요 (이미지)
Z-score → 상대 비교 (시험 점수)

2️⃣ 이상치 처리

Clipping / Log → 이상치 완화
이후 Z-score 적용

3️⃣ Binning

패턴 있음 → 효과적
랜덤 → 비효율적

한 줄 정리

스케일링은 데이터의 특성에 맞게 선택해야 하며,
특히 이상치 여부와 절대값/상대값의 중요성이 핵심 판단 기준이다.

[MLOps] Quiz - WEEK 2

Binsoo — Thu, 9 Apr 2026 14:26:16 +0900

WEEK 2 – Machine Learning 문제 유형 구분

이번 주차에서는 머신러닝 문제를
지도학습 vs 비지도학습, 회귀 vs 분류 vs 군집으로 구분하는 방법을 학습한다.

핵심은
정답(라벨)이 있는지
예측 대상이 숫자인지, 카테고리인지 판단하는 것이다.

✅ Quiz 1

문제 (영어)

Scenario: You work for an online store. You are asked to predict how much a customer will spend next month based on their past purchase history.

• Is this Supervised or Unsupervised learning?
• Is it a Classification or Regression problem?

문제 (한글)

온라인 쇼핑몰에서 고객의 과거 구매 데이터를 기반으로
다음 달 소비 금액을 예측하려고 한다.

• 지도학습 vs 비지도학습
• 분류 vs 회귀

✅ 답안

Supervised Learning
Regression

풀이

과거 데이터에는 고객이 실제로 얼마를 소비했는지에 대한
정답(라벨)이 존재한다.

따라서 지도학습에 해당한다.

또한 예측 대상이 “소비 금액”과 같은
연속적인 숫자 값이므로 회귀 문제이다.

키포인트

정답 존재 → 지도학습
숫자 예측 → 회귀(Regression)

✅ Quiz 2 (A)

문제 (영어)

A company analyzes 10,000 customers to find natural groups with similar shopping habits. No predefined labels are provided.

• Is this Supervised or Unsupervised learning?
• Is this Clustering or Classification?

문제 (한글)

10,000명의 고객 데이터를 분석하여
비슷한 소비 패턴을 가진 고객들을 그룹으로 나눈다.
단, 사전에 정의된 라벨은 없다.

• 지도학습 vs 비지도학습
• 군집 vs 분류

✅ 답안

Unsupervised Learning
Clustering

풀이

이 문제는 정답 없이 데이터를 분석하여
유사한 특성을 가진 그룹을 찾는 과정이다.

따라서 비지도학습이며,
데이터를 그룹으로 나누는 작업이므로 군집화이다.

키포인트

라벨 없음 → 비지도학습
그룹 생성 → Clustering

✅ Quiz 2 (B)

문제 (영어)

The company now has defined groups (e.g., "VIP"). They want to assign a new customer to one of these existing categories.

• Is this Supervised or Unsupervised learning?
• Is this Clustering or Classification?

문제 (한글)

이미 정의된 그룹(VIP 등)에
새로운 고객을 해당 그룹 중 하나로 분류하려고 한다.

• 지도학습 vs 비지도학습
• 군집 vs 분류

✅ 답안

Supervised Learning
Classification

풀이

이미 “VIP”와 같은 정답(라벨)이 존재하는 상태이다.

새로운 고객이 어떤 그룹에 속하는지를 예측하는 문제이므로
지도학습에 해당한다.

또한 결과가 숫자가 아닌 카테고리이므로
분류 문제이다.

키포인트

기존 라벨 존재 → 지도학습
카테고리 예측 → Classification

WEEK 2 핵심 요약

1️⃣ 지도학습 vs 비지도학습

지도학습: 정답(라벨) 있음
비지도학습: 정답 없음

2️⃣ 회귀 vs 분류

회귀: 숫자 예측
분류: 카테고리 예측

3️⃣ 군집 vs 분류

군집: 새로운 그룹 생성
분류: 기존 그룹에 할당

한 줄 정리

문제를 풀 때는 먼저 정답의 존재 여부를 판단하고,
그 다음 예측 대상이 숫자인지 카테고리인지를 기준으로 문제 유형을 구분한다.

Data Splitting & Evaluation

Binsoo — Tue, 7 Apr 2026 14:03:04 +0900

1. 왜 데이터를 나눠야 할까?

머신러닝에서 가장 중요한 원칙은 다음과 같다.

학습한 데이터로 평가하면 안 된다.

이미 본 데이터를 다시 평가하면
모델이 잘하는 것처럼 보이지만 실제 성능은 알 수 없다.

쉽게 말하면
문제집 답을 외우고 시험 보는 것과 같다.

2. 데이터 분할 (Train / Validation / Test)

모델을 제대로 평가하기 위해 데이터는 3가지로 나눈다.

Train Dataset → 모델 학습
Validation Dataset → 모델 성능 확인 및 튜닝
Test Dataset → 최종 평가

일반적인 비율은 다음과 같다.

Train: 70%
Validation: 15%
Test: 15%

3. 모델 학습 흐름

머신러닝 모델은 한 번에 완성되지 않는다.

다음 과정을 반복한다.

Train 데이터로 학습
Validation 데이터로 성능 확인
모델 수정
다시 학습

이 과정을 반복한 뒤
마지막에 Test 데이터로 평가한다.

✔️ 핵심 포인트

Test 데이터는 절대 학습에 사용하면 안 된다
Test 평가는 딱 한 번만 수행해야 한다

⚠️ 4. Overfitting (과적합)

✔️ 개념

모델이 패턴을 학습한 것이 아니라
데이터를 외워버린 상태

✔️ 특징

Train 성능: 매우 높음
Validation/Test 성능: 낮음

✔️ 왜 발생할까?

데이터 부족
모델이 너무 복잡

✔️ 한 줄 정리

“이해한 게 아니라 외운 상태”

⚖️ 5. 좋은 데이터란?

좋은 모델보다 더 중요한 것은 데이터이다.

좋은 데이터의 조건은 다음과 같다.

Quantity (양) → 충분히 많아야 한다
Quality (질) → 정확하고 신뢰 가능해야 한다
Completeness (완전성) → 결측치가 적어야 한다

6. 평가 지표 (Metrics)

모델 성능을 평가하는 기준이다.

✅ 6-1. Accuracy (정확도)

전체 중 맞춘 비율

Accuracy = (TP + TN) / (TP + TN + FP + FN)

❗ 문제점

데이터가 불균형할 경우 의미가 없어진다.

예를 들어

정상: 99.9%
이상: 0.1%

모든 데이터를 정상으로 예측해도
Accuracy = 99.9%

하지만 모델은 아무것도 못한 상태이다.

✅ 6-2. Precision (정밀도)

모델이 맞다고 예측한 것 중
실제로 맞은 비율

Precision = TP / (TP + FP)

✔️ 중요한 상황

스팸 필터
투자 모델

잘못된 긍정(오탐)을 줄이는 것이 중요할 때

✅ 6-3. Recall (재현율)

실제 정답 중에서
모델이 얼마나 맞췄는지

Recall = TP / (TP + FN)

✔️ 중요한 상황

암 진단
사기 탐지

놓치면 안 되는 상황

Precision vs Recall

상황중요한 지표

놓치면 위험	Recall
틀리면 위험	Precision

✅ 6-4. F1 Score

Precision과 Recall의 균형

F1 = 2 * (Precision * Recall) / (Precision + Recall)

✔️ 왜 필요할까?

Accuracy가 높아도
실제로 성능이 안 좋은 모델을 잡아낼 수 있다.

⚠️ 7. Class Imbalance (데이터 불균형)

데이터가 한쪽으로 치우친 상황

예:

정상: 99%
이상: 1%

✔️ 문제

Accuracy가 높아도 의미 없음

✔️ 해결

Precision
Recall
F1 Score

8. Data Leakage (데이터 누수)

✔️ 개념

모델이 미래 정보를 몰래 사용하는 상황

✔️ 예시

집값 예측 모델에서
“거래 완료 여부” 사용

→ 실제 예측 시점에는 알 수 없는 정보

✔️ 특징

Accuracy 99~100%
오히려 의심해야 한다

9. 핵심 정리

데이터는 반드시 Train / Validation / Test로 나눈다
Test 데이터는 마지막에 한 번만 사용한다
Overfitting은 데이터를 외운 상태이다
Accuracy만으로 평가하면 위험하다
Precision과 Recall을 상황에 맞게 선택해야 한다
Data Leakage는 반드시 방지해야 한다

✨ 마무리 한 줄

좋은 모델은 “지금 잘 맞추는 모델”이 아니라
“새로운 데이터에서도 잘 맞추는 모델”이다.

Categorical Data & Feature Cross: 데이터 표현이 모델 성능을 바꾸는 이유

Binsoo — Mon, 30 Mar 2026 17:22:10 +0900

머신러닝을 공부하다 보면 흔히 알고리즘에 집중하게 된다.

하지만 실제 성능에 더 큰 영향을 주는 요소는 따로 있다.

바로 데이터를 어떻게 표현하느냐다.

이번 글에서는 범주형 데이터 처리 방법과,
선형 모델의 한계를 극복하기 위한 Feature Cross 개념까지
하나의 흐름으로 정리해보려고 한다.

1. 범주형 데이터는 "값"이 아니라 "종류"다

머신러닝에서 데이터는 크게 두 가지로 나뉜다.

수치형 데이터 (Numerical)
범주형 데이터 (Categorical)

수치형 데이터는 값의 크기가 의미를 가진다.
예를 들어 나이, 가격, 키 같은 데이터는 숫자 자체가 중요하다.

하지만 범주형 데이터는 다르다.

색상: Red, Blue, Green
이메일 상태: Spam / Not Spam
동물: Lion, Tiger, Bear

이 데이터들은 크기가 중요한 게 아니라
어떤 그룹에 속하는지가 중요하다.

즉, 범주형 데이터는
“얼마냐”가 아니라 “무엇이냐”의 문제다.

2. 모델은 왜 범주형 데이터를 그대로 못 쓸까?

머신러닝 모델은 기본적으로 수학 연산을 수행하는 구조다.

그래서 이런 입력은 처리할 수 없다.

Color = Red

대신 이렇게 바꿔야 한다.

Color = 숫자

이 과정을 Encoding(인코딩)이라고 한다.
즉, 문자 데이터를 모델이 이해할 수 있는 숫자로 변환하는 과정이다.

하지만 여기서 중요한 건 단순히 숫자로 바꾸는 것이 아니다.

어떻게 바꾸느냐에 따라 모델의 해석이 달라진다

3. Label Encoding의 함정

가장 단순한 방법은 숫자를 부여하는 것이다.

Red → 0
Blue → 1
Green → 2

이 방법은 간단하지만 치명적인 문제가 있다.

모델이 “순서가 있다”고 착각한다.

예를 들어:

Green > Blue > Red
이런 식으로 해석될 수 있다.

하지만 색상에는 원래 순서가 없다.

즉, 사람이 만든 숫자 규칙이
모델에게는 잘못된 관계(가짜 의미)로 전달된다.

✔ 언제는 괜찮을까?

순서가 실제로 존재하는 경우

Low → 0
Medium → 1
High → 2

이런 경우는 Label Encoding이 적절하다.

4. One-Hot Encoding: 가장 안전한 기본 전략

이 문제를 해결하기 위해 사용하는 방법이
One-Hot Encoding이다.

Red   → [1, 0, 0]
Blue  → [0, 1, 0]
Green → [0, 0, 1]

각 카테고리를 독립된 벡터로 표현한다.

✔ 왜 좋은가?

순서 정보 없음
잘못된 관계 생성 안 함
해석이 직관적

그래서 가장 기본이 되는 방식이다.

5. One-Hot Encoding의 현실적인 문제

문제는 카테고리가 많아질 때 발생한다.

예를 들어:

사용자 ID
상품 ID

이런 데이터는 수십만 ~ 수백만 개의 카테고리를 가진다.

이걸 One-Hot으로 표현하면:

차원이 폭발
대부분 값은 0 (희소 벡터)
메모리 낭비 + 학습 느림

수업에서도 이 상황을
“high-dimensional sparse data” 문제라고 설명한다.

6. 해결 전략 1: Rare Category 처리

어떤 카테고리는 너무 적게 등장한다.

예:

특정 색상 1~2개 데이터

이 경우 모델이 학습하기 어렵다.

해결 방법:

Rare Category → Other

Outlier Bucket

이렇게 묶으면:

노이즈 감소
안정적인 학습 가능

7. 해결 전략 2: 많은 카테고리 처리

✔ Feature Hashing

카테고리를 bucket으로 압축
빠르고 효율적
단점: 충돌 발생 가능

✔ Embedding

카테고리를 dense vector로 표현
의미를 반영한 표현 가능
추천 시스템에서 많이 사용

One-Hot의 한계를 해결하는 핵심 기술이다.

8. 선형 모델의 한계: XOR 문제

선형 모델은 다음과 같은 형태다.

y = w1x1 + w2x2 + b

즉, feature들이 독립적으로 더해진다.

❗ 문제

어떤 데이터는 직선으로 나눌 수 없다.

대표 예: XOR

(0,0) → 0
(1,1) → 0
(0,1) → 1
(1,0) → 1

직선으로 절대 분리 불가능

결과:

모델이 패턴을 못 배움
Underfitting 발생

9. Feature Cross: 상호작용을 모델에 추가하다

이 문제를 해결하는 방법이
Feature Cross다.

핵심 아이디어는 단순하다.

x3 = x1 × x2

새로운 feature를 추가하는 것

✔ 모델 식

y = w1x1 + w2x2 + w3(x1x2) + b

이제 모델은
단순 값뿐 아니라
“조합”까지 학습한다

10. Feature Cross가 중요한 이유

현실 데이터는 대부분 조합에서 의미가 생긴다.

예시: 집 가격

큰 집 → 비쌈
방 많음 → 비쌈

그런데

“큰 집 + 방 많음”
→ 훨씬 더 비쌈

예시: 보험

20대 → 위험
사고 많은 지역 → 위험

그런데

“20대 + 사고 많은 지역”
→ 위험 폭증

이걸 잡는 게 Feature Cross다.

11. 하지만 공짜는 아니다 (Trade-off)

Feature Cross를 많이 만들면:

표현력 ↑
복잡도 ↑
파라미터 수 ↑

예:

위도 100 × 경도 100
→ 10,000개의 조합

모델이 커지고 학습 비용 증가

12. 전체 흐름 정리

이번 내용을 하나로 묶으면 다음과 같다.

범주형 데이터는 그대로 사용할 수 없다
Encoding을 통해 숫자로 변환해야 한다
One-Hot은 기본이지만 확장성 문제가 있다
많은 카테고리는 Hashing / Embedding으로 해결한다
선형 모델은 단일 feature로는 한계가 있다
Feature Cross로 상호작용을 추가하면 성능을 개선할 수 있다

한 줄 핵심

좋은 모델은 알고리즘이 아니라, "데이터 표현"에서 시작된다

✨ 마무리

처음에는 One-Hot Encoding과 Feature Cross가
완전히 다른 개념처럼 느껴질 수 있다.

하지만 본질은 같다.

Encoding → “값을 어떻게 표현할 것인가”
Feature Cross → “관계를 어떻게 표현할 것인가”

결국 머신러닝은
데이터를 얼마나 잘 표현하느냐의 싸움이다

숫자형 데이터 스케일링이란?

Binsoo — Wed, 18 Mar 2026 09:05:47 +0900

숫자형 데이터 스케일링이란?

Linear, Z-score, Log Scaling, Clipping 쉽게 이해하기

머신러닝에서는 데이터를 그냥 넣는다고 끝이 아니다.
특히 숫자형 데이터는 크기 차이, 이상치, 치우친 분포 때문에 모델이 데이터를 이상하게 받아들일 수 있다.
그래서 사용하는 것이 바로 스케일링(Scaling) 이다. 수업 자료에서도 숫자형 데이터 처리의 핵심 목표로 outlier 처리와 Linear, Z-score, Log 같은 정규화/스케일링 기법을 함께 다루고 있다.

예를 들어 한 데이터셋에 다음 두 feature가 있다고 해보자.

나이: 35
연봉: 100,000,000

둘 다 중요한 정보인데, 숫자 크기만 보면 연봉이 훨씬 커 보인다.
이러면 모델은 연봉을 더 중요하게 착각할 수 있다. 수업 자료에서도 이런 상황을 Magnitude Trap이라고 설명하며, 서로 다른 크기의 feature를 공정하게 비교할 수 있도록 맞춰주는 과정이 필요하다고 말한다.

스케일링이 필요한 이유

스케일링의 핵심 목적은 아주 단순하다.

“숫자의 크기 때문에 생기는 불공평함을 줄이자.”

수업 자료에서는 feature scaling의 목표를

같은 운동장에 올려놓기
공정한 비교 만들기
모델 학습을 더 빠르고 안정적으로 만들기
라고 설명한다. 또한 스케일링을 하면 학습 지형이 더 대칭적으로 바뀌어 학습 속도와 수렴이 좋아질 수 있다고 정리한다.

1. Linear Scaling (Normalization)

개념

Linear Scaling은 데이터를 고정된 범위, 보통 0~1 사이로 바꾸는 방법이다.
가장 대표적인 형태는 Min-Max Scaling이다.

예를 들어 점수가 0점부터 100점까지 있다면

0점 → 0
25점 → 0.25
50점 → 0.5
100점 → 1

이렇게 바뀐다.

즉, 원래 값이 전체 범위에서 어디쯤 있는지를 같은 눈금으로 표현하는 것이다.

언제 좋은가?

수업 자료에서는 Linear Scaling이

Min/Max 경계가 분명할 때
값을 고정된 [0,1] 범위에 넣고 싶을 때
이상치가 없고 분포가 비교적 고른 경우
적합하다고 설명한다.

예를 들면 센서 데이터처럼
온도, 습도 값의 범위가 어느 정도 정해져 있는 경우에 잘 어울린다. 수업 자료의 요약 표에서도 Temperature/Humidity Sensor 예시와 함께 제시된다.

단점

Linear Scaling의 가장 큰 약점은 이상치에 약하다는 점이다.

만약 대부분의 값은 작고, 몇 개만 엄청 크다면
큰 값 때문에 나머지 값이 거의 0 근처에 눌려버린다.
수업 자료에서도 “몇 명의 억만장자가 99%의 데이터를 0 근처로 squashing 한다”고 표현하며, highly skewed data에는 좋지 않은 선택이라고 설명한다.

한 줄 정리

Linear Scaling은 데이터를 0~1 같은 고정 범위로 맞추는 데 좋지만, 이상치가 많으면 잘 안 맞는다.

2. Z-score Scaling (Standardization)

개념

Z-score Scaling은 값을 평균에서 얼마나 떨어져 있는지로 바꾸는 방법이다.

즉, 절대값 자체보다
“이 값이 평균보다 얼마나 위나 아래에 있나?”
를 보는 방식이다.

예를 들어 평균이 50점, 표준편차가 10점인 시험에서

40점은 평균보다 10점 낮으므로 z = -1
50점은 평균과 같으므로 z = 0
60점은 평균보다 10점 높으므로 z = 1

이렇게 해석할 수 있다.

특징

수업 자료에서는 Z-score Scaling을

평균 0, 표준편차 1 중심으로 변환
“평균에서 몇 표준편차 떨어졌는가”를 표현
보통 값이 [-3, 3] 근처에 많이 위치
하는 방식으로 설명한다.

또한 정규분포(Bell Curve) 에 잘 맞고, normal data를 과하게 눌러버리지 않으면서 공정한 비교를 할 수 있다고 정리한다.

언제 좋은가?

Z-score는 특히 시험 점수처럼
평균 대비 상대적 위치가 중요할 때 유용하다.
수업 자료 요약 표에서도 SAT/GRE 같은 시험 점수를 예로 든다.

예를 들어,

시험 A에서 80점
시험 B에서 80점

둘 다 숫자는 같지만, 시험 난이도와 전체 평균이 다르면 의미가 달라진다.
이럴 때 Z-score를 쓰면 “상대적으로 얼마나 잘했는지”를 더 공정하게 비교할 수 있다.

한 줄 정리

Z-score는 데이터를 평균 기준으로 다시 표현해서, 상대적 위치를 비교하기 좋게 만든다.

3. Log Scaling

개념

Log Scaling은 너무 큰 값 차이를 압축하는 방법이다.

예를 들어 조회수가

10
100
1,000
10,000

처럼 커질 때, 원래 숫자 그대로는 차이가 너무 크다.
이런 값을 log로 바꾸면 큰 값 차이가 완만해져서 모델이 패턴을 더 쉽게 볼 수 있다.

왜 필요한가?

수업 자료에서는 Log Scaling의 역할을

huge ranges 압축
skewed data 완화
모델이 복잡한 패턴을 배우기 쉽게 만듦
이라고 설명한다.

즉, 어떤 feature 안에서 값 크기 차이가 너무 심하면
큰 값 몇 개가 전체를 지배하게 되는데,
log를 쓰면 이 차이를 줄여줄 수 있다.

언제 좋은가?

자산
연봉
매출
조회수
인구 수

처럼 오른쪽 꼬리가 긴 데이터,
즉 일부 값만 엄청 큰 데이터에 잘 맞는다.
수업 자료 요약 표에서도 Wealth(Net Worth) 예시가 나온다.

한 줄 정리

Log Scaling은 너무 큰 숫자 차이를 압축해서, 치우친 분포를 더 다루기 쉽게 만든다.

4. Clipping

개념

Clipping은 말 그대로 너무 큰 값을 잘라내는 것이다.

예를 들어 threshold를 4.0으로 정하면

3.2 → 3.2
4.7 → 4.0
10.5 → 4.0

이처럼 기준보다 큰 값은 전부 상한선에 맞춰 버린다.

왜 필요한가?

수업 자료에서는 clipping을

extreme outlier를 다룰 때 사용
threshold 이상 값을 cap
원래 데이터보다 더 useful한 feature set을 만들 수 있음
이라고 설명한다. 또한 4.0에서 잘라낸 예시와 함께, 값이 4.0보다 크면 정확히 4.0으로 바뀐다고 정리한다.

주의할 점

Clipping은 강력하지만, 대신 정보가 조금 사라진다.
왜냐하면 4.1과 100이 둘 다 4.0이 되어버릴 수 있기 때문이다.

그래서 먼저 생각해야 할 질문이 있다.

“이 이상치는 실수인가, 실제 중요한 값인가?”

수업 자료에서도 outlier를 다룰 때

실수라면 remove/fix
현실이지만 noise라면 remove 또는 clip
현실이면서 signal이라면 keep & scale
하라고 구분해 준다.

한 줄 정리

Clipping은 극단값의 영향을 줄이는 데 좋지만, 너무 세게 자르면 정보 손실이 생길 수 있다.

네 가지 방법 한 번에 비교하기

정리하면 이렇게 볼 수 있다.

Linear Scaling은 feature들의 범위를 맞추는 방법이다.
Z-score는 평균을 기준으로 상대적 위치를 비교하는 방법이다.
Log Scaling은 한 feature 안의 큰 값 차이를 압축하는 방법이다.
Clipping은 한 feature 안의 극단값을 상한선에서 잘라내는 방법이다.

수업 자료에서는 이 차이를 더 크게 두 갈래로 나눈다.

Inter-feature balance: feature들끼리 단위를 맞춤 → Linear, Z-score
Intra-feature balance: 한 feature 안의 giant outlier를 다룸 → Log, Clipping

이 구분을 이해하면 네 방법이 훨씬 덜 헷갈린다.

어떤 상황에서 무엇을 써야 할까?

아주 간단하게 정리하면 다음과 같다.

데이터 범위를 0~1처럼 맞추고 싶고, 이상치가 거의 없다면
→ Linear Scaling

평균 대비 얼마나 높은지 낮은지가 중요하다면
→ Z-score

값의 크기 차이가 너무 심해서 치우친 분포를 압축해야 한다면
→ Log Scaling

극단적인 이상치 몇 개가 전체를 망치고 있다면
→ Clipping

수업 자료의 전략적 workflow도 비슷하다.

먼저 이상치가 실수인지 현실인지 판단하고, 한 feature 안의 giant를 Log나 Clipping으로 먼저 다룬 뒤, 그 다음 Z-score나 Min-Max로 전체 feature 단위를 맞추라고 설명한다.

마무리

스케일링은 단순히 숫자를 바꾸는 기술이 아니다.
모델이 데이터를 공정하게, 안정적으로, 더 잘 학습하도록 돕는 전처리 전략이다.
특히 숫자형 데이터에서는
“범위를 맞출 것인가?”,
“평균 기준으로 볼 것인가?”,
“큰 값을 압축할 것인가?”,
“극단값을 잘라낼 것인가?”
를 구분해서 생각하는 것이 중요하다.

결국 핵심은 이 한 문장으로 정리할 수 있다.

Linear와 Z-score는 feature들 사이의 균형을 맞추고,
Log와 Clipping은 한 feature 안의 과한 값들을 다루는 방법이다.

AI와 머신러닝 기초 정리: 지도학습, 비지도학습, 분류, 회귀, 군집화

Binsoo — Wed, 11 Mar 2026 08:20:57 +0900

✔️ AI vs ML

핵심

AI	Artificial Intelligence, 인공지능	지능적인 기계를 만드는 큰 분야
ML	Machine Learning, 머신러닝	AI의 하위 분야로, 데이터에서 패턴을 학습하는 기술

한 줄 정리

AI = 큰 개념
ML = AI 안에서 데이터를 통해 배우는 방법

✔️ Supervised vs Unsupervised

= 지도학습 vs 비지도학습

구분

	지도학습	비지도학습
정답(label)	있음	없음
목적	결과 예측	숨은 패턴 찾기
대표 작업	분류, 회귀	군집화, 차원 축소
예시	스팸 판별, 집값 예측	고객 그룹화, 이상치 탐지

한 줄 정리

지도학습 = 정답을 보고 배움
비지도학습 = 정답 없이 패턴을 찾음

✔️ Classification vs Regression

= 둘 다 지도학습 안에 포함됨

구분

	분류	회귀
예측 결과	범주형 값	숫자형 값
질문 방식	무엇인가?	얼마인가?
예시	스팸/정상, 합격/불합격	집값, 매출, 온도

한 줄 정리

Classification = 종류 맞히기
Regression = 숫자 맞히기

✔️ Clustering vs Classification

구분

	군집화	분류
정답(label)	없음	있음
학습 방식	비지도학습	지도학습
목적	비슷한 데이터끼리 묶기	정해진 클래스 예측
예시	고객 세그먼트 나누기	고양이/강아지 판별

한 줄 정리

Clustering = 정답 없이 그룹 찾기
Classification = 정답 보고 분류하기

✔️ 전체 정리

AI
└─ ML
   ├─ Supervised Learning
   │  ├─ Classification
   │  └─ Regression
   └─ Unsupervised Learning
      └─ Clustering

✔️ 모델 활용 예시 정리

활용 예시

Regression	숫자 예측	주택 가격 예측, 날씨/기온 예측
Classification	범주 예측	스팸 탐지, 사기 탐지, 양성/악성 진단
Clustering	그룹 찾기	고객 시장 세분화, 소셜 네트워크 커뮤니티 발견

✔️ “왜 머신러닝이 작동하는가” 정리

키워드 의미

Pattern	데이터에는 반복되는 패턴이 있음
Structure	데이터 안에는 숨겨진 수학적 구조가 있음
Generalization	단순 암기가 아니라 규칙을 배워 새로운 데이터에도 적용 가능

한 줄 정리

머신러닝은 데이터 속 패턴과 구조를 학습해서, 처음 보는 데이터에도 일반화할 수 있다 !