Linear Regression(선형회귀)
·
직장인 대학원/MLOps
머신러닝을 처음 공부하면 가장 먼저 만나게 되는 대표 모델이 바로 Linear Regression(선형회귀) 입니다.이름만 들으면 어렵게 느껴지지만, 사실 핵심은 아주 단순합니다.“입력값이 변할 때 결과값이 어떻게 달라지는지, 가장 잘 맞는 직선을 찾는 것”예를 들어 공부 시간이 늘어나면 시험 점수가 오르는지, 집 크기가 커지면 집값이 비싸지는지, 광고비를 늘리면 매출이 증가하는지를 숫자로 예측하는 문제에 선형회귀를 사용할 수 있습니다. 슬라이드에서도 선형회귀를 가장 단순한 회귀 모델로 소개하며, 목표를 특성(feature)과 라벨(label) 사이의 관계를 모델링하는 것이라고 설명합니다.1. Linear Regression이란?선형회귀는 데이터를 가장 잘 설명하는 하나의 직선을 찾는 방법입니다.결과값이..
[MLOps] Quiz - WEEK 6
·
직장인 대학원/MLOps
📘 WEEK 6 – Model Evaluation & Metric 판단이번 주차에서는 모델 평가에서 중요한Precision, Recall, F1-score, Data Leakage 개념을 실제 문제 상황에 적용하는 방법을 다룬다.핵심은 단순히 개념을 아는 것이 아니라👉 상황에 맞는 지표를 선택하는 능력이다.✅ Quiz 1📌 문제 (영어)In an insurance model, "falsely predicting a high-risk individual as low-risk" (False Negative) leads to unexpected payouts.To prevent this, which metric should be managed?(A) Recall(B) Precision(C) Accurac..
[MLOps] Quiz - WEEK 5
·
직장인 대학원/MLOps
📘 WEEK 5 – Data Splitting & Evaluation이번 주차에서는 모델의 성능을 올바르게 평가하기 위한Precision, Recall, F1-score, Data Leakage, Data Splitting 개념을 학습한다.핵심은👉 상황에 따라 어떤 지표를 선택해야 하는지 판단하는 것이다.✅ Quiz 1📌 문제 (영어)You developed an AI model to predict whether a property is a "bargain."An investor only visits a property if the model predicts it as a "bargain."To minimize the cost of wasted time (False Positives), which ..
[MLOps] Quiz - WEEK 4
·
직장인 대학원/MLOps
📘 WEEK 4 – Categorical Data & Feature Cross이번 주차에서는 범주형 데이터를 처리하는 방법과선형 모델의 한계를 보완하는 Feature Cross 개념을 학습한다.핵심은👉 카테고리 데이터 처리 방식 (One-Hot, Hashing)👉 비선형 패턴을 잡기 위한 Feature Cross✅ Quiz 1📌 문제 (영어)What is the primary strategic difference between an Outlier Bucket and Feature Hashing?(A) Outlier Bucket is for numerical data, while Hashing is for categorical data.(B) Outlier Bucket is selective gro..
[MLOps] Quiz - WEEK 3
·
직장인 대학원/MLOps
📘 WEEK 3 – Numerical Data & Scaling이번 주차에서는 수치형 데이터를 다루는 방법과모델 학습을 돕기 위한 스케일링(Scaling) 기법을 학습한다.핵심은👉 Min-Max vs Z-score 차이👉 이상치 처리 전략👉 Binning 사용 여부 판단✅ Quiz 1📌 문제 (영어)Why is Linear Scaling (Min-Max) preferred over Z-score for digital image data (0 ~ 255)?A. Because Linear Scaling is mathematically more complex.B. To preserve the 'Lighting Context' (absolute brightness) of each image.C. Bec..
[MLOps] Quiz - WEEK 2
·
직장인 대학원/MLOps
📘 WEEK 2 – Machine Learning 문제 유형 구분이번 주차에서는 머신러닝 문제를지도학습 vs 비지도학습, 회귀 vs 분류 vs 군집으로 구분하는 방법을 학습한다.핵심은👉 정답(라벨)이 있는지👉 예측 대상이 숫자인지, 카테고리인지 판단하는 것이다.✅ Quiz 1📌 문제 (영어)Scenario: You work for an online store. You are asked to predict how much a customer will spend next month based on their past purchase history.• Is this Supervised or Unsupervised learning?• Is it a Classification or Regression pr..
📌 Data Splitting & Evaluation
·
직장인 대학원/MLOps
📖 1. 왜 데이터를 나눠야 할까?머신러닝에서 가장 중요한 원칙은 다음과 같다.👉 학습한 데이터로 평가하면 안 된다.이미 본 데이터를 다시 평가하면모델이 잘하는 것처럼 보이지만 실제 성능은 알 수 없다.쉽게 말하면👉 문제집 답을 외우고 시험 보는 것과 같다.📦 2. 데이터 분할 (Train / Validation / Test)모델을 제대로 평가하기 위해 데이터는 3가지로 나눈다.Train Dataset → 모델 학습Validation Dataset → 모델 성능 확인 및 튜닝Test Dataset → 최종 평가일반적인 비율은 다음과 같다.Train: 70%Validation: 15%Test: 15%🔁 3. 모델 학습 흐름머신러닝 모델은 한 번에 완성되지 않는다.다음 과정을 반복한다.Train 데..
Categorical Data & Feature Cross: 데이터 표현이 모델 성능을 바꾸는 이유
·
직장인 대학원/MLOps
머신러닝을 공부하다 보면 흔히 알고리즘에 집중하게 된다.하지만 실제 성능에 더 큰 영향을 주는 요소는 따로 있다. 👉 바로 데이터를 어떻게 표현하느냐다. 이번 글에서는 범주형 데이터 처리 방법과,선형 모델의 한계를 극복하기 위한 Feature Cross 개념까지하나의 흐름으로 정리해보려고 한다.1. 범주형 데이터는 "값"이 아니라 "종류"다머신러닝에서 데이터는 크게 두 가지로 나뉜다.수치형 데이터 (Numerical)범주형 데이터 (Categorical)수치형 데이터는 값의 크기가 의미를 가진다.예를 들어 나이, 가격, 키 같은 데이터는 숫자 자체가 중요하다.하지만 범주형 데이터는 다르다.색상: Red, Blue, Green이메일 상태: Spam / Not Spam동물: Lion, Tiger, Bear..