정수빈 기술블로그임.

📘 WEEK 6 – Model Evaluation & Metric 판단이번 주차에서는 모델 평가에서 중요한Precision, Recall, F1-score, Data Leakage 개념을 실제 문제 상황에 적용하는 방법을 다룬다.핵심은 단순히 개념을 아는 것이 아니라👉 상황에 맞는 지표를 선택하는 능력이다.✅ Quiz 1📌 문제 (영어)In an insurance model, "falsely predicting a high-risk individual as low-risk" (False Negative) leads to unexpected payouts.To prevent this, which metric should be managed?(A) Recall(B) Precision(C) Accurac..

📘 WEEK 5 – Data Splitting & Evaluation이번 주차에서는 모델의 성능을 올바르게 평가하기 위한Precision, Recall, F1-score, Data Leakage, Data Splitting 개념을 학습한다.핵심은👉 상황에 따라 어떤 지표를 선택해야 하는지 판단하는 것이다.✅ Quiz 1📌 문제 (영어)You developed an AI model to predict whether a property is a "bargain."An investor only visits a property if the model predicts it as a "bargain."To minimize the cost of wasted time (False Positives), which ..

📘 WEEK 4 – Categorical Data & Feature Cross이번 주차에서는 범주형 데이터를 처리하는 방법과선형 모델의 한계를 보완하는 Feature Cross 개념을 학습한다.핵심은👉 카테고리 데이터 처리 방식 (One-Hot, Hashing)👉 비선형 패턴을 잡기 위한 Feature Cross✅ Quiz 1📌 문제 (영어)What is the primary strategic difference between an Outlier Bucket and Feature Hashing?(A) Outlier Bucket is for numerical data, while Hashing is for categorical data.(B) Outlier Bucket is selective gro..

📘 WEEK 3 – Numerical Data & Scaling이번 주차에서는 수치형 데이터를 다루는 방법과모델 학습을 돕기 위한 스케일링(Scaling) 기법을 학습한다.핵심은👉 Min-Max vs Z-score 차이👉 이상치 처리 전략👉 Binning 사용 여부 판단✅ Quiz 1📌 문제 (영어)Why is Linear Scaling (Min-Max) preferred over Z-score for digital image data (0 ~ 255)?A. Because Linear Scaling is mathematically more complex.B. To preserve the 'Lighting Context' (absolute brightness) of each image.C. Bec..

📘 WEEK 2 – Machine Learning 문제 유형 구분이번 주차에서는 머신러닝 문제를지도학습 vs 비지도학습, 회귀 vs 분류 vs 군집으로 구분하는 방법을 학습한다.핵심은👉 정답(라벨)이 있는지👉 예측 대상이 숫자인지, 카테고리인지 판단하는 것이다.✅ Quiz 1📌 문제 (영어)Scenario: You work for an online store. You are asked to predict how much a customer will spend next month based on their past purchase history.• Is this Supervised or Unsupervised learning?• Is it a Classification or Regression pr..

📖 1. 왜 데이터를 나눠야 할까?머신러닝에서 가장 중요한 원칙은 다음과 같다.👉 학습한 데이터로 평가하면 안 된다.이미 본 데이터를 다시 평가하면모델이 잘하는 것처럼 보이지만 실제 성능은 알 수 없다.쉽게 말하면👉 문제집 답을 외우고 시험 보는 것과 같다.📦 2. 데이터 분할 (Train / Validation / Test)모델을 제대로 평가하기 위해 데이터는 3가지로 나눈다.Train Dataset → 모델 학습Validation Dataset → 모델 성능 확인 및 튜닝Test Dataset → 최종 평가일반적인 비율은 다음과 같다.Train: 70%Validation: 15%Test: 15%🔁 3. 모델 학습 흐름머신러닝 모델은 한 번에 완성되지 않는다.다음 과정을 반복한다.Train 데..

머신러닝을 공부하다 보면 흔히 알고리즘에 집중하게 된다.하지만 실제 성능에 더 큰 영향을 주는 요소는 따로 있다. 👉 바로 데이터를 어떻게 표현하느냐다. 이번 글에서는 범주형 데이터 처리 방법과,선형 모델의 한계를 극복하기 위한 Feature Cross 개념까지하나의 흐름으로 정리해보려고 한다.1. 범주형 데이터는 "값"이 아니라 "종류"다머신러닝에서 데이터는 크게 두 가지로 나뉜다.수치형 데이터 (Numerical)범주형 데이터 (Categorical)수치형 데이터는 값의 크기가 의미를 가진다.예를 들어 나이, 가격, 키 같은 데이터는 숫자 자체가 중요하다.하지만 범주형 데이터는 다르다.색상: Red, Blue, Green이메일 상태: Spam / Not Spam동물: Lion, Tiger, Bear..

숫자형 데이터 스케일링이란?Linear, Z-score, Log Scaling, Clipping 쉽게 이해하기머신러닝에서는 데이터를 그냥 넣는다고 끝이 아니다.특히 숫자형 데이터는 크기 차이, 이상치, 치우친 분포 때문에 모델이 데이터를 이상하게 받아들일 수 있다.그래서 사용하는 것이 바로 스케일링(Scaling) 이다. 수업 자료에서도 숫자형 데이터 처리의 핵심 목표로 outlier 처리와 Linear, Z-score, Log 같은 정규화/스케일링 기법을 함께 다루고 있다.예를 들어 한 데이터셋에 다음 두 feature가 있다고 해보자.나이: 35연봉: 100,000,000둘 다 중요한 정보인데, 숫자 크기만 보면 연봉이 훨씬 커 보인다.이러면 모델은 연봉을 더 중요하게 착각할 수 있다. 수업 자료에서..

티스토리툴바