<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>정수빈 기술블로그임.</title>
    <link>https://soobindeveloper8.tistory.com/</link>
    <description>내 트러블 슈팅</description>
    <language>ko</language>
    <pubDate>Thu, 16 Apr 2026 10:12:14 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>Binsoo</managingEditor>
    <image>
      <title>정수빈 기술블로그임.</title>
      <url>https://tistory1.daumcdn.net/tistory/4071723/attach/3ababbe8d4b246dbb6982cbb81c20346</url>
      <link>https://soobindeveloper8.tistory.com</link>
    </image>
    <item>
      <title>[MLOps] Quiz - WEEK 6</title>
      <link>https://soobindeveloper8.tistory.com/1116</link>
      <description>&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 6 &amp;ndash; Model Evaluation &amp;amp; Metric 판단&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이번 주차에서는 모델 평가에서 중요한&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Precision, Recall, F1-score, Data Leakage&lt;/b&gt; 개념을 실제 문제 상황에 적용하는 방법을 다룬다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심은 단순히 개념을 아는 것이 아니라&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;상황에 맞는 지표를 선택하는 능력&lt;/b&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 1&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;In an insurance model, &quot;falsely predicting a high-risk individual as low-risk&quot; (False Negative) leads to unexpected payouts.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;To prevent this, which metric should be managed?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Accuracy&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Training Loss&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;보험 모델에서 고위험 고객을 정상으로 잘못 예측하는 경우(False Negative)가 발생하면 큰 손실로 이어진다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이를 방지하기 위해 어떤 지표를 관리해야 하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 재현율(Recall)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 정밀도(Precision)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 정확도(Accuracy)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 훈련 손실(Training Loss)&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A (Recall)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Negative는 실제로 위험한 고객을 놓치는 경우이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제에서는 &amp;ldquo;위험한 사람을 놓치지 않는 것&amp;rdquo;이 핵심이므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 양성 데이터를 얼마나 잘 찾아내는지를 의미하는 Recall이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Negative 줄이기 &amp;rarr; &lt;b&gt;Recall&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 2&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;An insurance fraud detection model shows 99.9% Accuracy but only 0.1 F1-Score. What can we conclude about this model?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) The model is perfect and ready for deployment.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) The model is likely ignoring rare fraud cases and just predicting &quot;No Fraud&quot; for everyone.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) The model is overfitted to the training data.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) There is a numerical error in the calculation&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;보험 사기 탐지 모델의 정확도는 99.9%이지만 F1-score는 0.1에 불과하다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 모델에 대해 내릴 수 있는 결론은 무엇인가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 모델은 완벽하며 바로 실제 환경에 적용 가능하다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 모델이 희귀한 사기 케이스를 무시하고 대부분을 &amp;ldquo;정상(No Fraud)&amp;rdquo;으로 예측하고 있다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 모델이 학습 데이터에 과적합(Overfitting)되었다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 계산 과정에 수치적인 오류가 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터가 불균형한 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 대부분을 차지하는 클래스만 예측해도 Accuracy는 매우 높게 나온다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 실제 중요한 사기 데이터를 놓치면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision과 Recall이 낮아지고 F1-score도 낮아진다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 이 모델은 사기 케이스를 거의 탐지하지 못하고&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;대부분을 정상으로 예측하고 있을 가능성이 높다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy 높아도 신뢰 불가&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;불균형 데이터 &amp;rarr; &lt;b&gt;F1-score 확인&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 3&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;To ensure your training, validation, and test sets all represent the same kind of data, what is the most important step after collecting your data?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;훈련, 검증, 테스트 데이터가 동일한 분포를 가지도록 하기 위해&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 수집 후 가장 중요한 단계는 무엇인가?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터를 무작위로 섞는다 (Shuffle)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터를 섞지 않으면 특정 패턴이 한쪽 데이터셋에만 몰릴 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train &amp;rarr; 특정 기간 데이터&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Test &amp;rarr; 다른 기간 데이터&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 경우 모델 평가 결과가 왜곡된다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 분할 전에 반드시 데이터를 무작위로 섞어야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 분할 전 &amp;rarr; &lt;b&gt;Shuffle 필수&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 4&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;You are building a model to detect a dangerous invasive insect.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Missing one insect &amp;rarr; very costly&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; False Alarm &amp;rarr; low cost&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Which metric should be your top priority?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;위험한 외래 해충을 탐지하는 모델에서&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;해충을 놓치는 경우는 매우 큰 피해를 발생시키고,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;오탐(False Alarm)은 비용이 낮다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 경우 가장 중요한 지표는 무엇인가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Accuracy&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Recall&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;C (Recall)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제의 핵심은 &amp;ldquo;놓치면 안 된다&amp;rdquo;는 점이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, False Negative가 매우 치명적인 상황이며&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 해충을 최대한 많이 찾아내는 것이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 Recall을 최우선으로 고려해야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;놓치면 큰 문제 &amp;rarr; &lt;b&gt;Recall&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 5&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;If your Spam Filter keeps moving important work emails to the Spam folder, which metric do you need to improve?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Loss&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Iterations&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;중요한 이메일이 스팸으로 잘못 분류되는 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;어떤 지표를 개선해야 하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 정밀도(Precision)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 재현율(Recall)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 손실(Loss)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 반복 횟수(Iterations)&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A (Precision)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정상 메일을 스팸으로 분류하는 것은 False Positive이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;스팸이라고 예측한 것 중 실제 스팸의 비율&amp;rdquo;을 의미한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 Precision을 높이면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이러한 오류를 줄일 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Positive 줄이기 &amp;rarr; &lt;b&gt;Precision&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 6&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Your model achieves a 100% accuracy score on the test set. Why is this result considered suspicious?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) The model has generalized perfectly to new, unseen data.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Many examples in the test set are duplicates of examples in the training set.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) The model is using an extremely complex and advanced algorithm.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) The training set was too small for the model to learn any meaningful patterns.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 테스트 데이터에서 100% 정확도를 기록했다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 결과가 왜 의심스러운가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 모델이 완벽하게 일반화되었다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 테스트 데이터와 훈련 데이터가 중복되었을 가능성이 있다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 모델이 매우 복잡한 알고리즘을 사용했다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 훈련 데이터가 너무 적었다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;테스트 데이터는 모델이 처음 보는 데이터여야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 train과 test에 동일한 데이터가 포함되어 있다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 이미 본 데이터를 다시 맞추는 것이므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비정상적으로 높은 정확도가 나온다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이는 대표적인 Data Leakage 상황이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;100% 정확도 &amp;rarr; &lt;b&gt;Data Leakage 의심&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 6 핵심 요약&lt;/span&gt;&lt;/h1&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1️⃣ Precision vs Recall&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision &amp;rarr; False Positive 줄이기&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Recall &amp;rarr; False Negative 줄이기&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2️⃣ F1-score&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision과 Recall의 균형 지표&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;불균형 데이터에서 중요&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3️⃣ Data Split&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train / Validation / Test 분리&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;반드시 Shuffle 수행&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;4️⃣ Data Leakage&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;미래 정보 사용 금지&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비정상적으로 높은 성능은 의심&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  한 줄 정리&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 평가는 정확도 하나로 판단할 수 없으며,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제 상황에 따라 Precision과 Recall을 적절히 선택하는 것이 핵심이다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1116</guid>
      <comments>https://soobindeveloper8.tistory.com/1116#entry1116comment</comments>
      <pubDate>Thu, 9 Apr 2026 14:38:39 +0900</pubDate>
    </item>
    <item>
      <title>[MLOps] Quiz - WEEK 5</title>
      <link>https://soobindeveloper8.tistory.com/1115</link>
      <description>&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 5 &amp;ndash; Data Splitting &amp;amp; Evaluation&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이번 주차에서는 모델의 성능을 올바르게 평가하기 위한&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Precision, Recall, F1-score, Data Leakage, Data Splitting&lt;/b&gt; 개념을 학습한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;상황에 따라 어떤 지표를 선택해야 하는지 판단하는 것&lt;/b&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 1&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;You developed an AI model to predict whether a property is a &quot;bargain.&quot;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;An investor only visits a property if the model predicts it as a &quot;bargain.&quot;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;To minimize the cost of wasted time (False Positives), which metric should the model prioritize?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Data Splitting&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Data Bucketing&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;급매물 여부를 예측하는 모델에서&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;잘못된 추천(헛걸음, False Positive)을 줄이려면 어떤 지표를 우선해야 하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 재현율(Recall)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 정밀도(Precision)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 데이터 분할(Data Splitting)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 데이터 버킷팅(Data Bucketing)&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B (Precision)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Positive는 실제로는 급매물이 아닌데&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 급매물이라고 잘못 예측하는 경우이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제에서는 헛걸음을 줄이는 것이 중요하므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정확하게 맞춘 비율을 의미하는 Precision이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Positive 줄이기 &amp;rarr; &lt;b&gt;Precision&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 2&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;You developed an AI model to find every 'bargain' in the market.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;An investor wants to review every single potential 'bargain,' even if some are not actually bargains.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Which metric is most important here?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Feature Cross&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Accuracy&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 급매물을 하나도 놓치지 않는 것이 중요하다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;어떤 지표가 가장 중요한가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 재현율(Recall)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 정밀도(Precision)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 특성 결합(Feature Cross)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 정확도(Accuracy)&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A (Recall)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제에서는 실제 급매물을 놓치지 않는 것이 핵심이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, False Negative를 줄이는 것이 중요하며&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이는 Recall이 담당하는 역할이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;놓치면 안 되는 경우 &amp;rarr; &lt;b&gt;Recall&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 3&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Which of the following is a classic example of &quot;Data Leakage&quot;?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Using &quot;Distance to Subway Station&quot;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Including &quot;Transaction Finalized&quot; status&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Splitting data 80/20&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Shuffling data&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다음 중 데이터 누수(Data Leakage)의 대표적인 사례는 무엇인가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 지하철역과의 거리를 사용하는 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 거래 완료 여부 데이터를 포함하는 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 데이터를 80/20으로 나누는 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 데이터를 섞는 경우&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Data Leakage는 실제 예측 시점에는 알 수 없는 정보를&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 학습에 사용하는 경우를 의미한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;거래 완료 여부&amp;rdquo;는 결과 이후에 알 수 있는 정보이므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이를 사용하면 모델이 미래 정보를 미리 보는 것이 된다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;미래 정보 사용 &amp;rarr; &lt;b&gt;Data Leakage&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 4&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;In an insurance model, falsely predicting a high-risk individual as low-risk (False Negative) leads to unexpected payouts.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Which metric should be managed?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Accuracy&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Training Loss&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고위험 고객을 놓치는(False Negative) 것을 방지하려면 어떤 지표를 관리해야 하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 재현율(Recall)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 정밀도(Precision)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 정확도(Accuracy)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 훈련 손실(Training Loss)&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A (Recall)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Negative는 실제 위험한 고객을 놓치는 경우이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 경우 손실이 매우 크기 때문에&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 양성을 잘 잡아내는 Recall이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Negative 줄이기 &amp;rarr; &lt;b&gt;Recall&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 5&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;An insurance fraud detection model shows 99.9% Accuracy but only 0.1 F1-Score. What can we conclude?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) The model is perfect&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Ignoring rare fraud cases&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Overfitting&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Numerical error&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정확도는 매우 높지만 F1-score가 낮은 경우 무엇을 의미하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 완벽한 모델이다&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 희귀한 사기 케이스를 무시하고 있다&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 과적합되었다&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 계산 오류이다&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터가 불균형한 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 대부분 클래스만 예측해도 Accuracy는 높게 나온다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 중요한 클래스(사기)를 놓치면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision과 Recall이 낮아지고 F1-score도 낮아진다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy만 보면 안됨&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;불균형 데이터 &amp;rarr; &lt;b&gt;F1-score 중요&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 6&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;To ensure your training, validation, and test sets all represent the same kind of data, what is the most important step?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A. Sort by date&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B. Do nothing&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;C. Shuffle data&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 분할 시 동일한 분포를 유지하기 위해 가장 중요한 것은 무엇인가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 날짜순 정렬&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 아무것도 하지 않음&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 데이터 셔플&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;C&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터를 섞지 않으면 특정 패턴이 한쪽 데이터에 몰릴 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 분할 전에 반드시 무작위로 섞어야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 분할 전 &amp;rarr; &lt;b&gt;Shuffle 필수&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 7&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Detecting dangerous insects. Missing one is very costly. False alarm is cheap. Which metric is priority?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A. Accuracy&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B. Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;C. Recall&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;해충을 놓치는 것이 매우 위험한 상황에서 어떤 지표가 중요한가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 정확도&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 정밀도&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 재현율&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;C (Recall)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;놓치는 것이 가장 위험하므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Negative를 줄이는 것이 핵심이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 Recall이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;놓치면 안됨 &amp;rarr; &lt;b&gt;Recall&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 8&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Spam filter moves important emails to spam. Which metric to improve?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Precision&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Recall&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Loss&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Iterations&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;중요한 이메일이 스팸으로 잘못 분류되는 경우 어떤 지표를 개선해야 하는가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 정밀도&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 재현율&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 손실&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 반복 횟수&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A (Precision)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정상 메일을 스팸으로 분류하는 것은 False Positive이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 Precision을 높여야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;False Positive 줄이기 &amp;rarr; &lt;b&gt;Precision&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 9&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Your model achieves 100% accuracy on the test set. Why suspicious?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) Perfect generalization&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) Duplicate data&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) Complex model&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) Small dataset&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;테스트 데이터에서 100% 정확도가 나온 경우 왜 의심스러운가?&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(A) 완벽한 일반화&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(B) 데이터 중복&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(C) 복잡한 모델&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(D) 데이터 부족&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train과 Test에 동일한 데이터가 포함되면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 이미 본 데이터를 다시 맞추게 된다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이는 Data Leakage 상황이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;100% 정확도 &amp;rarr; &lt;b&gt;Data Leakage 의심&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 5 핵심 요약&lt;/span&gt;&lt;/h1&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1️⃣ Precision vs Recall&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision &amp;rarr; False Positive 줄이기&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Recall &amp;rarr; False Negative 줄이기&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2️⃣ F1-score&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision + Recall 균형 지표&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;불균형 데이터에서 중요&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3️⃣ Data Splitting&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train / Validation / Test 분리&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;반드시 Shuffle 수행&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;4️⃣ Data Leakage&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;미래 정보 사용 금지&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비정상적인 성능은 의심&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  한 줄 정리&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 평가는 단순 정확도가 아니라,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제 상황에 맞는 Precision과 Recall을 선택하는 것이 핵심이다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1115</guid>
      <comments>https://soobindeveloper8.tistory.com/1115#entry1115comment</comments>
      <pubDate>Thu, 9 Apr 2026 14:37:58 +0900</pubDate>
    </item>
    <item>
      <title>[MLOps] Quiz - WEEK 4</title>
      <link>https://soobindeveloper8.tistory.com/1114</link>
      <description>&lt;h1&gt;  WEEK 4 &amp;ndash; Categorical Data &amp;amp; Feature Cross&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이번 주차에서는 범주형 데이터를 처리하는 방법과&lt;br /&gt;선형 모델의 한계를 보완하는 &lt;b&gt;Feature Cross&lt;/b&gt; 개념을 학습한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;핵심은&lt;br /&gt;  &lt;b&gt;카테고리 데이터 처리 방식 (One-Hot, Hashing)&lt;/b&gt;&lt;br /&gt;  &lt;b&gt;비선형 패턴을 잡기 위한 Feature Cross&lt;/b&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 1&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;What is the primary strategic difference between an Outlier Bucket and Feature Hashing?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) Outlier Bucket is for numerical data, while Hashing is for categorical data.&lt;br /&gt;(B) Outlier Bucket is selective grouping for rare data, while Hashing is universal compression for all data.&lt;br /&gt;(C) Hashing requires a predefined vocabulary, but Outlier Bucket does not.&lt;br /&gt;(D) Outlier Bucket increases the dimensionality, while Hashing reduces it.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Outlier Bucket과 Feature Hashing의 핵심적인 차이는 무엇인가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) Outlier Bucket은 수치형 데이터용이고, Hashing은 범주형 데이터용이다.&lt;br /&gt;(B) Outlier Bucket은 희귀 데이터만 묶는 방식이고, Hashing은 전체 데이터를 압축하는 방식이다.&lt;br /&gt;(C) Hashing은 사전 정의된 단어 집합이 필요하지만, Outlier Bucket은 필요 없다.&lt;br /&gt;(D) Outlier Bucket은 차원을 증가시키고, Hashing은 차원을 감소시킨다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;B&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Outlier Bucket은 등장 빈도가 낮은 일부 카테고리만 묶는 방식이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;반면 Feature Hashing은 모든 카테고리를&lt;br /&gt;고정된 크기의 공간으로 압축하는 방식이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉,&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Outlier Bucket &amp;rarr; 일부 데이터 처리&lt;/li&gt;
&lt;li&gt;Hashing &amp;rarr; 전체 데이터 압축&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Outlier Bucket &amp;rarr; &lt;b&gt;선택적 처리&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;Hashing &amp;rarr; &lt;b&gt;전체 압축&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 2&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;When dealing with millions of Product IDs at a scale like Amazon, why are Hashing or Embeddings preferred over One-Hot Encoding?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) To solve the O(N) memory explosion problem&lt;br /&gt;(B) Encryption&lt;br /&gt;(C) Cannot represent numbers&lt;br /&gt;(D) All are outliers&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;수백만 개의 상품 ID를 다룰 때&lt;br /&gt;왜 One-Hot Encoding 대신 Hashing 또는 Embedding을 사용하는가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) 차원 증가로 인한 메모리 폭발 문제를 해결하기 위해&lt;br /&gt;(B) 보안상의 이유로 암호화가 필요하기 때문에&lt;br /&gt;(C) One-Hot Encoding이 숫자를 표현할 수 없기 때문에&lt;br /&gt;(D) 모든 ID가 이상치이기 때문에&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;A&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;One-Hot Encoding은 카테고리 수만큼 차원이 증가한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;상품 ID가 수백만 개라면&lt;br /&gt;벡터의 길이도 수백만이 되어&lt;br /&gt;메모리와 연산 비용이 매우 커진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서 이를 해결하기 위해&lt;br /&gt;Hashing이나 Embedding을 사용한다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;One-Hot &amp;rarr; &lt;b&gt;차원 폭발 문제&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;Hashing / Embedding &amp;rarr; &lt;b&gt;효율적 표현&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 3&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;How can a Machine Learning model still distinguish between two different categories that &quot;collide&quot; in the same hash bucket?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) By using the context provided by other features appearing together in the record.&lt;br /&gt;(B) The hash function changes in real-time.&lt;br /&gt;(C) The model ignores the data.&lt;br /&gt;(D) Manual relabeling&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;같은 해시 버킷에 충돌된 서로 다른 카테고리를&lt;br /&gt;모델은 어떻게 구분할 수 있는가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) 다른 feature들과 함께 나타나는 맥락(context)을 활용한다.&lt;br /&gt;(B) 해시 함수가 실시간으로 변경된다.&lt;br /&gt;(C) 해당 데이터를 무시한다.&lt;br /&gt;(D) 사람이 직접 라벨을 수정한다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;A&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Hashing에서는 서로 다른 카테고리가&lt;br /&gt;같은 버킷에 들어가는 충돌이 발생할 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이때 모델은 하나의 feature만 보는 것이 아니라&lt;br /&gt;다른 feature들과의 조합을 함께 고려하여 판단한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;Context를 통해 구분한다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Hash 충돌 해결 &amp;rarr; &lt;b&gt;Context 활용&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 4 (Feature Cross)&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Why does a linear model with Latitude and Longitude fail to identify a specific, small expensive neighborhood?&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;위도와 경도만 사용하는 선형 모델이&lt;br /&gt;특정 작은 고가 지역을 식별하지 못하는 이유는 무엇인가?&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;선형 모델은 비선형적인 지역 패턴을 표현할 수 없기 때문이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;선형 모델은 기본적으로 직선(또는 평면) 형태의 관계만 학습한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;하지만 실제 데이터에서는&lt;br /&gt;특정 위치 조합에서만 가격이 급격히 상승하는&lt;br /&gt;비선형 패턴이 존재한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이러한 패턴은 단일 feature로는 표현이 어렵고,&lt;br /&gt;Latitude &amp;times; Longitude와 같은 &lt;b&gt;Feature Cross&lt;/b&gt;를 통해&lt;br /&gt;모델이 학습할 수 있다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;선형 모델 &amp;rarr; &lt;b&gt;비선형 패턴 한계&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;해결 방법 &amp;rarr; &lt;b&gt;Feature Cross&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;  WEEK 4 핵심 요약&lt;/h1&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;1️⃣ 범주형 데이터 처리&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;One-Hot &amp;rarr; 기본 방식&lt;/li&gt;
&lt;li&gt;Hashing / Embedding &amp;rarr; 대규모 데이터 처리&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;2️⃣ Outlier Bucket vs Hashing&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Outlier Bucket &amp;rarr; 희귀 데이터 묶기&lt;/li&gt;
&lt;li&gt;Hashing &amp;rarr; 전체 압축&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;3️⃣ Hash 충돌 해결&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Context 활용 (feature 조합)&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;4️⃣ Feature Cross&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;비선형 패턴 학습 가능&lt;/li&gt;
&lt;li&gt;선형 모델 한계 해결&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;  한 줄 정리&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;범주형 데이터는 효율적으로 표현해야 하며,&lt;br /&gt;복잡한 패턴은 Feature Cross를 통해 모델이 학습할 수 있도록 만들어야 한다.&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1114</guid>
      <comments>https://soobindeveloper8.tistory.com/1114#entry1114comment</comments>
      <pubDate>Thu, 9 Apr 2026 14:37:11 +0900</pubDate>
    </item>
    <item>
      <title>[MLOps] Quiz - WEEK 3</title>
      <link>https://soobindeveloper8.tistory.com/1113</link>
      <description>&lt;h1&gt;  WEEK 3 &amp;ndash; Numerical Data &amp;amp; Scaling&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이번 주차에서는 수치형 데이터를 다루는 방법과&lt;br /&gt;모델 학습을 돕기 위한 &lt;b&gt;스케일링(Scaling)&lt;/b&gt; 기법을 학습한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;핵심은&lt;br /&gt;  &lt;b&gt;Min-Max vs Z-score 차이&lt;/b&gt;&lt;br /&gt;  &lt;b&gt;이상치 처리 전략&lt;/b&gt;&lt;br /&gt;  &lt;b&gt;Binning 사용 여부 판단&lt;/b&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 1&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Why is Linear Scaling (Min-Max) preferred over Z-score for digital image data (0 ~ 255)?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;A. Because Linear Scaling is mathematically more complex.&lt;br /&gt;B. To preserve the 'Lighting Context' (absolute brightness) of each image.&lt;br /&gt;C. Because pixel values never have outliers.&lt;br /&gt;D. Because image data always follows a perfect Normal Distribution&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이미지 데이터 (0~255 픽셀값)에서&lt;br /&gt;왜 Z-score보다 Min-Max Scaling이 더 적합한가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) Linear Scaling이 더 복잡하기 때문&lt;br /&gt;(B) 이미지의 밝기 정보(절대값)를 유지하기 위해&lt;br /&gt;(C) 픽셀 값에는 이상치가 없기 때문&lt;br /&gt;(D) 이미지 데이터는 항상 정규분포를 따르기 때문&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;B&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이미지에서 픽셀 값은 밝기를 의미한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;0 &amp;rarr; 어두움&lt;/li&gt;
&lt;li&gt;255 &amp;rarr; 밝음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이처럼 &lt;b&gt;절대값 자체가 의미를 가지기 때문에&lt;/b&gt;&lt;br /&gt;평균 기준으로 변환하는 Z-score를 사용하면&lt;br /&gt;밝기 정보가 왜곡될 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;반면 Min-Max는 비율만 유지하면서 변환하므로&lt;br /&gt;이미지 데이터에 적합하다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이미지 &amp;rarr; &lt;b&gt;절대값 중요&lt;/b&gt;&lt;/li&gt;
&lt;li&gt;따라서 &amp;rarr; &lt;b&gt;Min-Max Scaling 사용&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 2&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;What is the primary goal of using Z-score (Standardization) for exam scores?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;A. To fix all scores within a range of 0 to 100.&lt;br /&gt;B. To remove &quot;Difficulty Noise&quot; and identify relative standing.&lt;br /&gt;C. To force the distribution into a Uniform Distribution.&lt;br /&gt;D. To convert all decimal scores into integers&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;시험 점수에서 Z-score를 사용하는 주요 목적은 무엇인가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) 점수를 0~100으로 고정하기 위해&lt;br /&gt;(B) 시험 난이도 차이를 제거하고 상대적 위치를 비교하기 위해&lt;br /&gt;(C) 균등 분포로 만들기 위해&lt;br /&gt;(D) 소수점을 정수로 바꾸기 위해&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;B&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;시험은 난이도에 따라 평균 점수가 달라진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Z-score는 평균을 기준으로&lt;br /&gt;각 점수가 얼마나 떨어져 있는지를 나타내기 때문에&lt;br /&gt;난이도 차이를 제거하고 공정한 비교가 가능하다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Z-score &amp;rarr; &lt;b&gt;상대적 위치 비교&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 3&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Suppose your data follows a Normal Distribution for 99% of the range, but contains extreme outliers (e.g., 100+ standard deviations away). What is the most robust scaling strategy?&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터의 대부분은 정규분포를 따르지만&lt;br /&gt;극단적인 이상치가 존재할 때 가장 적절한 스케일링 전략은 무엇인가?&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Clipping (또는 Log Scaling) 후 Z-score 적용&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;극단적인 이상치는 평균과 표준편차를 왜곡시킨다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서 바로 Z-score를 적용하면&lt;br /&gt;전체 데이터가 영향을 받는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;먼저&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Clipping &amp;rarr; 값 제한&lt;/li&gt;
&lt;li&gt;Log Scaling &amp;rarr; 큰 값 압축&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;을 통해 이상치를 완화한 후&lt;br /&gt;Z-score를 적용하는 것이 가장 안정적이다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이상치 존재 &amp;rarr; &lt;b&gt;먼저 처리 &amp;rarr; 이후 Z-score&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;✅ Quiz 4 (Binning)&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (영어)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;This plot shows median home price vs. latitude. The pattern is highly irregular. Is binning a good strategy here?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;A. Yes, create many small bins.&lt;br /&gt;B. Yes, create a few large bins based on the visible clusters.&lt;br /&gt;C. No, the pattern is too random for binning to be effective&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  문제 (한글)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 패턴이 매우 불규칙할 때&lt;br /&gt;binning을 사용하는 것이 적절한가?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(A) 작은 구간으로 많이 나눈다&lt;br /&gt;(B) 큰 구간으로 나눈다&lt;br /&gt;(C) 패턴이 너무 랜덤하여 적절하지 않다&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;✅ 답안&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;C&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  풀이&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Binning은 데이터를 구간으로 나누어&lt;br /&gt;패턴을 단순화하는 방법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;하지만 데이터가 불규칙하고 랜덤한 경우에는&lt;br /&gt;구간을 나누어도 의미 있는 패턴이 생기지 않는다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서 binning이 효과적이지 않다.&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;  키포인트&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Binning &amp;rarr; &lt;b&gt;패턴 있을 때만 사용&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;  WEEK 3 핵심 요약&lt;/h1&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;1️⃣ Scaling 선택 기준&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Min-Max &amp;rarr; 절대값 중요 (이미지)&lt;/li&gt;
&lt;li&gt;Z-score &amp;rarr; 상대 비교 (시험 점수)&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;2️⃣ 이상치 처리&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Clipping / Log &amp;rarr; 이상치 완화&lt;/li&gt;
&lt;li&gt;이후 Z-score 적용&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;3️⃣ Binning&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;패턴 있음 &amp;rarr; 효과적&lt;/li&gt;
&lt;li&gt;랜덤 &amp;rarr; 비효율적&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;  한 줄 정리&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;스케일링은 데이터의 특성에 맞게 선택해야 하며,&lt;br /&gt;특히 이상치 여부와 절대값/상대값의 중요성이 핵심 판단 기준이다.&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1113</guid>
      <comments>https://soobindeveloper8.tistory.com/1113#entry1113comment</comments>
      <pubDate>Thu, 9 Apr 2026 14:31:25 +0900</pubDate>
    </item>
    <item>
      <title>[MLOps] Quiz - WEEK 2</title>
      <link>https://soobindeveloper8.tistory.com/1112</link>
      <description>&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 2 &amp;ndash; Machine Learning 문제 유형 구분&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이번 주차에서는 머신러닝 문제를&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;지도학습 vs 비지도학습&lt;/b&gt;, &lt;b&gt;회귀 vs 분류 vs 군집&lt;/b&gt;으로 구분하는 방법을 학습한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;정답(라벨)이 있는지&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;예측 대상이 숫자인지, 카테고리인지&lt;/b&gt; 판단하는 것이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 1&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Scenario: You work for an online store. You are asked to predict how much a customer will spend next month based on their past purchase history.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is this Supervised or Unsupervised learning?&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is it a Classification or Regression problem?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;온라인 쇼핑몰에서 고객의 과거 구매 데이터를 기반으로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다음 달 소비 금액을 예측하려고 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 지도학습 vs 비지도학습&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 분류 vs 회귀&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Supervised Learning&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Regression&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;과거 데이터에는 고객이 실제로 얼마를 소비했는지에 대한&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;정답(라벨)&lt;/b&gt;이 존재한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 지도학습에 해당한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;또한 예측 대상이 &amp;ldquo;소비 금액&amp;rdquo;과 같은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;연속적인 숫자 값&lt;/b&gt;이므로 회귀 문제이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정답 존재 &amp;rarr; &lt;b&gt;지도학습&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;숫자 예측 &amp;rarr; &lt;b&gt;회귀(Regression)&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 2 (A)&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A company analyzes 10,000 customers to find natural groups with similar shopping habits. No predefined labels are provided.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is this Supervised or Unsupervised learning?&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is this Clustering or Classification?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;10,000명의 고객 데이터를 분석하여&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비슷한 소비 패턴을 가진 고객들을 그룹으로 나눈다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단, 사전에 정의된 라벨은 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 지도학습 vs 비지도학습&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 군집 vs 분류&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Unsupervised Learning&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Clustering&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제는 정답 없이 데이터를 분석하여&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;유사한 특성을 가진 그룹을 찾는 과정이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따라서 비지도학습이며,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터를 그룹으로 나누는 작업이므로 군집화이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;라벨 없음 &amp;rarr; &lt;b&gt;비지도학습&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그룹 생성 &amp;rarr; &lt;b&gt;Clustering&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ Quiz 2 (B)&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (영어)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;The company now has defined groups (e.g., &quot;VIP&quot;). They want to assign a new customer to one of these existing categories.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is this Supervised or Unsupervised learning?&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; Is this Clustering or Classification?&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제 (한글)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이미 정의된 그룹(VIP 등)에&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 고객을 해당 그룹 중 하나로 분류하려고 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 지도학습 vs 비지도학습&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;bull; 군집 vs 분류&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 답안&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Supervised Learning&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Classification&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  풀이&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이미 &amp;ldquo;VIP&amp;rdquo;와 같은 &lt;b&gt;정답(라벨)&lt;/b&gt;이 존재하는 상태이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 고객이 어떤 그룹에 속하는지를 예측하는 문제이므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;지도학습에 해당한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;또한 결과가 숫자가 아닌 &lt;b&gt;카테고리&lt;/b&gt;이므로&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류 문제이다.&lt;/span&gt;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  키포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;기존 라벨 존재 &amp;rarr; &lt;b&gt;지도학습&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;카테고리 예측 &amp;rarr; &lt;b&gt;Classification&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  WEEK 2 핵심 요약&lt;/span&gt;&lt;/h1&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1️⃣ 지도학습 vs 비지도학습&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;지도학습: 정답(라벨) 있음&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비지도학습: 정답 없음&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2️⃣ 회귀 vs 분류&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;회귀: 숫자 예측&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류: 카테고리 예측&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3️⃣ 군집 vs 분류&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;군집: 새로운 그룹 생성&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류: 기존 그룹에 할당&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  한 줄 정리&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제를 풀 때는 먼저 &lt;b&gt;정답의 존재 여부를 판단하고&lt;/b&gt;,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그 다음 &lt;b&gt;예측 대상이 숫자인지 카테고리인지&lt;/b&gt;를 기준으로 문제 유형을 구분한다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1112</guid>
      <comments>https://soobindeveloper8.tistory.com/1112#entry1112comment</comments>
      <pubDate>Thu, 9 Apr 2026 14:26:16 +0900</pubDate>
    </item>
    <item>
      <title>  Data Splitting &amp;amp; Evaluation</title>
      <link>https://soobindeveloper8.tistory.com/1110</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  1. 왜 데이터를 나눠야 할까?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝에서 가장 중요한 원칙은 다음과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style1&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  학습한 데이터로 평가하면 안 된다.&lt;/span&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이미 본 데이터를 다시 평가하면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 잘하는 것처럼 보이지만 실제 성능은 알 수 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;쉽게 말하면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  문제집 답을 외우고 시험 보는 것과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  2. 데이터 분할 (Train / Validation / Test)&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델을 제대로 평가하기 위해 데이터는 3가지로 나눈다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Train Dataset&lt;/b&gt; &amp;rarr; 모델 학습&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Validation Dataset&lt;/b&gt; &amp;rarr; 모델 성능 확인 및 튜닝&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Test Dataset&lt;/b&gt; &amp;rarr; 최종 평가&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;일반적인 비율은 다음과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train: 70%&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Validation: 15%&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Test: 15%&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  3. 모델 학습 흐름&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝 모델은 한 번에 완성되지 않는다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다음 과정을 반복한다.&lt;/span&gt;&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train 데이터로 학습&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Validation 데이터로 성능 확인&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 수정&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다시 학습&lt;/span&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 과정을 반복한 뒤&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  마지막에 Test 데이터로 평가한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 핵심 포인트&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Test 데이터는 절대 학습에 사용하면 안 된다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Test 평가는 딱 한 번만 수행해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;⚠️ 4. Overfitting (과적합)&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 개념&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 패턴을 학습한 것이 아니라&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터를 외워버린 상태&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 특징&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Train 성능: 매우 높음&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Validation/Test 성능: 낮음&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 왜 발생할까?&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 부족&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 너무 복잡&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 한 줄 정리&lt;/span&gt;&lt;/h3&gt;
&lt;blockquote data-ke-style=&quot;style1&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;ldquo;이해한 게 아니라 외운 상태&amp;rdquo;&lt;/span&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;⚖️ 5. 좋은 데이터란?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;좋은 모델보다 더 중요한 것은 데이터이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;좋은 데이터의 조건은 다음과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Quantity (양)&lt;/b&gt; &amp;rarr; 충분히 많아야 한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Quality (질)&lt;/b&gt; &amp;rarr; 정확하고 신뢰 가능해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Completeness (완전성)&lt;/b&gt; &amp;rarr; 결측치가 적어야 한다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  6. 평가 지표 (Metrics)&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 성능을 평가하는 기준이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 6-1. Accuracy (정확도)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;전체 중 맞춘 비율&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;lisp&quot;&gt;&lt;code&gt;Accuracy = (TP + TN) / (TP + TN + FP + FN)
&lt;/code&gt;&lt;/pre&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;❗ 문제점&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터가 불균형할 경우 의미가 없어진다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정상: 99.9%&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이상: 0.1%&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모든 데이터를 정상으로 예측해도&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  Accuracy = 99.9%&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 모델은 아무것도 못한 상태이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 6-2. Precision (정밀도)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 맞다고 예측한 것 중&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제로 맞은 비율&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;ini&quot;&gt;&lt;code&gt;Precision = TP / (TP + FP)
&lt;/code&gt;&lt;/pre&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 중요한 상황&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스팸 필터&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;투자 모델&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  잘못된 긍정(오탐)을 줄이는 것이 중요할 때&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 6-3. Recall (재현율)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 정답 중에서&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 얼마나 맞췄는지&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;ini&quot;&gt;&lt;code&gt;Recall = TP / (TP + FN)
&lt;/code&gt;&lt;/pre&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 중요한 상황&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;암 진단&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사기 탐지&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  놓치면 안 되는 상황&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  Precision vs Recall&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;상황중요한 지표&lt;/span&gt;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;span style=&quot;color: #000000;&quot;&gt;놓치면 위험&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Recall&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;span style=&quot;color: #000000;&quot;&gt;틀리면 위험&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✅ 6-4. F1 Score&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision과 Recall의 균형&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;fortran&quot;&gt;&lt;code&gt;F1 = 2 * (Precision * Recall) / (Precision + Recall)
&lt;/code&gt;&lt;/pre&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 왜 필요할까?&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy가 높아도&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제로 성능이 안 좋은 모델을 잡아낼 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;⚠️ 7. Class Imbalance (데이터 불균형)&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터가 한쪽으로 치우친 상황&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정상: 99%&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이상: 1%&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 문제&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy가 높아도 의미 없음&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 해결&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Recall&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;F1 Score&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  8. Data Leakage (데이터 누수)&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 개념&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 미래 정보를 몰래 사용하는 상황&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 예시&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;집값 예측 모델에서&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;ldquo;거래 완료 여부&amp;rdquo; 사용&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; 실제 예측 시점에는 알 수 없는 정보&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ 특징&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy 99~100%&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  오히려 의심해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  9. 핵심 정리&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터는 반드시 Train / Validation / Test로 나눈다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Test 데이터는 마지막에 한 번만 사용한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Overfitting은 데이터를 외운 상태이다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Accuracy만으로 평가하면 위험하다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision과 Recall을 상황에 맞게 선택해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Data Leakage는 반드시 방지해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✨ 마무리 한 줄&lt;/span&gt;&lt;/h2&gt;
&lt;blockquote data-ke-style=&quot;style1&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  좋은 모델은 &amp;ldquo;지금 잘 맞추는 모델&amp;rdquo;이 아니라&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;ldquo;새로운 데이터에서도 잘 맞추는 모델&amp;rdquo;이다.&lt;/span&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1110</guid>
      <comments>https://soobindeveloper8.tistory.com/1110#entry1110comment</comments>
      <pubDate>Tue, 7 Apr 2026 14:03:04 +0900</pubDate>
    </item>
    <item>
      <title>Categorical Data &amp;amp; Feature Cross: 데이터 표현이 모델 성능을 바꾸는 이유</title>
      <link>https://soobindeveloper8.tistory.com/1109</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝을 공부하다 보면 흔히 알고리즘에 집중하게 된다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 실제 성능에 더 큰 영향을 주는 요소는 따로 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  바로 &lt;b&gt;데이터를 어떻게 표현하느냐&lt;/b&gt;다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이번 글에서는 범주형 데이터 처리 방법과,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;선형 모델의 한계를 극복하기 위한 Feature Cross 개념까지&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하나의 흐름으로 정리해보려고 한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1. 범주형 데이터는 &quot;값&quot;이 아니라 &quot;종류&quot;다&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝에서 데이터는 크게 두 가지로 나뉜다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수치형 데이터 (Numerical)&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;범주형 데이터 (Categorical)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수치형 데이터는 값의 크기가 의미를 가진다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 나이, 가격, 키 같은 데이터는 숫자 자체가 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 범주형 데이터는 다르다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;색상: Red, Blue, Green&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이메일 상태: Spam / Not Spam&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;동물: Lion, Tiger, Bear&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 데이터들은 크기가 중요한 게 아니라&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;어떤 그룹에 속하는지&lt;/b&gt;가 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 범주형 데이터는&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;얼마냐&amp;rdquo;가 아니라 &amp;ldquo;무엇이냐&amp;rdquo;의 문제다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2. 모델은 왜 범주형 데이터를 그대로 못 쓸까?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝 모델은 기본적으로 &lt;b&gt;수학 연산을 수행하는 구조&lt;/b&gt;다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그래서 이런 입력은 처리할 수 없다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;ini&quot;&gt;&lt;code&gt;Color = Red
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;대신 이렇게 바꿔야 한다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;ini&quot;&gt;&lt;code&gt;Color = 숫자
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 과정을 &lt;b&gt;Encoding(인코딩)&lt;/b&gt;이라고 한다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 문자 데이터를 모델이 이해할 수 있는 숫자로 변환하는 과정이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 여기서 중요한 건 단순히 숫자로 바꾸는 것이 아니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;어떻게 바꾸느냐에 따라 모델의 해석이 달라진다&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3. Label Encoding의 함정&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;가장 단순한 방법은 숫자를 부여하는 것이다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;Red &amp;rarr; 0
Blue &amp;rarr; 1
Green &amp;rarr; 2
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 방법은 간단하지만 치명적인 문제가 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  모델이 &amp;ldquo;순서가 있다&amp;rdquo;고 착각한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Green &amp;gt; Blue &amp;gt; Red&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이런 식으로 해석될 수 있다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 색상에는 원래 순서가 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 사람이 만든 숫자 규칙이&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  모델에게는 &lt;b&gt;잘못된 관계(가짜 의미)&lt;/b&gt;로 전달된다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔ 언제는 괜찮을까?&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;순서가 실제로 존재하는 경우&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;Low &amp;rarr; 0
Medium &amp;rarr; 1
High &amp;rarr; 2
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이런 경우는 Label Encoding이 적절하다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;4. One-Hot Encoding: 가장 안전한 기본 전략&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제를 해결하기 위해 사용하는 방법이&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;One-Hot Encoding&lt;/b&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;Red   &amp;rarr; [1, 0, 0]
Blue  &amp;rarr; [0, 1, 0]
Green &amp;rarr; [0, 0, 1]
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;각 카테고리를 독립된 벡터로 표현한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔ 왜 좋은가?&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;순서 정보 없음&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;잘못된 관계 생성 안 함&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;해석이 직관적&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  그래서 가장 기본이 되는 방식이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;5. One-Hot Encoding의 현실적인 문제&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제는 카테고리가 많아질 때 발생한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사용자 ID&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;상품 ID&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이런 데이터는 수십만 ~ 수백만 개의 카테고리를 가진다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이걸 One-Hot으로 표현하면:&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  차원이 폭발&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  대부분 값은 0 (희소 벡터)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  메모리 낭비 + 학습 느림&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업에서도 이 상황을&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&amp;ldquo;high-dimensional sparse data&amp;rdquo;&lt;/b&gt; 문제라고 설명한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;6. 해결 전략 1: Rare Category 처리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;어떤 카테고리는 너무 적게 등장한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특정 색상 1~2개 데이터&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 경우 모델이 학습하기 어렵다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  해결 방법:&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;nginx&quot;&gt;&lt;code&gt;Rare Category &amp;rarr; Other
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;Outlier Bucket&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이렇게 묶으면:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;노이즈 감소&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;안정적인 학습 가능&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;7. 해결 전략 2: 많은 카테고리 처리&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔ Feature Hashing&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;카테고리를 bucket으로 압축&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;빠르고 효율적&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단점: 충돌 발생 가능&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔ Embedding&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;카테고리를 dense vector로 표현&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의미를 반영한 표현 가능&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;추천 시스템에서 많이 사용&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  One-Hot의 한계를 해결하는 핵심 기술이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;8. 선형 모델의 한계: XOR 문제&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;선형 모델은 다음과 같은 형태다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;ini&quot;&gt;&lt;code&gt;y = w1x1 + w2x2 + b
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, feature들이 독립적으로 더해진다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;❗ 문제&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;어떤 데이터는 직선으로 나눌 수 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;대표 예: XOR&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;angelscript&quot;&gt;&lt;code&gt;(0,0) &amp;rarr; 0
(1,1) &amp;rarr; 0
(0,1) &amp;rarr; 1
(1,0) &amp;rarr; 1
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  직선으로 절대 분리 불가능&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  결과:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 패턴을 못 배움&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Underfitting 발생&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;9. Feature Cross: 상호작용을 모델에 추가하다&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 문제를 해결하는 방법이&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;Feature Cross&lt;/b&gt;다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심 아이디어는 단순하다.&lt;/span&gt;&lt;/p&gt;
&lt;pre class=&quot;llvm&quot;&gt;&lt;code&gt;x3 = x1 &amp;times; x2
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 feature를 추가하는 것&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔ 모델 식&lt;/span&gt;&lt;/h3&gt;
&lt;pre class=&quot;llvm&quot;&gt;&lt;code&gt;y = w1x1 + w2x2 + w3(x1x2) + b
&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  이제 모델은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단순 값뿐 아니라&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;&amp;ldquo;조합&amp;rdquo;까지 학습한다&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;10. Feature Cross가 중요한 이유&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현실 데이터는 대부분 조합에서 의미가 생긴다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  예시: 집 가격&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;큰 집 &amp;rarr; 비쌈&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;방 많음 &amp;rarr; 비쌈&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  그런데&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;ldquo;큰 집 + 방 많음&amp;rdquo;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;rarr; 훨씬 더 비쌈&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  예시: 보험&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;20대 &amp;rarr; 위험&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사고 많은 지역 &amp;rarr; 위험&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  그런데&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;ldquo;20대 + 사고 많은 지역&amp;rdquo;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &amp;rarr; 위험 폭증&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  이걸 잡는 게 Feature Cross다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;11. 하지만 공짜는 아니다 (Trade-off)&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Feature Cross를 많이 만들면:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;표현력 &amp;uarr;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;복잡도 &amp;uarr;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;파라미터 수 &amp;uarr;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;위도 100 &amp;times; 경도 100&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; 10,000개의 조합&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  모델이 커지고 학습 비용 증가&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;12. 전체 흐름 정리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이번 내용을 하나로 묶으면 다음과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;범주형 데이터는 그대로 사용할 수 없다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Encoding을 통해 숫자로 변환해야 한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;One-Hot은 기본이지만 확장성 문제가 있다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;많은 카테고리는 Hashing / Embedding으로 해결한다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;선형 모델은 단일 feature로는 한계가 있다&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Feature Cross로 상호작용을 추가하면 성능을 개선할 수 있다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  한 줄 핵심&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;좋은 모델은 알고리즘이 아니라, &quot;데이터 표현&quot;에서 시작된다&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✨ 마무리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;처음에는 One-Hot Encoding과 Feature Cross가&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;완전히 다른 개념처럼 느껴질 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하지만 본질은 같다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Encoding &amp;rarr; &amp;ldquo;값을 어떻게 표현할 것인가&amp;rdquo;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Feature Cross &amp;rarr; &amp;ldquo;관계를 어떻게 표현할 것인가&amp;rdquo;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결국 머신러닝은&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;  &lt;b&gt;데이터를 얼마나 잘 표현하느냐의 싸움이다&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1109</guid>
      <comments>https://soobindeveloper8.tistory.com/1109#entry1109comment</comments>
      <pubDate>Mon, 30 Mar 2026 17:22:10 +0900</pubDate>
    </item>
    <item>
      <title>숫자형 데이터 스케일링이란?</title>
      <link>https://soobindeveloper8.tistory.com/1108</link>
      <description>&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;숫자형 데이터 스케일링이란?&lt;/span&gt;&lt;/h1&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Linear, Z-score, Log Scaling, Clipping 쉽게 이해하기&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝에서는 데이터를 그냥 넣는다고 끝이 아니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특히 숫자형 데이터는 &lt;b&gt;크기 차이&lt;/b&gt;, &lt;b&gt;이상치&lt;/b&gt;, &lt;b&gt;치우친 분포&lt;/b&gt; 때문에 모델이 데이터를 이상하게 받아들일 수 있다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그래서 사용하는 것이 바로 &lt;b&gt;스케일링(Scaling)&lt;/b&gt; 이다. 수업 자료에서도 숫자형 데이터 처리의 핵심 목표로 outlier 처리와 Linear, Z-score, Log 같은 정규화/스케일링 기법을 함께 다루고 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 한 데이터셋에 다음 두 feature가 있다고 해보자.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;나이: 35&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;연봉: 100,000,000&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;둘 다 중요한 정보인데, 숫자 크기만 보면 연봉이 훨씬 커 보인다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이러면 모델은 연봉을 더 중요하게 착각할 수 있다. 수업 자료에서도 이런 상황을 &lt;b&gt;Magnitude Trap&lt;/b&gt;이라고 설명하며, 서로 다른 크기의 feature를 공정하게 비교할 수 있도록 맞춰주는 과정이 필요하다고 말한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스케일링이 필요한 이유&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스케일링의 핵심 목적은 아주 단순하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&amp;ldquo;숫자의 크기 때문에 생기는 불공평함을 줄이자.&amp;rdquo;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 feature scaling의 목표를&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;같은 운동장에 올려놓기&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;공정한 비교 만들기&lt;/b&gt;&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;모델 학습을 더 빠르고 안정적으로 만들기&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;라고 설명한다. 또한 스케일링을 하면 학습 지형이 더 대칭적으로 바뀌어 학습 속도와 수렴이 좋아질 수 있다고 정리한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1. Linear Scaling (Normalization)&lt;/span&gt;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개념&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Linear Scaling은 데이터를 &lt;b&gt;고정된 범위&lt;/b&gt;, 보통 &lt;b&gt;0~1&lt;/b&gt; 사이로 바꾸는 방법이다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;가장 대표적인 형태는 Min-Max Scaling이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 점수가 0점부터 100점까지 있다면&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;0점 &amp;rarr; 0&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;25점 &amp;rarr; 0.25&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;50점 &amp;rarr; 0.5&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;100점 &amp;rarr; 1&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이렇게 바뀐다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, &lt;b&gt;원래 값이 전체 범위에서 어디쯤 있는지&lt;/b&gt;를 같은 눈금으로 표현하는 것이다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;언제 좋은가?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 Linear Scaling이&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Min/Max 경계가 분명할 때&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;값을 고정된 [0,1] 범위에 넣고 싶을 때&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이상치가 없고 분포가 비교적 고른 경우&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;적합하다고 설명한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들면 센서 데이터처럼&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;온도, 습도 값의 범위가 어느 정도 정해져 있는 경우에 잘 어울린다. 수업 자료의 요약 표에서도 Temperature/Humidity Sensor 예시와 함께 제시된다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단점&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Linear Scaling의 가장 큰 약점은 &lt;b&gt;이상치에 약하다&lt;/b&gt;는 점이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;만약 대부분의 값은 작고, 몇 개만 엄청 크다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;큰 값 때문에 나머지 값이 거의 0 근처에 눌려버린다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서도 &amp;ldquo;몇 명의 억만장자가 99%의 데이터를 0 근처로 squashing 한다&amp;rdquo;고 표현하며, highly skewed data에는 좋지 않은 선택이라고 설명한다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Linear Scaling은 데이터를 0~1 같은 고정 범위로 맞추는 데 좋지만, 이상치가 많으면 잘 안 맞는다.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2. Z-score Scaling (Standardization)&lt;/span&gt;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개념&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Z-score Scaling은 값을 &lt;b&gt;평균에서 얼마나 떨어져 있는지&lt;/b&gt;로 바꾸는 방법이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 절대값 자체보다&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&amp;ldquo;이 값이 평균보다 얼마나 위나 아래에 있나?&amp;rdquo;&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;를 보는 방식이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 평균이 50점, 표준편차가 10점인 시험에서&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;40점은 평균보다 10점 낮으므로 z = -1&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;50점은 평균과 같으므로 z = 0&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;60점은 평균보다 10점 높으므로 z = 1&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이렇게 해석할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특징&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 Z-score Scaling을&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;평균 0, 표준편차 1 중심으로 변환&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;평균에서 몇 표준편차 떨어졌는가&amp;rdquo;를 표현&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;보통 값이 [-3, 3] 근처에 많이 위치&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하는 방식으로 설명한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;또한 &lt;b&gt;정규분포(Bell Curve)&lt;/b&gt; 에 잘 맞고, normal data를 과하게 눌러버리지 않으면서 공정한 비교를 할 수 있다고 정리한다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;언제 좋은가?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Z-score는 특히 시험 점수처럼&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;평균 대비 상대적 위치가 중요할 때&lt;/b&gt; 유용하다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료 요약 표에서도 SAT/GRE 같은 시험 점수를 예로 든다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어,&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시험 A에서 80점&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시험 B에서 80점&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;둘 다 숫자는 같지만, 시험 난이도와 전체 평균이 다르면 의미가 달라진다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이럴 때 Z-score를 쓰면 &amp;ldquo;상대적으로 얼마나 잘했는지&amp;rdquo;를 더 공정하게 비교할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Z-score는 데이터를 평균 기준으로 다시 표현해서, 상대적 위치를 비교하기 좋게 만든다.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3. Log Scaling&lt;/span&gt;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개념&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Log Scaling은 &lt;b&gt;너무 큰 값 차이를 압축하는 방법&lt;/b&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 조회수가&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;10&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;100&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1,000&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;10,000&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;처럼 커질 때, 원래 숫자 그대로는 차이가 너무 크다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이런 값을 log로 바꾸면 큰 값 차이가 완만해져서 모델이 패턴을 더 쉽게 볼 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;왜 필요한가?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 Log Scaling의 역할을&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;huge ranges 압축&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;skewed data 완화&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 복잡한 패턴을 배우기 쉽게 만듦&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이라고 설명한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 어떤 feature 안에서 값 크기 차이가 너무 심하면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;큰 값 몇 개가 전체를 지배하게 되는데,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;log를 쓰면 이 차이를 줄여줄 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;언제 좋은가?&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;자산&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;연봉&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;매출&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;조회수&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;인구 수&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;처럼 &lt;b&gt;오른쪽 꼬리가 긴 데이터&lt;/b&gt;,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉 일부 값만 엄청 큰 데이터에 잘 맞는다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료 요약 표에서도 Wealth(Net Worth) 예시가 나온다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Log Scaling은 너무 큰 숫자 차이를 압축해서, 치우친 분포를 더 다루기 쉽게 만든다.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;4. Clipping&lt;/span&gt;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개념&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Clipping은 말 그대로 &lt;b&gt;너무 큰 값을 잘라내는 것&lt;/b&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 threshold를 4.0으로 정하면&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3.2 &amp;rarr; 3.2&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;4.7 &amp;rarr; 4.0&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;10.5 &amp;rarr; 4.0&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이처럼 기준보다 큰 값은 전부 상한선에 맞춰 버린다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;왜 필요한가?&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 clipping을&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;extreme outlier를 다룰 때 사용&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;threshold 이상 값을 cap&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;원래 데이터보다 더 useful한 feature set을 만들 수 있음&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이라고 설명한다. 또한 4.0에서 잘라낸 예시와 함께, 값이 4.0보다 크면 정확히 4.0으로 바뀐다고 정리한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주의할 점&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Clipping은 강력하지만, 대신 정보가 조금 사라진다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;왜냐하면 4.1과 100이 둘 다 4.0이 되어버릴 수 있기 때문이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그래서 먼저 생각해야 할 질문이 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&amp;ldquo;이 이상치는 실수인가, 실제 중요한 값인가?&amp;rdquo;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서도 outlier를 다룰 때&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실수라면 remove/fix&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현실이지만 noise라면 remove 또는 clip&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현실이면서 signal이라면 keep &amp;amp; scale&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하라고 구분해 준다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Clipping은 극단값의 영향을 줄이는 데 좋지만, 너무 세게 자르면 정보 손실이 생길 수 있다.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;네 가지 방법 한 번에 비교하기&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정리하면 이렇게 볼 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Linear Scaling&lt;/b&gt;은 feature들의 범위를 맞추는 방법이다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Z-score&lt;/b&gt;는 평균을 기준으로 상대적 위치를 비교하는 방법이다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Log Scaling&lt;/b&gt;은 한 feature 안의 큰 값 차이를 압축하는 방법이다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Clipping&lt;/b&gt;은 한 feature 안의 극단값을 상한선에서 잘라내는 방법이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료에서는 이 차이를 더 크게 두 갈래로 나눈다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Inter-feature balance&lt;/b&gt;: feature들끼리 단위를 맞춤 &amp;rarr; Linear, Z-score&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Intra-feature balance&lt;/b&gt;: 한 feature 안의 giant outlier를 다룸 &amp;rarr; Log, Clipping&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 구분을 이해하면 네 방법이 훨씬 덜 헷갈린다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;어떤 상황에서 무엇을 써야 할까?&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;아주 간단하게 정리하면 다음과 같다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 범위를 0~1처럼 맞추고 싶고, 이상치가 거의 없다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; &lt;b&gt;Linear Scaling&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;평균 대비 얼마나 높은지 낮은지가 중요하다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; &lt;b&gt;Z-score&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;값의 크기 차이가 너무 심해서 치우친 분포를 압축해야 한다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; &lt;b&gt;Log Scaling&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;극단적인 이상치 몇 개가 전체를 망치고 있다면&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;rarr; &lt;b&gt;Clipping&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수업 자료의 전략적 workflow도 비슷하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;먼저 &lt;b&gt;이상치가 실수인지 현실인지 판단&lt;/b&gt;하고, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 feature 안의 giant를 Log나 Clipping으로 먼저 다룬 뒤, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그 다음 Z-score나 Min-Max로 전체 feature 단위를 맞추라고 설명한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-style=&quot;style1&quot; /&gt;
&lt;h1&gt;&lt;span style=&quot;color: #000000;&quot;&gt;마무리&lt;/span&gt;&lt;/h1&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스케일링은 단순히 숫자를 바꾸는 기술이 아니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 데이터를 &lt;b&gt;공정하게&lt;/b&gt;, &lt;b&gt;안정적으로&lt;/b&gt;, &lt;b&gt;더 잘 학습하도록 돕는 전처리 전략&lt;/b&gt;이다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특히 숫자형 데이터에서는&lt;/span&gt;&lt;br /&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;범위를 맞출 것인가?&amp;rdquo;,&lt;/span&gt;&lt;/b&gt;&lt;br /&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;평균 기준으로 볼 것인가?&amp;rdquo;,&lt;/span&gt;&lt;/b&gt;&lt;br /&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;큰 값을 압축할 것인가?&amp;rdquo;,&lt;/span&gt;&lt;/b&gt;&lt;br /&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;극단값을 잘라낼 것인가?&amp;rdquo;&lt;/span&gt;&lt;/b&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;를 구분해서 생각하는 것이 중요하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결국 핵심은 이 한 문장으로 정리할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style1&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;Linear와 Z-score는 feature들 사이의 균형을 맞추고,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;Log와 Clipping은 한 feature 안의 과한 값들을 다루는 방법이다.&lt;/span&gt;&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <category>clipping</category>
      <category>Linear</category>
      <category>Log scaling</category>
      <category>Z-Score</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1108</guid>
      <comments>https://soobindeveloper8.tistory.com/1108#entry1108comment</comments>
      <pubDate>Wed, 18 Mar 2026 09:05:47 +0900</pubDate>
    </item>
    <item>
      <title>AI와 머신러닝 기초 정리: 지도학습, 비지도학습, 분류, 회귀, 군집화</title>
      <link>https://soobindeveloper8.tistory.com/1107</link>
      <description>&lt;h4 data-end=&quot;133&quot; data-start=&quot;120&quot; data-section-id=&quot;10sa2r9&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️ AI vs ML&lt;/span&gt;&lt;/h4&gt;
&lt;div&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;306&quot; data-start=&quot;135&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;306&quot; data-start=&quot;166&quot;&gt;
&lt;tr data-end=&quot;233&quot; data-start=&quot;166&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;175&quot; data-start=&quot;166&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;AI&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;207&quot; data-start=&quot;175&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Artificial Intelligence, 인공지능&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;233&quot; data-start=&quot;207&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;지능적인 기계를 만드는 &lt;b&gt;큰 분야&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;306&quot; data-start=&quot;234&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;243&quot; data-start=&quot;234&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;ML&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;268&quot; data-start=&quot;243&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Machine Learning, 머신러닝&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;306&quot; data-start=&quot;268&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI의 하위 분야로, &lt;b&gt;데이터에서 패턴을 학습&lt;/b&gt;하는 기술&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;318&quot; data-start=&quot;308&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;367&quot; data-start=&quot;319&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;334&quot; data-start=&quot;319&quot; data-section-id=&quot;46jh4x&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;AI&lt;/b&gt; = 큰 개념&lt;/span&gt;&lt;/li&gt;
&lt;li data-end=&quot;367&quot; data-start=&quot;335&quot; data-section-id=&quot;14zrmwp&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;ML&lt;/b&gt; = AI 안에서 데이터를 통해 배우는 방법&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot; data-section-id=&quot;10sa2r9&quot; data-start=&quot;120&quot; data-end=&quot;133&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Supervised vs Unsupervised&lt;/span&gt;&lt;/h4&gt;
&lt;p data-end=&quot;423&quot; data-start=&quot;408&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;= 지도학습 vs 비지도학습&lt;/span&gt;&lt;/p&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;구분&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;643&quot; data-start=&quot;425&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;643&quot; data-start=&quot;492&quot;&gt;
&lt;tr data-end=&quot;514&quot; data-start=&quot;492&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;498&quot; data-start=&quot;492&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td data-end=&quot;505&quot; data-start=&quot;498&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;지도학습&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;514&quot; data-start=&quot;505&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비지도학습&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;546&quot; data-start=&quot;515&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;527&quot; data-start=&quot;515&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정답(label)&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;536&quot; data-start=&quot;527&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;있음&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;546&quot; data-start=&quot;536&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;없음&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;572&quot; data-start=&quot;547&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;552&quot; data-start=&quot;547&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;목적&lt;/span&gt;&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;560&quot; data-start=&quot;552&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결과 예측&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;572&quot; data-start=&quot;560&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;숨은 패턴 찾기&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;604&quot; data-start=&quot;573&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;581&quot; data-start=&quot;573&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;대표 작업&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;590&quot; data-start=&quot;581&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류, 회귀&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;604&quot; data-start=&quot;590&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;군집화, 차원 축소&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;643&quot; data-start=&quot;605&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;610&quot; data-start=&quot;605&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예시&lt;/span&gt;&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;625&quot; data-start=&quot;610&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스팸 판별, 집값 예측&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;643&quot; data-start=&quot;625&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고객 그룹화, 이상치 탐지&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p data-end=&quot;655&quot; data-start=&quot;645&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;705&quot; data-start=&quot;656&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;678&quot; data-start=&quot;656&quot; data-section-id=&quot;1l7dbul&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;지도학습&lt;/b&gt; = 정답을 보고 배움&lt;/span&gt;&lt;/li&gt;
&lt;li data-end=&quot;705&quot; data-start=&quot;679&quot; data-section-id=&quot;1ma1tz5&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;비지도학습&lt;/b&gt; = 정답 없이 패턴을 찾음&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;747&quot; data-start=&quot;712&quot; data-section-id=&quot;gn4wqv&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot; data-section-id=&quot;10sa2r9&quot; data-start=&quot;120&quot; data-end=&quot;133&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Classification vs Regression&lt;/span&gt;&lt;/h4&gt;
&lt;p data-end=&quot;769&quot; data-start=&quot;748&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;= 둘 다 &lt;b&gt;지도학습&lt;/b&gt; 안에 포함됨&lt;/span&gt;&lt;/p&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;구분&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;935&quot; data-start=&quot;771&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;935&quot; data-start=&quot;822&quot;&gt;
&lt;tr data-end=&quot;839&quot; data-start=&quot;822&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;828&quot; data-start=&quot;822&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td data-end=&quot;833&quot; data-start=&quot;828&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;839&quot; data-start=&quot;833&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;회귀&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;873&quot; data-start=&quot;840&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;848&quot; data-start=&quot;840&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예측 결과&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;860&quot; data-start=&quot;848&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;범주형 값&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;873&quot; data-start=&quot;860&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;숫자형 값&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;899&quot; data-start=&quot;874&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;882&quot; data-start=&quot;874&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;질문 방식&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;890&quot; data-start=&quot;882&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;무엇인가?&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;899&quot; data-start=&quot;890&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;얼마인가?&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;935&quot; data-start=&quot;900&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;905&quot; data-start=&quot;900&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예시&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;921&quot; data-start=&quot;905&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스팸/정상, 합격/불합격&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;935&quot; data-start=&quot;921&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;집값, 매출, 온도&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p data-end=&quot;947&quot; data-start=&quot;937&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1003&quot; data-start=&quot;948&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;977&quot; data-start=&quot;948&quot; data-section-id=&quot;mx2r2w&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Classification&lt;/b&gt; = 종류 맞히기&lt;/span&gt;&lt;/li&gt;
&lt;li data-end=&quot;1003&quot; data-start=&quot;978&quot; data-section-id=&quot;1h3ktev&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Regression&lt;/b&gt; = 숫자 맞히기&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot; data-section-id=&quot;10sa2r9&quot; data-start=&quot;120&quot; data-end=&quot;133&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Clustering vs Classification&lt;/span&gt;&lt;/h4&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;구분&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;1240&quot; data-start=&quot;1045&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;1240&quot; data-start=&quot;1096&quot;&gt;
&lt;tr data-end=&quot;1114&quot; data-start=&quot;1096&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1102&quot; data-start=&quot;1096&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1108&quot; data-start=&quot;1102&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;군집화&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1114&quot; data-start=&quot;1108&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;분류&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1146&quot; data-start=&quot;1115&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1127&quot; data-start=&quot;1115&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정답(label)&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1136&quot; data-start=&quot;1127&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;없음&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1146&quot; data-start=&quot;1136&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;있음&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1171&quot; data-start=&quot;1147&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1155&quot; data-start=&quot;1147&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습 방식&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1163&quot; data-start=&quot;1155&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비지도학습&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1171&quot; data-start=&quot;1163&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;지도학습&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1206&quot; data-start=&quot;1172&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1177&quot; data-start=&quot;1172&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;목적&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1192&quot; data-start=&quot;1177&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;비슷한 데이터끼리 묶기&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1206&quot; data-start=&quot;1192&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;정해진 클래스 예측&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1240&quot; data-start=&quot;1207&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1212&quot; data-start=&quot;1207&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예시&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1226&quot; data-start=&quot;1212&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고객 세그먼트 나누기&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1240&quot; data-start=&quot;1226&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고양이/강아지 판별&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1252&quot; data-start=&quot;1242&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1317&quot; data-start=&quot;1253&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1283&quot; data-start=&quot;1253&quot; data-section-id=&quot;bf7402&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Clustering&lt;/b&gt; = 정답 없이 그룹 찾기&lt;/span&gt;&lt;/li&gt;
&lt;li data-end=&quot;1317&quot; data-start=&quot;1284&quot; data-section-id=&quot;15byxtv&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Classification&lt;/b&gt; = 정답 보고 분류하기&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-end=&quot;133&quot; data-start=&quot;120&quot; data-section-id=&quot;10sa2r9&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;전체 정리&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;└─&amp;nbsp;ML &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;├─&amp;nbsp;Supervised&amp;nbsp;Learning &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;│&amp;nbsp;&amp;nbsp;├─&amp;nbsp;Classification &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;│&amp;nbsp;&amp;nbsp;└─&amp;nbsp;Regression &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;└─&amp;nbsp;Unsupervised&amp;nbsp;Learning &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;└─&amp;nbsp;Clustering&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-end=&quot;133&quot; data-start=&quot;120&quot; data-section-id=&quot;10sa2r9&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 활용 예시 정리&lt;/span&gt;&lt;/h4&gt;
&lt;div&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;활용 예시&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;1696&quot; data-start=&quot;1506&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;1696&quot; data-start=&quot;1537&quot;&gt;
&lt;tr data-end=&quot;1584&quot; data-start=&quot;1537&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1554&quot; data-start=&quot;1537&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Regression&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1562&quot; data-start=&quot;1554&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;숫자 예측&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1584&quot; data-start=&quot;1562&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주택 가격 예측, 날씨/기온 예측&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1640&quot; data-start=&quot;1585&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1606&quot; data-start=&quot;1585&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Classification&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1614&quot; data-start=&quot;1606&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;범주 예측&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1640&quot; data-start=&quot;1614&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스팸 탐지, 사기 탐지, 양성/악성 진단&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1696&quot; data-start=&quot;1641&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1658&quot; data-start=&quot;1641&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Clustering&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1666&quot; data-start=&quot;1658&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그룹 찾기&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1696&quot; data-start=&quot;1666&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고객 시장 세분화, 소셜 네트워크 커뮤니티 발견&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1726&quot; data-start=&quot;1703&quot; data-section-id=&quot;v51h8i&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-end=&quot;133&quot; data-start=&quot;120&quot; data-section-id=&quot;10sa2r9&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;✔️&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;ldquo;왜 머신러닝이 작동하는가&amp;rdquo; 정리&lt;/span&gt;&lt;/h4&gt;
&lt;div&gt;
&lt;div&gt;&lt;span style=&quot;color: #000000;&quot;&gt;키워드 의미&lt;/span&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;1888&quot; data-start=&quot;1728&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody data-end=&quot;1888&quot; data-start=&quot;1751&quot;&gt;
&lt;tr data-end=&quot;1786&quot; data-start=&quot;1751&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1765&quot; data-start=&quot;1751&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Pattern&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1786&quot; data-start=&quot;1765&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터에는 반복되는 패턴이 있음&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1829&quot; data-start=&quot;1787&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1803&quot; data-start=&quot;1787&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Structure&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1829&quot; data-start=&quot;1803&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터 안에는 숨겨진 수학적 구조가 있음&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;1888&quot; data-start=&quot;1830&quot;&gt;
&lt;td data-col-size=&quot;sm&quot; data-end=&quot;1851&quot; data-start=&quot;1830&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Generalization&lt;/b&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td data-end=&quot;1888&quot; data-start=&quot;1851&quot; data-col-size=&quot;sm&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단순 암기가 아니라 규칙을 배워 새로운 데이터에도 적용 가능&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1900&quot; data-start=&quot;1890&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1900&quot; data-start=&quot;1890&quot; data-section-id=&quot;1qkqj5z&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한 줄 정리&lt;/span&gt;&lt;/p&gt;
&lt;p data-end=&quot;1967&quot; data-start=&quot;1901&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;머신러닝은 데이터 속 &lt;b&gt;패턴과 구조&lt;/b&gt;를 학습해서, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;처음 보는 데이터에도 &lt;b&gt;일반화&lt;/b&gt;할 수 있다 !&lt;/span&gt;&lt;/p&gt;</description>
      <category>직장인 대학원/MLOps</category>
      <category>AI</category>
      <category>군집화</category>
      <category>머신러닝 입문</category>
      <category>분류</category>
      <category>비지도학습</category>
      <category>지도학습</category>
      <category>회귀</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1107</guid>
      <comments>https://soobindeveloper8.tistory.com/1107#entry1107comment</comments>
      <pubDate>Wed, 11 Mar 2026 08:20:57 +0900</pubDate>
    </item>
    <item>
      <title>  직장인 대학원 2학기 후기: 진짜 힘듦.</title>
      <link>https://soobindeveloper8.tistory.com/1106</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;다섯 과목 수강: 총 9학점 도전&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;원래 1학기는 6학점이 기본이지만, 2학점을 추가로 들을 수 있어서 2학기에는 &lt;b&gt;8학점&lt;/b&gt;을 듣기로 했다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;여기에 &lt;b&gt;1학점짜리 논문 필수 과목&lt;/b&gt;까지 더해서, 결과적으로 &lt;b&gt;총 9학점&lt;/b&gt;을 수강했다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;수강 과목은 아래 다섯 개.&lt;/span&gt;&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;자기주도적연구계획및설계&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;논문 주제를 찾아야 해서 여러 논문을 읽고 방향을 잡아볼 수 있었던 강의.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;비정형데이터분석&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;내 지식과 거리가 있는 내용이 많아서 개인적으로 가장 어렵게 느껴졌다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;클라우드컴퓨팅&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;업무와 밀접해서 비교적 친숙했고, 온라인 대체가 꽤 있어서 정말 감사했던 강의.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;데이터베이스&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;실무에서 DB를 쓰니까 &amp;ldquo;나 꽤 안다&amp;rdquo;라고 생각했는데&amp;hellip; 이 수업 듣고 &lt;b&gt;나는 아는 게 없다&lt;/b&gt;를 깨닫게 해준 강의.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;논문작성법 및 연구윤리&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;논문 작성의 기본을 잘 설명해줘서 도움이 많이 됐다.&lt;/span&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;한 학기에 5과목을 들으려니 가장 큰 건 &lt;b&gt;체력 이슈&lt;/b&gt;였다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;주말엔 원래 체력을 회복해야 하는데, 노는 걸 좋아해서 놀러 다니다 보니 오히려 더 빨리 소진된 느낌.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;그래도 어찌저찌 &lt;b&gt;큰 문제 없이 마무리&lt;/b&gt;했다는 게 스스로 대견하다.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;동아리 활동: 캐글 도전&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;데싸 동아리에서 캐글 대회에 참여했다. 팀을 잘 만나서 다행이었다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;열심히 하긴 했지만&amp;hellip; 이번에 확실히 느꼈다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;&lt;b&gt;나랑 캐글은 좀 거리가 있구나.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;토익: 논문을 위한 현실적인 벽&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;논문을 쓰려면 최소 조건이 &lt;b&gt;토익 700점&lt;/b&gt;.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;영어 점수 인증 방법은 여러 가지가 있지만, 나는 토익으로 방향을 잡았다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;문제는 내가 영어랑 정말 거리가 멀다는 것.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;그래서 요즘 제일 부담되는 숙제 중 하나다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;대학원 오기 전에 만들어두고 입학했어야 했는데&amp;hellip; 그건 아직도 후회하는 부분.&lt;/span&gt;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;회사생활과 병행: 등교길이 제일 힘들다&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;월~금은 남들처럼 똑같이 일하고, 다행히 회사가 &lt;b&gt;8시~5시 근무&lt;/b&gt;가 가능해서 5시에 퇴근한다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;혜화에 도착하면 보통 &lt;b&gt;6시 20분&lt;/b&gt;, 1교시는 &lt;b&gt;6시 30분 시작&lt;/b&gt;이라 매번 정말 아슬아슬하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;퇴근 후에 쉬어야 할 시간에 다시 힘내서 학교 가서 수업에 집중하려고 하면,&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;끝날 때쯤엔 진이 다 빠진다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;그래도 다행인 건, 나만 힘든 게 아니라 대학원 동기들도 다 비슷한 고생을 하고 있다는 것.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;그게 은근히 힘이 된다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;결론은 이거다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #000000;&quot;&gt;대학원 다니면서 회사에 피해를 주진 않지만, &lt;b&gt;체력을 나눠 써야 하는 건 확실&lt;/b&gt;하다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;&quot;&gt;결론&lt;/span&gt;&lt;/h2&gt;
&lt;p&gt;&lt;span style=&quot;&quot;&gt;그래도 시간내서 대학원 다니니까 뿌듯한건 확실하네.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR'; color: #333333; text-align: start;&quot;&gt;겨울방학에 체력보충 잘해서 다음 학기도 힘내야지.  &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>직장인 대학원/기록</category>
      <author>Binsoo</author>
      <guid isPermaLink="true">https://soobindeveloper8.tistory.com/1106</guid>
      <comments>https://soobindeveloper8.tistory.com/1106#entry1106comment</comments>
      <pubDate>Fri, 19 Dec 2025 13:36:38 +0900</pubDate>
    </item>
  </channel>
</rss>