숫자형 데이터 스케일링이란?

·
직장인 대학원/MLOps
숫자형 데이터 스케일링이란?Linear, Z-score, Log Scaling, Clipping 쉽게 이해하기머신러닝에서는 데이터를 그냥 넣는다고 끝이 아니다.특히 숫자형 데이터는 크기 차이, 이상치, 치우친 분포 때문에 모델이 데이터를 이상하게 받아들일 수 있다.그래서 사용하는 것이 바로 스케일링(Scaling) 이다. 수업 자료에서도 숫자형 데이터 처리의 핵심 목표로 outlier 처리와 Linear, Z-score, Log 같은 정규화/스케일링 기법을 함께 다루고 있다.예를 들어 한 데이터셋에 다음 두 feature가 있다고 해보자.나이: 35연봉: 100,000,000둘 다 중요한 정보인데, 숫자 크기만 보면 연봉이 훨씬 커 보인다.이러면 모델은 연봉을 더 중요하게 착각할 수 있다. 수업 자료에서..