728x90
반응형
오늘 목차
- 노트북 작성하는 방법
- 분석 순서 및 내용
- 다음시간 예고
캐글에서 분석을 진행하기 위해 노트북을 어떻게 사용하는지 학습했다.
Playground 에서 연습을 할 예정이다.
우리는 아래 링크의 대회를 연습할 예정이다.
https://www.kaggle.com/competitions/playground-series-s5e3/code
Binary Prediction with a Rainfall Dataset
Playground Series - Season 5, Episode 3
www.kaggle.com
데이터셋이 작아서 빠르게 결과 확인이 가능하다.
분석 순서 및 내용
Basic Analysis
- 데이터 셋 크기 (행/열): 데이터의 전체 구조를 파악한다.
- 실제 모습: head()나 sample()로 데이터를 직접 확인한다.
- 중복치: 중복된 행이 있는지 확인한다.
- 결측치: 누락된 값이 있는지 파악한다.
- 기술 통계: 수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.
- 컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.
- 범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다.
EDA (Exploratory Data Analysis)
- 타겟값 분포: 예측 대상 변수의 분포를 시각화한다.
- 수치형 변수의 분포: 히스토그램 등을 통해 확인한다.
- 범주형 변수의 분포: 각 범주의 빈도수를 확인한다.
- 수치형 변수와 타겟값의 상관관계: 상관계수를 통해 관계를 분석한다.
- 범주형 변수와 타겟값의 상관관계: 그룹별 평균 등을 통해 분석한다.
- 수치형 변수 사이의 상관관계: heatmap 등으로 상호 관계 파악한다.
- 범주형 변수 사이의 상관관계: 교차표 등을 통해 확인한다.
이상치 파악하기
Boxplot 등을 통해 데이터의 이상값(outlier)을 찾아낸다.
이후 전처리 전략 세우기
EDA 결과를 기반으로 어떤 전처리를 할지 계획을 수립한다.
그래프의 패턴 파악
시각화를 통해 데이터의 구조적 특성을 이해한다.
Insight 도출
분석 결과를 통해 의미 있는 인사이트를 얻는다.
공모전에서 많이 요구하는 방식이다.
Preprocessing
- Cleansing: 결측치/이상치 제거 등 데이터 정리 작업을 한다.
- Scaling: 데이터 스케일을 정규화/표준화 한다.
- Encoding: 범주형 변수를 숫자로 변환한다.
- Feature Engineering: 유의미한 새로운 변수를 만든다.
- 예측 모델에 넣을 수 있는 상태로 데이터 가공
노트북 만드는 방법
- 분석 → 전처리 → 모델링
분석 흐름에 맞춰 노트북을 구성한다.
오늘 시간은 1주차이기 때문에 전체적인 내용을 설명하였다.
다음시간 예고
- 노트북 생성
- Basic Analysis 진행
- 완성된 노트북을 공유해오기
스터디 리더님 영상 링크 : https://youtu.be/JLMUhtH6uRw
728x90
반응형
'직장인 대학원 > 캐글 스터디' 카테고리의 다른 글
캐글 스터디 1회차 - 과제 (0) | 2025.04.14 |
---|
댓글