728x90
반응형
1회차 과제
Basic Analysis 실습 해오기.
Basic Analysis
- 데이터 셋 크기 (행/열): 데이터의 전체 구조를 파악한다.
- 실제 모습: head()나 sample()로 데이터를 직접 확인한다.
- 중복치: 중복된 행이 있는지 확인한다.
- 결측치: 누락된 값이 있는지 파악한다.
- 기술 통계: 수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.
- 컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.
- 범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다.
코드로 구현하기
데이터 불러오기
# 데이터 불러오기
train = pd.read_csv('/kaggle/input/playground-series-s5e3/train.csv')
test = pd.read_csv('/kaggle/input/playground-series-s5e3/test.csv')
데이터 셋 크기 (행/열)
데이터의 전체 구조를 파악한다.
## 데이터 셋 크기 확인하기
print("Train 데이터 크기:", train.shape)
print("Test 데이터 크기:", test.shape)
실제 모습
head()나 sample()로 데이터를 직접 확인한다.
## 샘플 확인
train.head()
중복치
중복된 행이 있는지 확인한다.
## 중복치: 중복된 행이 있는지 확인한다.
## 중복의 기준 : "중복"의 기준은 기본적으로 "모든 열의 값이 완전히 똑같은 행"
duplicate_count = train.duplicated().sum()
print(f" 중복된 행 개수: {duplicate_count}")
중복을 제거해야 한다면 아래와 같이 제거 할 수 있다.
## 중복치 제거
if ( duplicate_count > 0 ) :
train = train.drop_duplicates()
print(f" 중복된 행 개수: {duplicate_count}")
결측치
누락된 값이 있는지 파악한다.
## 결측치: 누락된 값이 있는지 파악한다.
missing_values = train.isnull().sum()
print(missing_values)
기술 통계
수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.
## 수치형 변수에 대한 기술 통계
train.describe()
컬럼 종류
수치형/범주형 등의 변수 타입을 구분한다.
## 컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.
# 수치형 : 숫자로 이루어진 데이터로, 평균·합계·표준편차 등의 수학적 계산이 가능한 변수 ( 예 : 예: 온도, 습도, 기압, 시간 등 )
# 범주형 : 몇 가지 고정된 값(범주) 중 하나를 가지는 변수로, 순서나 수치적 연산은 보통 의미 없음 ( 예: 지역명, 날씨 종류, 요일, 성별 등 )
numeric_cols = train.select_dtypes(include=['int64', 'float64']).columns
print("수치형 컬럼 목록:")
print(numeric_cols.tolist())
categorical_cols = train.select_dtypes(include=['object', 'category']).columns
print("범주형 컬럼 목록:")
print(categorical_cols.tolist())
범주형 컬럼의 고유값
각 범주형 변수에 어떤 값들이 있는지 파악한다.
## 범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다.
## 하지만 해당 데이터 셋은 수치형이기 때문에 범주형 컬럼을 확인할 수 없다.
categorical_cols = train.select_dtypes(include=['object', 'category']).columns
print("범주형 컬럼 목록:", categorical_cols.tolist())
728x90
반응형
'직장인 대학원 > 캐글 스터디' 카테고리의 다른 글
캐글 스터디 1회차 (0) | 2025.04.07 |
---|
댓글