직장인 대학원/캐글 스터디

캐글 스터디 1회차 - 과제

Binsoo 2025. 4. 14.
728x90
반응형

1회차 과제

Basic Analysis 실습 해오기.

 

Basic Analysis
  • 데이터 셋 크기 (행/열): 데이터의 전체 구조를 파악한다.
  • 실제 모습: head()나 sample()로 데이터를 직접 확인한다.
  • 중복치: 중복된 행이 있는지 확인한다.
  • 결측치: 누락된 값이 있는지 파악한다.
  • 기술 통계: 수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.
  • 컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.
  • 범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다.

 

코드로 구현하기

데이터 불러오기

# 데이터 불러오기
train = pd.read_csv('/kaggle/input/playground-series-s5e3/train.csv')
test = pd.read_csv('/kaggle/input/playground-series-s5e3/test.csv')

 

데이터 셋 크기 (행/열)

데이터의 전체 구조를 파악한다.

## 데이터 셋 크기 확인하기

print("Train 데이터 크기:", train.shape)
print("Test 데이터 크기:", test.shape)

 

실제 모습

head()나 sample()로 데이터를 직접 확인한다.

## 샘플 확인

train.head()

 

중복치

중복된 행이 있는지 확인한다.

## 중복치: 중복된 행이 있는지 확인한다. 
## 중복의 기준 : "중복"의 기준은 기본적으로 "모든 열의 값이 완전히 똑같은 행"

duplicate_count = train.duplicated().sum()
print(f" 중복된 행 개수: {duplicate_count}")

 

중복을 제거해야 한다면 아래와 같이 제거 할 수 있다.

## 중복치 제거

if ( duplicate_count > 0 ) :
    train = train.drop_duplicates()
    print(f" 중복된 행 개수: {duplicate_count}")

 

결측치

누락된 값이 있는지 파악한다.

## 결측치: 누락된 값이 있는지 파악한다.

missing_values = train.isnull().sum()
print(missing_values)

 

 

기술 통계

수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.

## 수치형 변수에 대한 기술 통계
train.describe()

 

컬럼 종류

수치형/범주형 등의 변수 타입을 구분한다.

## 컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.
# 수치형 : 숫자로 이루어진 데이터로, 평균·합계·표준편차 등의 수학적 계산이 가능한 변수 ( 예 : 예: 온도, 습도, 기압, 시간 등 )
# 범주형 : 몇 가지 고정된 값(범주) 중 하나를 가지는 변수로, 순서나 수치적 연산은 보통 의미 없음 ( 예: 지역명, 날씨 종류, 요일, 성별 등 )


numeric_cols = train.select_dtypes(include=['int64', 'float64']).columns
print("수치형 컬럼 목록:")
print(numeric_cols.tolist())

categorical_cols = train.select_dtypes(include=['object', 'category']).columns
print("범주형 컬럼 목록:")
print(categorical_cols.tolist())

 

범주형 컬럼의 고유값

각 범주형 변수에 어떤 값들이 있는지 파악한다.

## 범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다. 
## 하지만 해당 데이터 셋은 수치형이기 때문에 범주형 컬럼을 확인할 수 없다.

categorical_cols = train.select_dtypes(include=['object', 'category']).columns
print("범주형 컬럼 목록:", categorical_cols.tolist())

 

728x90
반응형

'직장인 대학원 > 캐글 스터디' 카테고리의 다른 글

캐글 스터디 1회차  (0) 2025.04.07

댓글