빈수 개발자 개발 일기920 [R] dplyr 패키지 ✅ 기본 함수 요약1. select()열(컬럼) 선택exam %>% select(class, english) 2. filter()행(조건) 필터링exam %>% filter(class == 1) 3. arrange()정렬 (오름차순/내림차순)exam %>% arrange(id) # 오름차순exam %>% arrange(desc(science)) # 내림차순 4. mutate()새로운 열 추가exam %>% mutate(total = english + science)exam %>% mutate(mean = total / 2)exam %>% mutate(test = ifelse(mean >= 60, "pass", "fail"))5. group_by() + summarise.. 직장인 대학원/R 2025. 4. 18. [R] 파이프 (pipe) 🧩 파이프(pipe)란?앞에서 만든 결과를 다음 함수에 넘기는 연결 도구! 원래는 이렇게 써야 하던 코드가...function1(function2(function3(data)))파이프를 쓰면 이렇게 깔끔하게 바뀜!data %>% function3() %>% function2() %>% function1() 👆 위처럼 코드를 위에서 아래로 읽기 쉽게!, R의 문장을 자연스럽게 연결하는 느낌 ✅ 사용 방법 요약%>% 연산자: 앞의 데이터를 뒤 함수의 첫 번째 인자로 넣음tidyr 또는 dplyr 패키지 필요install.packages("tidyr") library(tidyr) 👀 예시 비교🔹 Without pipingfunction(dataframe, arg2, arg3)🔹 With p.. 직장인 대학원/R 2025. 4. 18. [R] 데이터 프레임 (Data Frame) 오늘 수업에서는 드디어 R에서 가장 많이 쓰인다는 **데이터 프레임(data.frame)**을 배웠다.R의 엑셀 같기도 하고, 판다스의 DataFrame과도 비슷해서 금방 친숙해졌다! ✅ 데이터 프레임이란?R에서 가장 일반적이고 표준적인 데이터 저장 방식엑셀 표처럼 생긴 구조!내부적으로는 같은 길이의 벡터들을 묶은 리스트열마다 타입이 다를 수 있어서 분석에 최적화됨 ✨ 데이터 프레임 생성하기 x id name1 1 Kim2 2 Lee3 3 Park4 4 Choi 🧠 실습하면서 배운 팁들!📌 문자열 벡터는 자동으로 Factor로 바뀜 dat.1 'data.frame': 3 obs. of 2 variables: $ x: int 1 2 3 $ y: Factor w/ 3 levels .. 직장인 대학원/R 2025. 4. 18. [R] 범주형 데이터 (Factor) 오늘 수업에서는 R에서 범주형 데이터, 즉 Factor에 대해 배웠다.처음엔 그냥 문자 벡터랑 뭐가 다르지? 싶었는데, 데이터에 의미 있는 "범주"를 부여하는 도구라는 걸 알고 꽤 유용하다고 느꼈다! ✅ Factor란?범주형 데이터를 표현하는 특수한 데이터 타입숫자나 문자열로만 구분하기보다, **라벨(label)**을 붙여서 더 자기 설명적인 self-describing 데이터를 만들 수 있음예시:성별: "남", "여"만족도: "매우좋음", "좋음", "보통", "나쁨"...혈액형: "A", "B", "AB", "O" ✨ Factor 생성 기본 x [1] yes yes no yes noLevels: no yes 자동으로 알파벳 순서로 level 정렬됨 (no, yes)factor()는 문자 벡터 → 범주.. 직장인 대학원/R 2025. 4. 18. [R] 리스트 (List) 오늘 수업에서는 드디어 R에서 정말 유용한 리스트라는 걸 배웠다.벡터나 행렬은 한 가지 타입만 저장할 수 있었지만,리스트는 숫자, 문자열, 논리값, 심지어 또 다른 리스트까지 다 담을 수 있다! 🧱 리스트란?다양한 자료형을 함께 담을 수 있는 특수한 형태의 벡터각각의 원소에 이름을 붙일 수도 있음리스트는 list() 함수로 생성한다x [[1]] 1[[2]] "a"[[3]] TRUE[[4]] 1+4i ✨ 리스트에 이름 붙이기 + 중첩 리스트Hong Hong이라는 리스트에 이름이 붙은 정보들이 잘 정리되어 있는 걸 확인할 수 있다! 🔍 리스트 구조 보기str(Hong)List of 6 $ kor.name : chr "홍길동" $ eng.name : chr "Gil-dong" $ age.. 직장인 대학원/R 2025. 4. 18. [R] 매트릭스 (Matrix) 🧱 메트릭스란?숫자(또는 같은 타입의 값들)를 행(row)과 열(column)로 배치한 2차원 구조각 위치는 [i, j]처럼 행 번호, 열 번호로 접근 가능수학적으로는 m × n 행렬이라고 부른다[1,] 1 5 9[2,] 2 6 10 🛠️ 메트릭스 만드는 3가지 방법1. matrix() 함수 사용matrix(nrow=2, ncol=3) → NA로 초기화된 2×3 행렬 생성왼쪽 위부터 column-wise 방식으로 값이 채워짐matrix(1:6, nrow=2, ncol=3) [,1] [,2] [,3][1,] 1 3 5[2,] 2 4 6 2. dim()으로 차원 설정m [,1] [,2] [,3] [,4] [,5][1,] 1 3 .. 직장인 대학원/R 2025. 4. 18. [R] 벡터(Vector) 🧱 벡터란?R에서 같은 종류의 데이터들만 저장할 수 있는 1차원 배열!숫자든 문자든 논리값이든, 한 번 만들면 같은 타입만 들어간다.c() 함수를 써서 벡터를 생성한다.x 🎯 벡터 인덱싱 (벡터 안에서 특정 값 꺼내기)x[3] # 세 번째 값 출력x[c(1, 3)] # 첫 번째와 세 번째 값 출력 []를 사용해서 원하는 위치의 값을 가져올 수 있어서 너무 편했다.엑셀처럼 "몇 번째" 느낌으로 쉽게 다룰 수 있음! 🏷️ 벡터에 이름 붙이기fruit appleorangepeach532 이름을 붙이면 숫자 인덱스 없이도 바로 가져올 수 있어서 가독성 최고! 📏 벡터 길이 구하기length(fruit) # 벡터에 몇 개 들어있는지 🧩 벡터 결합a 🧩 벡터 수정x: 원래.. 직장인 대학원/R 2025. 4. 18. [R] 기본 객체와 자료 형태 🧱 R의 5가지 기본 객체R에서는 데이터를 저장할 수 있는 기본 단위, 객체가 아래 다섯 가지로 나뉜다고 한다:Character (문자형)→ "Hello" 같은 문자열Numeric (숫자형/실수형)→ 3.14, 10.5 같은 소수 포함 숫자Integer (정수형)→ 5L, 100L 처럼 L을 붙여 정수로 표현Complex (복소수형)→ 1 + 2i 같은 수학 시간에 나왔던 복소수Logical (논리형)→ TRUE, FALSE 같은 참/거짓 값 📦 R의 자료 형태 (데이터 구조)그리고 이 기본 객체들을 가지고 R에서는 다양한 형태로 데이터를 구성할 수 있는데, 그게 바로 자료 형태라고 한다. Vector (벡터)→ 동일한 데이터 타입을 가진 값들의 모음c(1, 2, 3) Matrix (행렬)→ 2차원,.. 직장인 대학원/R 2025. 4. 18. [R] 산술 연산 오늘은 R에서 사용할 수 있는 다양한 산술 연산과 수학 함수에 대해 배웠다.사칙연산부터 지수, 복소수까지 — 수학을 좋아하진 않지만 코드로 계산하니까 좀 더 재미있게 느껴졌다 😄 ✍️ 기본 산술 연산 x 이렇게 변수 두 개를 만들어 놓고, x + y # 덧셈x - y # 뺄셈x * y # 곱셈x / y # 나눗셈x ^ y # 제곱x %/% y # 몫 (정수 나눗셈)x %% y # 나머지 R은 수학 계산을 정말 직관적으로 할 수 있다. 특히 ^로 제곱하고, %/%, %%로 몫과 나머지를 구하는 게 신기 ✍️ 지수 표현도 가능하다! 1.2e3 # 1.2 * 10^3 → 12001.2e-3 # 1.2 * 10^-3 → 0.0012 과학적 표기법도 지원해서, 큰 수나 작은 수 표현.. 직장인 대학원/R 2025. 4. 18. [R] 변수와 상수 오늘 R 수업 시간에는 프로그래밍에서 가장 기본이 되는 변수와 상수에 대해 배웠다.처음에는 조금 헷갈렸는데, 들으면 들을수록 "아~ 이거 다른 언어에서도 본 건데!" 싶은 내용이었다.그래도 R만의 문법이 있어서 잘 기억해두려고 이렇게 정리해본다. ✍️ 변수(Variable)란?변수는 한마디로 데이터를 저장할 수 있는 공간이다.중요한 건 "값이 바뀔 수 있다"는 것!R에서는 변수에 값을 넣을 때 ← 기호를 주로 쓴다. (=`도 되지만 ←이 더 R스러움)score ✍️ 상수(Constant)란?상수는 반대로 한번 정해지면 변하지 않는 값이다.특별히 '상수'로 선언하는 키워드는 없지만, 그냥 안 바꾸고 쓰면 상수처럼 되는 거다. pi 이렇게 쓰면 π 값이 나온다. 그냥 기본으로 있는 상수 느낌? ✍️ 변.. 직장인 대학원/R 2025. 4. 18. [R] R 데이터를 사용하는 이유 빅데이터 전주기 프로세스 구성데이터 소스내부: 파일, 데이터베이스외부: 공공 DB, SNS, IoT 센서 등수집정형: RDB, CSV 등반정형: JSON, XML, 웹 로그 등비정형: 텍스트, 이미지, 영상 등저장파일시스템, RDBMS, NoSQL 등처리배치, 실시간, 분산 병렬 처리 등분석통계 분석, 데이터 마이닝, 텍스트 마이닝, 머신러닝 기반 분석표현시각화: 시간, 분포, 관계, 비교, 공간 시각화 등 그래서 R을 쓰는 이유는?→ 이 모든 단계에서 강력한 패키지를 통해 기능을 제공하기 때문!데이터 전처리: dplyr, data.table시각화: ggplot2, plotly, leaflet분석: caret, randomForest, e1071, tm, text2vec머신러닝: xgboost, mlr3.. 직장인 대학원/R 2025. 4. 18. 캐글 스터디 1회차 - 과제 1회차 과제Basic Analysis 실습 해오기. Basic Analysis데이터 셋 크기 (행/열): 데이터의 전체 구조를 파악한다.실제 모습: head()나 sample()로 데이터를 직접 확인한다.중복치: 중복된 행이 있는지 확인한다.결측치: 누락된 값이 있는지 파악한다.기술 통계: 수치형 변수의 평균, 분산 등 기본 통계값을 확인한다.컬럼 종류: 수치형/범주형 등의 변수 타입을 구분한다.범주형 컬럼의 고유값: 각 범주형 변수에 어떤 값들이 있는지 파악한다. 코드로 구현하기데이터 불러오기# 데이터 불러오기train = pd.read_csv('/kaggle/input/playground-series-s5e3/train.csv')test = pd.read_csv('/kaggle/input/playgr.. 직장인 대학원/캐글 스터디 2025. 4. 14. 이전 1 2 3 4 ··· 77 다음