728x90
반응형
빅데이터 전주기 프로세스 구성
- 데이터 소스
- 내부: 파일, 데이터베이스
- 외부: 공공 DB, SNS, IoT 센서 등
- 수집
- 정형: RDB, CSV 등
- 반정형: JSON, XML, 웹 로그 등
- 비정형: 텍스트, 이미지, 영상 등
- 저장
- 파일시스템, RDBMS, NoSQL 등
- 처리
- 배치, 실시간, 분산 병렬 처리 등
- 분석
- 통계 분석, 데이터 마이닝, 텍스트 마이닝, 머신러닝 기반 분석
- 표현
- 시각화: 시간, 분포, 관계, 비교, 공간 시각화 등
그래서 R을 쓰는 이유는?
→ 이 모든 단계에서 강력한 패키지를 통해 기능을 제공하기 때문!
- 데이터 전처리: dplyr, data.table
- 시각화: ggplot2, plotly, leaflet
- 분석: caret, randomForest, e1071, tm, text2vec
- 머신러닝: xgboost, mlr3
- 보고서 자동화: RMarkdown, Shiny
근데, R 에서 지원하는 기능은 요즘 파이썬에서 다 지원한당 ㅎㅎㅎ
728x90
반응형
'직장인 대학원 > R' 카테고리의 다른 글
[R] 매트릭스 (Matrix) (0) | 2025.04.18 |
---|---|
[R] 벡터(Vector) (0) | 2025.04.18 |
[R] 기본 객체와 자료 형태 (1) | 2025.04.18 |
[R] 산술 연산 (0) | 2025.04.18 |
[R] 변수와 상수 (0) | 2025.04.18 |
댓글