2020.02.07 1강 : R사용법 및 데이터 불러오기
1강 R사용법 및 데이터 불러오기
1.0 R 및 R-STUDIO 설치
*https://backgomc.tistory.com/34
1.1 R에서 데이터 불러오기
1.1.1 "R"에서 데이터를 불어오기 위해서는 "작업폴더"에서 데이터를 불러온다
[환경세팅] tidyverse 설치
# R을 실행시키고, 스크립트 창에 1)이나 2)를 입력
1) install.packages("tidyverse")
2) install.packages("readr")
# 나중에 실행할 때는 다음과 같이 입력
library(tidyverse)
library(readr)
[작업폴더] C:\내문서\data_2019_10_05>bank
1.1.2 데이터 불러올 때 쓰는 명령어 :
read.table
#read.table은 데이터 파일에 변수값을 무엇으로 구분했는지 선택 가능
read.table(file_name, header = FALSE, sep = "", stringsAsFactors = system_default)
read.csv
read.csv(file_name, header = TRUE, sep = ",")
#read.csv은 데이터 파일의 변수값을 꼭 쉼표(comma 즉 , )로 구분했을때만 사용하는 방법이
1.1.3 명령어 입력 없이 데이터 불러올 때 (마우스 클릭만으로도 가능하다)
#1 데이터 import를 클릭
#2 데이터 import를 클릭한 화면 : 실제 데이터 불러오는 read.csv코드가 실행
library(readr)
DirectMarketing <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DirectMarketing)
(퀴즈) 이렇게 입력하면 어떻게 될까요?
library(readr)
DM <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DM)
#3 Environment창에서 불러온 데이터 확인
1.1.4 데이터 불러오기
TEXT 데이터(메모장 파일) 불러오기
#1 read.table("coin.txt", header = TRUE)
#2 read.table("coin.txt", header = FALSE)
1, 2의 차이점은 무엇인가요?
EXCEL 데이터 불러오기
# 패키지설치 필요
install.packages("readxl")
library(readxl)
명령어
read_excel("C:/Users/Administrator/Documents/file.xlsx",
sheet="sheet1", #불러올 엑셀시트 (CSV 파일과 차이)
range="B3:E8", #불러올 파일 범위
col_name=TRUE, #1번체 행은 변수 명
na="NA") #결측 값 인식 : 비어있으면 디폴트로 결측값으로 인식
view(file)
(참고) CSV 파일 처럼 마우스 클릭만을 데이터를 블러올수도 있다.
1.1.5 데이터 실제 불러 오기
예제 [핀테크 마케팅 데이터]
Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보
1.1.6 데이터 확인
# head나 view함수를사용한다.
head()
view()
# 데이터 범주에 대한 구분 : 범주형, 수치형
서로 분석 방법이 다르다.
(참고) 범주형, 수치형 데이터 설명
링크 바로가기
범주형 데이터도 "순서"를 따진다?
(예시) 더미변수 생성 및 회귀분석 (결혼 여부)
범주형 데이터의 분석 방법
1.1.7 기초 통계량 분석
#기초통계량 보기
summary(데이터셋이름)
summary(DM)
기초통계명령어 링크보기
#기초통계량 보기 (히스토그램)
hist()명령어
hist(데이터셋이름$변수명)
hist(DM&Salary)
#기초통계량 보기 (BOXPLOT)
boxplot()
boxplot(데이터셋이름$변수명)
boxplot(DM$Salary)
1.1.8. 기초 통계량 분석 : 범주형 데이터 분석
#파이차트 한번 써보기
범주형 데이터를 파이차트(원형)로 보려고 합니다.
파이차트를 그리기 위해서는 빈도(freq)수를 구해야 하죠
freq_Age<-table(DM$Age)
names(freq_Age) <- c ("Old", "Middle", "Young") #Age변수는 Old, Middle, Young 3가지 범주 데이터로 이루어져 있습니다. 이들의 비중을 파이차트로 보여주는거죠
pie(freq_Age)
names(freq_Age) <- c ("Old", "Middle", "Young")
pie(freq_Age)
범주형 데이터 차트 보기
1.1.9 데이터 불러와서 오늘 배운 명령어로 데이터 분석 보고서 만들기
다음주에 발표시킬 예정입니다!
과제#1 예제의 [핀테크 마케팅 데이터]
Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보
과제#2 [핀테크 인공지능 실습 데이터]
데이터 다운받기 / CSV에서 데이터 구분이 세미콜론(:)일 경우
은행(BANK) 데이터 세부정보
참고 : "Tidyverse"를 쓰는 이유?
cell 하나에 한 변수 이상의 데이터가 있을 경우 : 쪼개야 한다.










댓글
댓글 쓰기