2020.02.07 1강 : R사용법 및 데이터 불러오기


2020.02.07  1강 : R사용법 및 데이터 불러오기


1강 R사용법 및 데이터 불러오기 



1.0 R 및 R-STUDIO 설치 

 *https://backgomc.tistory.com/34 

1.1 R에서 데이터 불러오기


1.1.1  "R"에서 데이터를 불어오기 위해서는 "작업폴더"에서 데이터를 불러온다


[환경세팅] tidyverse 설치 

# R을 실행시키고, 스크립트 창에 1)이나 2)를 입력 

1) install.packages("tidyverse") 
2) install.packages("readr") 

# 나중에 실행할 때는 다음과 같이 입력

library(tidyverse) 
library(readr)


[작업폴더]  C:\내문서\data_2019_10_05>bank





1.1.2 데이터 불러올 때 쓰는 명령어 :

read.table  

#read.table은 데이터 파일에 변수값을 무엇으로 구분했는지 선택 가능

read.table(file_name, header = FALSE, sep = "", stringsAsFactors = system_default)


read.csv 

read.csv(file_name, header = TRUE, sep = ",")

#read.csv은 데이터 파일의 변수값을 꼭 쉼표(comma 즉 , )로 구분했을때만 사용하는 방법이



1.1.3 명령어 입력 없이 데이터 불러올 때 (마우스 클릭만으로도 가능하다)

#1 데이터 import를 클릭

#2 데이터 import를 클릭한 화면 : 실제 데이터 불러오는 read.csv코드가 실행



library(readr)
DirectMarketing <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DirectMarketing)



(퀴즈) 이렇게 입력하면 어떻게 될까요?

library(readr)
DM <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DM)



#3 Environment창에서 불러온 데이터 확인 


1.1.4 데이터 불러오기 

TEXT 데이터(메모장 파일) 불러오기

#1 read.table("coin.txt", header = TRUE)
#2 read.table("coin.txt", header = FALSE)


1, 2의 차이점은 무엇인가요?


EXCEL 데이터 불러오기

# 패키지설치 필요

install.packages("readxl")
library(readxl)


명령어 

read_excel("C:/Users/Administrator/Documents/file.xlsx", 
sheet="sheet1",    #불러올 엑셀시트 (CSV 파일과 차이)
range="B3:E8",     #불러올  파일 범위 
col_name=TRUE,   #1번체 행은 변수 명 
na="NA")    #결측 값 인식 : 비어있으면 디폴트로 결측값으로 인식 

view(file)

(참고) CSV 파일 처럼 마우스 클릭만을 데이터를 블러올수도 있다. 


1.1.5 데이터 실제 불러 오기 


예제 [핀테크 마케팅 데이터]

Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보



1.1.6 데이터 확인 

# head나 view함수를사용한다.

head()
view() 



  # 데이터 범주에 대한 구분 : 범주형, 수치형
    서로 분석 방법이 다르다.

 (참고) 범주형, 수치형 데이터 설명

링크 바로가기

범주형 데이터도 "순서"를 따진다?
 (예시) 더미변수 생성 및 회귀분석 (결혼 여부)

범주형 데이터의 분석 방법


1.1.7 기초 통계량 분석 

#기초통계량 보기

summary(데이터셋이름)
summary(DM)


기초통계명령어 링크보기


#기초통계량 보기 (히스토그램)

hist()명령어

hist(데이터셋이름$변수명)
hist(DM&Salary)





#기초통계량 보기 (BOXPLOT)

boxplot()
boxplot(데이터셋이름$변수명)
boxplot(DM$Salary)





1.1.8. 기초 통계량 분석 : 범주형 데이터 분석 

#파이차트 한번 써보기

범주형 데이터를 파이차트(원형)로 보려고 합니다.
파이차트를 그리기 위해서는 빈도(freq)수를 구해야 하죠


freq_Age<-table(DM$Age)
names(freq_Age) <- c ("Old", "Middle", "Young")   #Age변수는 Old, Middle, Young 3가지 범주 데이터로 이루어져 있습니다. 이들의 비중을 파이차트로 보여주는거죠 
pie(freq_Age)

freq_Age<-table(DM$Age)
names(freq_Age) <- c ("Old", "Middle", "Young")
pie(freq_Age)







범주형 데이터 차트 보기



1.1.9 데이터 불러와서 오늘 배운 명령어로 데이터 분석 보고서 만들기

다음주에 발표시킬 예정입니다! 

과제 발표에 대한 이미지 검색결과


과제#1 예제의 [핀테크 마케팅 데이터]

Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보




과제#2 [핀테크 인공지능 실습 데이터]

데이터 다운받기 / CSV에서 데이터 구분이 세미콜론(:)일 경우

은행(BANK) 데이터 세부정보



참고 : "Tidyverse"를 쓰는 이유?

cell 하나에 한 변수 이상의 데이터가 있을 경우 : 쪼개야 한다.




댓글