2020.02.07 1강 : R사용법 및 데이터 불러오기

2020.02.07 1강 : R사용법 및 데이터 불러오기

1강 R사용법 및 데이터 불러오기

1.0 R 및 R-STUDIO 설치

*https://backgomc.tistory.com/34

1.1 R에서 데이터 불러오기

1.1.1 "R"에서 데이터를 불어오기 위해서는 "작업폴더"에서 데이터를 불러온다

[환경세팅] tidyverse 설치

# R을 실행시키고, 스크립트 창에 1)이나 2)를 입력

1) install.packages("tidyverse")
2) install.packages("readr")

# 나중에 실행할 때는 다음과 같이 입력

library(tidyverse)
library(readr)

[작업폴더] C:\내문서\data_2019_10_05>bank

1.1.2 데이터 불러올 때 쓰는 명령어 :

read.table

#read.table은 데이터 파일에 변수값을 무엇으로 구분했는지 선택 가능

read.table(file_name, header = FALSE, sep = "", stringsAsFactors = system_default)

read.csv

read.csv(file_name, header = TRUE, sep = ",")

#read.csv은 데이터 파일의 변수값을 꼭 쉼표(comma 즉 , )로 구분했을때만 사용하는 방법이

1.1.3 명령어 입력 없이 데이터 불러올 때 (마우스 클릭만으로도 가능하다)

#1 데이터 import를 클릭

#2 데이터 import를 클릭한 화면 : 실제 데이터 불러오는 read.csv코드가 실행

library(readr)
DirectMarketing <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DirectMarketing)

(퀴즈) 이렇게 입력하면 어떻게 될까요?

library(readr)
DM <- read_csv("~/data_2019_10_05/maketing/DirectMarketing.csv")
View(DM)

#3 Environment창에서 불러온 데이터 확인

1.1.4 데이터 불러오기

TEXT 데이터(메모장 파일) 불러오기

#1 read.table("coin.txt", header = TRUE)
#2 read.table("coin.txt", header = FALSE)

1, 2의 차이점은 무엇인가요?

EXCEL 데이터 불러오기

# 패키지설치 필요

install.packages("readxl")
library(readxl)

명령어

read_excel("C:/Users/Administrator/Documents/file.xlsx",
sheet="sheet1",    #불러올 엑셀시트 (CSV 파일과 차이)
range="B3:E8", #불러올 파일 범위
col_name=TRUE,   #1번체 행은 변수 명
na="NA")    #결측 값 인식 : 비어있으면 디폴트로 결측값으로 인식

view(file)

(참고) CSV 파일 처럼 마우스 클릭만을 데이터를 블러올수도 있다.

1.1.5 데이터 실제 불러 오기

예제 [핀테크 마케팅 데이터]

Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보

1.1.6 데이터 확인

# head나 view함수를사용한다.

head()
view()

# 데이터 범주에 대한 구분 : 범주형, 수치형
서로 분석 방법이 다르다.

(참고) 범주형, 수치형 데이터 설명

링크 바로가기

범주형 데이터도 "순서"를 따진다?
(예시) 더미변수 생성 및 회귀분석 (결혼 여부)

범주형 데이터의 분석 방법

1.1.7 기초 통계량 분석

#기초통계량 보기

summary(데이터셋이름)
summary(DM)

기초통계명령어 링크보기

#기초통계량 보기 (히스토그램)

hist()명령어

hist(데이터셋이름$변수명)
hist(DM&Salary)

#기초통계량 보기 (BOXPLOT)

boxplot()
boxplot(데이터셋이름$변수명)
boxplot(DM$Salary)

1.1.8. 기초 통계량 분석 : 범주형 데이터 분석

#파이차트 한번 써보기

범주형 데이터를 파이차트(원형)로 보려고 합니다.
파이차트를 그리기 위해서는 빈도(freq)수를 구해야 하죠

freq_Age<-table(DM$Age)
names(freq_Age) <- c ("Old", "Middle", "Young") #Age변수는 Old, Middle, Young 3가지 범주 데이터로 이루어져 있습니다. 이들의 비중을 파이차트로 보여주는거죠
pie(freq_Age)

freq_Age<-table(DM$Age)
names(freq_Age) <- c ("Old", "Middle", "Young")
pie(freq_Age)

범주형 데이터 차트 보기

1.1.9 데이터 불러와서 오늘 배운 명령어로 데이터 분석 보고서 만들기

다음주에 발표시킬 예정입니다!

과제 발표에 대한 이미지 검색결과

과제#1 예제의 [핀테크 마케팅 데이터]

Direct Marketing
다이렉트 마케팅 데이터 다운받기
데이터 세부정보

과제#2 [핀테크 인공지능 실습 데이터]

데이터 다운받기 / CSV에서 데이터 구분이 세미콜론(:)일 경우

은행(BANK) 데이터 세부정보

참고 : "Tidyverse"를 쓰는 이유?

cell 하나에 한 변수 이상의 데이터가 있을 경우 : 쪼개야 한다.

아시아경제 데이터사이언스2020

이 블로그 검색

2020.02.07 1강 : R사용법 및 데이터 불러오기

댓글

댓글 쓰기