핀테크 실습데이터 : 정기예금 데이터 (야금예금 프로젝트 관련)

어제 배운 것을 적용해보기
1) 연령대를 임의의 집단 : 20대. 30대. 40대로 나누고 통화량(duration)과 학력과의 관계를
시각화하시오
2) 은행 정기예금(y)와 상관관계가 높은 변수를 추출해보시오 (환경변수 제외)
3) 2)의 변수는 (환경변수의 영향을 받는지요?)
(힌트)
>library(readr)
>library(dplyr)
>bank2 <- read_delim("bank.csv", ";", escape_double = FALSE,
trim_ws = TRUE)
>View(bank2)
hist(bank2$age) #age그룹 분포를 본다
summary(bank2$age) #연령대 구간에 참고
#10세 미만은없으나 98(?)세가 있다.
#>20 21~30 31~40 41~50 51~60 61세 이상으로 그룹을 나눈다.
#방법
>attach(bank2)
>bank2$agecat[age > 65] <- "Elder"
>bank2$agecat[age > 21 & age <= 65] <- "Middle Aged"
>bank2$agecat[age <= 20] <- "Young"
>detach(bank2)
#빈도 구하기
>table(bank2$education)
#education변수에서 빈도를 보고 싶다.

어제 배운 것을 적용해보기
1) 연령대를 임의의 집단 : 20대. 30대. 40대로 나누고 통화량(duration)과 학력과의 관계를
시각화하시오
2) 은행 정기예금(y)와 상관관계가 높은 변수를 추출해보시오 (환경변수 제외)
3) 2)의 변수는 (환경변수의 영향을 받는지요?)
(힌트)
>library(readr)
>library(dplyr)
>bank2 <- read_delim("bank.csv", ";", escape_double = FALSE,
trim_ws = TRUE)
>View(bank2)
hist(bank2$age) #age그룹 분포를 본다
summary(bank2$age) #연령대 구간에 참고
#10세 미만은없으나 98(?)세가 있다.
#>20 21~30 31~40 41~50 51~60 61세 이상으로 그룹을 나눈다.
#방법
>attach(bank2)
>bank2$agecat[age > 65] <- "Elder"
>bank2$agecat[age > 21 & age <= 65] <- "Middle Aged"
>bank2$agecat[age <= 20] <- "Young"
>detach(bank2)
#빈도 구하기
>table(bank2$education)
#education변수에서 빈도를 보고 싶다.
댓글
댓글 쓰기