📊 R 데이터 분석

데이터 분석을 위한 R수업 <3차시 ③: 변수명 바꾸기>

해랑(Sea-wave) 2024. 10. 5.
반응형

dplyr 패키지rename() 함수를 이용해 변수명을 바꿀 수 있다.

 

먼저 실습에 사용할 데이터 프레임을 만든다.

df_raw <- data.frame(var1 = c(1, 2, 1),
                     var2 = c(2, 3, 2))
df_raw

 

 

rename() 함수를 이용하기 위해 dplyr  패키지를 설치한다.

 

install.packages("dplyr")
library(dplyr)

dplyr

packages 창에서 dplyr에 체크가 되있는 걸 확인한다.

 

변수명을 바꾸기 전에 데이터프레임 복사본을 만들겠다.

 

df_new <- df_raw
df_new

 

df_new의 var2 변수명을 v2로 바꾸겠다.

df_new <- rename(df_new, v2 = var2)
df_new

변수명 변경

 


dplyr 패키지에 대한 설명

 

R의 dplyr 패키지는 데이터 조작을 간편하고 효율적으로 할 수 있게 해주는 패키지로, 특히 데이터 프레임을 다루는 데 매우 유용합니다. dplyr은 명확하고 직관적인 문법을 사용하여 데이터를 필터링하고, 변형하고, 집계할 수 있도록 도와줍니다. dplyr 패키지는 다음과 같은 주요 함수들로 구성되어 있습니다:

  1. filter(): 특정 조건에 맞는 행을 필터링합니다.
    • 예: filter(df, 조건)는 데이터 프레임 df에서 조건에 맞는 행을 반환합니다.
df_filtered <- filter(df, age > 30)

 

    2. select(): 필요한 열만 선택할 수 있습니다.

  • 예: select(df, column1, column2)는 원하는 열만 선택합니다.
df_selected <- select(df, name, age)

 

    3. arrange(): 데이터를 정렬합니다.

  • 예: arrange(df, column)은 열을 기준으로 오름차순으로 정렬하고, arrange(df, desc(column))은 내림차순으로 정렬합니다.
df_sorted <- arrange(df, desc(age))

 

    4. mutate(): 새로운 열을 추가하거나 기존 열을 변형합니다.

  • 예: mutate(df, new_col = column1 + column2)는 기존 열을 활용해 새로운 열을 만듭니다.
df <- mutate(df, total = income - expenses)

 

   5. summarize(): 요약 통계를 계산합니다. 보통 group_by() 함수와 함께 사용됩니다.

  • 예: summarize(df, mean_age = mean(age))는 나이의 평균을 계산합니다.
df_summary <- summarize(df, avg_income = mean(income))

 

   

   6. group_by(): 데이터를 그룹으로 나누고 그룹별로 연산을 적용합니다.

-  예: group_by(df, column)은 특정 열을 기준으로 그룹을 나눕니다.

 

df_grouped <- df %>%
    group_by(gender) %>%
    summarize(mean_income = mean(income))
반응형

댓글