반응형
dplyr 패키지의 rename() 함수를 이용해 변수명을 바꿀 수 있다.
먼저 실습에 사용할 데이터 프레임을 만든다.
df_raw <- data.frame(var1 = c(1, 2, 1),
var2 = c(2, 3, 2))
df_raw
rename() 함수를 이용하기 위해 dplyr 패키지를 설치한다.
install.packages("dplyr")
library(dplyr)
packages 창에서 dplyr에 체크가 되있는 걸 확인한다.
변수명을 바꾸기 전에 데이터프레임 복사본을 만들겠다.
df_new <- df_raw
df_new
df_new의 var2 변수명을 v2로 바꾸겠다.
df_new <- rename(df_new, v2 = var2)
df_new
dplyr 패키지에 대한 설명
R의 dplyr 패키지는 데이터 조작을 간편하고 효율적으로 할 수 있게 해주는 패키지로, 특히 데이터 프레임을 다루는 데 매우 유용합니다. dplyr은 명확하고 직관적인 문법을 사용하여 데이터를 필터링하고, 변형하고, 집계할 수 있도록 도와줍니다. dplyr 패키지는 다음과 같은 주요 함수들로 구성되어 있습니다:
- filter(): 특정 조건에 맞는 행을 필터링합니다.
- 예: filter(df, 조건)는 데이터 프레임 df에서 조건에 맞는 행을 반환합니다.
df_filtered <- filter(df, age > 30)
2. select(): 필요한 열만 선택할 수 있습니다.
- 예: select(df, column1, column2)는 원하는 열만 선택합니다.
df_selected <- select(df, name, age)
3. arrange(): 데이터를 정렬합니다.
- 예: arrange(df, column)은 열을 기준으로 오름차순으로 정렬하고, arrange(df, desc(column))은 내림차순으로 정렬합니다.
df_sorted <- arrange(df, desc(age))
4. mutate(): 새로운 열을 추가하거나 기존 열을 변형합니다.
- 예: mutate(df, new_col = column1 + column2)는 기존 열을 활용해 새로운 열을 만듭니다.
df <- mutate(df, total = income - expenses)
5. summarize(): 요약 통계를 계산합니다. 보통 group_by() 함수와 함께 사용됩니다.
- 예: summarize(df, mean_age = mean(age))는 나이의 평균을 계산합니다.
df_summary <- summarize(df, avg_income = mean(income))
6. group_by(): 데이터를 그룹으로 나누고 그룹별로 연산을 적용합니다.
- 예: group_by(df, column)은 특정 열을 기준으로 그룹을 나눕니다.
df_grouped <- df %>%
group_by(gender) %>%
summarize(mean_income = mean(income))
반응형
'📊 R 데이터 분석' 카테고리의 다른 글
2024 변호사 시험 기수별 응시자 · 합격자 정보 (3) | 2024.10.10 |
---|---|
데이터 분석을 위한 R수업 <3차시 ④: 파생변수 만들기> (3) | 2024.10.05 |
데이터 분석을 위한 R수업 <3차시 ②: 데이터 다루기> (0) | 2024.10.05 |
데이터 분석을 위한 R수업 <3차시 ①: 데이터 프레임> (12) | 2024.10.05 |
데이터 분석을 위한 R수업 <2차시 : 변수> (1) | 2024.10.03 |
댓글