Narzędzia użytkownika

Narzędzia witryny


r_dplyr_agreagety

Czasowniki dplyr - grupowanie i agregowanie

group_by

group_by(tablica, kolumna1, …)

  • Grupuje tablicę dplyr-a według wartości podanych kolumn.
    • Grupowanie sprawia, że operacje tworzenia nowych zmiennych (mutate i transmute) obliczają wyniki w ramach grup.
    • Grupowanie umożliwia agregowanie danych za pomocą czasownika summarize (patrz niżej).
  • Aby usunąć grupowanie z tablicy dplyr-a należy określić puste grupowanie lub użyć czasownika ungroup (patrz poniżej).

Przykład

dane = data.frame(grupa = c(1, 1, 2, 2, 2), wartosc = 1:5)
dane = group_by(dane, grupa)
 
mutate(dane, srednia = mean(wartosc))
# wynikiem będzie:
#
#  grupa wartosc srednia
#      1       1     1.5
#      1       2     1.5
#      2       3       4
#      2       4       4
#      2       5       4
 
summarize(dane, srednia = mean(wartosc))
# wynikiem będzie:
#
#  grupa srednia
#      1     1.5
#      2       4

summarize

summarize(tablica, agregat1 = definicja1, …)

  • Oblicza zagregowane wartości dla grup zdefiniowanych czasownikiem group_by (patrz wyżej).
    • Odpowiada złożeniu transmute() i distinct(), ale wykonuje się szybciej od takiego złożenia.

Przykład

dane = data.frame(grupa = c(1, 1, 2, 2, 2), wartosc = 1:5)
dane = group_by(dane, grupa)
 
summarize(dane, srednia = mean(wartosc))
# wynikiem będzie:
#
#  grupa srednia
#      1     1.5
#      2       4
 
transmute(dane, srednia = mean(wartosc)) %>% distinct()
# wynikiem będzie:
#
#  grupa srednia
#      1     1.5
#      2       4
r_dplyr_agreagety.txt · ostatnio zmienione: 2015/01/30 11:22 przez zozlak