Narzędzia użytkownika

Narzędzia witryny


r_dplyr

Dlaczego pakiet dplyr?

Dplyr usprawnia przetwarzanie danych w R na wielu płaszczyznach:

  • funkcje dplyr-a działają dużo szybciej niż bazowe funkcje R;
  • funkcje dplyr-a łączą się z sobą w logiczny sposób (w odróżnieniu od wielu bazowych funkcji R);
  • funkcje dplyr-a wyrabiają w użytkowniku dobre nawyki związane z przekształcaniem danych;
    • patrz idea nieuporządkowanych i uporządkowanych danych przedstawiona tutaj;
  • dplyr umożliwia korzystanie z SQL-owych baz danych w taki sposób, jakby niczym nie różniły się one od zwykłego zbioru wielu ramek danych R.

Wejście w świat dplyr-a nie powinno nastręczyć specjalnych trudności, ponieważ dplyr-owe odpowiedniki ramek danych zachowują się jak zwykłe ramki danych we wszystkich funkcjach, które nie korzystają z ich specjalnych własności, a z kolei wszystkie funkcje dplyr-a akceptują też zwykłe R-owe ramki danych.

Praca z danymi w pakiecie dplyr sprowadza się do:

  • Pobrania danych do zwykłej ramki danych R.
  • Przekształcaniu danych za pomocą tzw. czasowników - funkcji, z których każda wykonuje na danych jedną, dobrze określoną czynność (np. tworzy zmienne, grupuje, agreguje, itp.).
    • Charakterystyczne dla tego sposobu przetwarzania danych jest łączenie wywołań czasowników w (czasem dość długie) ciągi. Aby uczynić zapis takich łańcuchów bardziej czytelnym, stosowany jest operator potoku (%>%).
r_dplyr.txt · ostatnio zmienione: 2015/01/30 10:58 przez zozlak