Narzędzia użytkownika

Narzędzia witryny


r_dplyr

To jest stara wersja strony!


Wprowadzenie do pakietu dplyr

Dplyr usprawnia przetwarzanie danych w R na wielu płaszczyznach:

  • funkcje dplyr-a działają dużo szybciej niż bazowe funkcje R;
  • funkcje dplyr-a łączą się z sobą w logiczny sposób (w odróżnieniu od wielu bazowych funkcji R);
  • funkcje dplyr-a wyrabiają w użytkowniku dobre nawyki związane z przekształcaniem danych;
  • dplyr umożliwia korzystanie z SQL-owych baz danych w taki sposób, jakby niczym nie różniły się one od zwykłego zbioru wielu ramek danych R.

Wejście w świat dplyr-a nie powinno nastręczyć specjalnych trudności, ponieważ dplyr-owe odpowiedniki ramek danych zachowują się jak zwykłe ramki danych we wszystkich funkcjach, które nie korzystają z ich specjalnych własności, a z kolei wszystkie funkcje dplyr-a akceptują też zwykłe R-owe ramki danych.

Praca z danymi w pakiecie dplyr sprowadza się do:

  • Pobrania danych do zwykłej ramki danych R.
  • Przekształcaniu danych za pomocą tzw. czasowników - funkcji, z których każda wykonuje na danych jedną, dobrze określoną czynność (np. tworzy zmienne, grupuje, agreguje, itp.).
    • Charakterystyczne dla tego sposobu przetwarzania danych jest łączenie wywołań czasowników w (czasem dość długie) ciągi. Aby uczynić zapis takich łańcuchów bardziej czytelnym, stosowany jest operator potoku (%>%).

Poniżej znajduje się (możliwie pełne) kompedium funkcji dostępnych w wersji 0.4 pakietu dplyr.

Funkcje w podziale na grupy zastosowań

r_dplyr.1421698418.txt.gz · ostatnio zmienione: 2015/01/19 21:13 przez zozlak