Narzędzia użytkownika

Narzędzia witryny


r_gr

Grupy danych

Wstęp

Z uwagi na różnorodność danych przechowywanych w bazie, nie ma możliwości udostępnienia ich w postaci jednego zbioru danych i zachodzi konieczność podzielenia ich na pewne grupy.

Wyróżnione grupy to:

 • wyniki: surowe wyniki egzaminów i testów zrównujących ;
 • oszacowania: oszacowania umiejętności uczniów uzyskane w wyniku skalowania IRT;
 • parametry: oszacowania parametrów IRT i KTT zadań z egzaminów i testów;
 • normy: tabele przeliczeniowe dla sumarycznych wyników punktowych;
 • skale: wykaz skal i skalowań użytych do uzyskania oszacowań umiejętności uczniów i/lub parametrów zadań;
 • uczniowie: wykaz uczniów i tych ich cech, które nie zmianiają się w czasie (płeć, data urodzenia, id_cke);
 • uczniowieTesty: wykaz cech uczniów w momencie przystępowania do danego egzaminu lub testu (np. dysleksja czy bycie laureatem konkursu przedmiotowego);
 • szkoly: wykaz szkół (w podziale na lata);
 • testy: wykaz egzaminów i testów (data przeprowadzenia, zakres tematyczny, itp.);
 • kryteriaOceny: wykaz pytań i kryteriów oceny występujących w egzaminach i testach;
 • wskazniki: wykaz wskaźników EWD i PWE (wskaźniki dla szkół i, w wypadku PWE, jednostek samorządu terytorialnego);
 • wartosciWskaznikow: wartości wskaźników EWD i PWE.

Dane każdej z grup pobrać można odpowiednią funkcją pakietu ZPD - podsumowanie tych funkcji oraz listy zmiennych w zwracanych przez nie zbiorach danych znajduje się na końcu tego rozdziału.

Dokładne opisy poszczególnych grup danych wraz z przykładami kodu w R znajdują się w oddzielnych rozdziałach (można do nich przejść klikając nazwę grupy danych w tabeli na końcu tego rozdziału).

Przepływ danych między grupami

Poniższy schemat ilustruje, skąd biorą się dane w poszczególnych grupach danych:

 • szare prostokąty - instytucje;
 • romby - zbiory danych wymieniane między instytucjami;
 • walce - grupy danych;
 • linie ciągłe - przepływ danych;
 • linie przerywane - dane używane do weryfikacji;

Złączanie pomiędzy grupami danych

Wymienione powyżej grupy danych współdzielą między sobą pewne wspólne informacje, po których możliwe jest złączanie danych między nimi, co podsumowuje tabela poniżej.

Tam, gdzie grupy dzielą wspólną informację, tam możliwe jest złączanie między nimi.

Jeśli natomiast jakieś grupy nie posiadają wspólnych zmiennych, a chcielibyśmy dokonać między nimi złączenia, wtedy niezbędne jest znalezienie grupy, która mogłaby się stać dla nich pośrednikiem, np.:

 • Chcemy połączyć informację o uczniach i szkołach (np. aby policzyć średnią liczbę uczniów w szkole ze względu na płeć i wielkość miejscowości, w której znajduje się szkoła), jednak grupy danych uczniowie i szkoły nie dzielą wspólnej informacji. Obydwie dzielą jednak wspólną informację z grupą uczniowieTesty, a więc możemy dokonać złączenia grupy danych uczniowie z grupą uczniowieTesty, a następnie z grupą danych szkoły.

Podsumowanie informacji o grupach danych

Ograniczenia techniczne

Podstawowym problemem, z jakim trzeba sobie poradzić podczas pobierania danych z bazy jest rozmiar niektórych grup danych:

 • oszacowania: - kilkaset milionów rekordów,
 • wyniki: * kilkadziesiąt milionów rekordów w postaci szerokiej (kryteria oceny w kolumnach),
  • ponad miliard rekordów w postaci długiej (kryteria oceny w wierszach),
 • ucznowieTesty: kilkanaście milionów rekordów,
 • uczniowie: kilka milionów rekordów.

Powoduje to, że z danych tych nie da się efektywnie przygotować do analiz prostym schemacie:

 1. pobierz wszystkie dane na swój komputer;
 2. otwórz, odfiltruj i złącz.

Po pierwsze pobieranie całej grupy danych wyniki czy oszacowania zajęłoby kilkadziesiąt godzin, po drugie do otwarcia pełnego zbioru danych wyników czy oszacowań potrzeba by komputera z kilkudziesięcioma gigabajtami pamięci operacyjnej.

Z uwagi na to pracując na danych z bazy często będziemy chcieli odfiltrować i złączyć ze sobą grupy danych już po stronie bazy, a nie na naszym komputerze.

Szczegółowo problem ten został omówiony, wraz z przykładami, w opisach grup danych, których bezpośrednio dotyczy. Dalszą dyskusję na temat tego, jak radzić sobie z tym problemem, znaleźć można również tutaj.

r_gr.txt · ostatnio zmienione: 2015/09/11 20:46 przez zozlak