przejście do zawartości
Zespół Pomiaru Dydaktycznego
Narzędzia użytkownika
Zaloguj
Narzędzia witryny
Narzędzia
Pokaż stronę
Poprzednie wersje
Odnośniki
Menadżer multimediów
Zaloguj
Menadżer multimediów
Ślad:
r_gr
Ta strona jest tylko do odczytu. Możesz wyświetlić źródła tej strony ale nie możesz ich zmienić.
~~NOCACHE~~ ====== Grupy danych ====== ===== Wstęp ===== **Z uwagi na różnorodność danych przechowywanych w bazie, nie ma możliwości udostępnienia ich w postaci jednego zbioru danych** i zachodzi konieczność podzielenia ich na pewne grupy. Wyróżnione grupy to: * **wyniki:** surowe wyniki egzaminów i testów zrównujących ; * **oszacowania:** oszacowania umiejętności uczniów uzyskane w wyniku skalowania IRT; * **parametry:** oszacowania parametrów IRT i KTT zadań z egzaminów i testów; * **normy:** tabele przeliczeniowe dla sumarycznych wyników punktowych; * **skale:** wykaz skal i skalowań użytych do uzyskania oszacowań umiejętności uczniów i/lub parametrów zadań; * **uczniowie:** wykaz uczniów i tych ich cech, które nie zmianiają się w czasie (płeć, data urodzenia, id_cke); * **uczniowieTesty:** wykaz cech uczniów w momencie przystępowania do danego egzaminu lub testu (np. dysleksja czy bycie laureatem konkursu przedmiotowego); * **szkoly:** wykaz szkół (w podziale na lata); * **testy:** wykaz egzaminów i testów (data przeprowadzenia, zakres tematyczny, itp.); * **kryteriaOceny:** wykaz pytań i kryteriów oceny występujących w egzaminach i testach; * **wskazniki:** wykaz wskaźników EWD i PWE (wskaźniki dla szkół i, w wypadku PWE, jednostek samorządu terytorialnego); * **wartosciWskaznikow:** wartości wskaźników EWD i PWE. Dane każdej z grup pobrać można odpowiednią funkcją pakietu //ZPD// - podsumowanie tych funkcji oraz listy zmiennych w zwracanych przez nie zbiorach danych znajduje się na końcu tego rozdziału. Dokładne opisy poszczególnych grup danych wraz z przykładami kodu w R znajdują się w oddzielnych rozdziałach (można do nich przejść klikając nazwę grupy danych w tabeli na końcu tego rozdziału). ==== Przepływ danych między grupami ==== Poniższy schemat ilustruje, skąd biorą się dane w poszczególnych grupach danych: * szare prostokąty - instytucje; * romby - zbiory danych wymieniane między instytucjami; * walce - grupy danych; * linie ciągłe - przepływ danych; * linie przerywane - dane używane do weryfikacji; {{ przeplyw_danych.svg?600 }} ===== Złączanie pomiędzy grupami danych ===== Wymienione powyżej grupy danych współdzielą między sobą pewne wspólne informacje, po których możliwe jest złączanie danych między nimi, co podsumowuje tabela poniżej. **Tam, gdzie grupy dzielą wspólną informację, tam możliwe jest złączanie między nimi.** Jeśli natomiast jakieś grupy nie posiadają wspólnych zmiennych, a chcielibyśmy dokonać między nimi złączenia, wtedy niezbędne jest znalezienie grupy, która mogłaby się stać dla nich //pośrednikiem//, np.: * Chcemy połączyć informację o uczniach i szkołach (np. aby policzyć średnią liczbę uczniów w szkole ze względu na płeć i wielkość miejscowości, w której znajduje się szkoła), jednak grupy danych //uczniowie// i //szkoły// nie dzielą wspólnej informacji. Obydwie dzielą jednak wspólną informację z grupą //uczniowieTesty//, a więc możemy dokonać złączenia grupy danych //uczniowie// z grupą //uczniowieTesty//, a następnie z grupą danych //szkoły//. <php> require_once('../php/BankZadan/r_init.php'); tab_zlaczenia($GLOBALS['PDO']); </php> ===== Podsumowanie informacji o grupach danych ===== <php> require_once('../php/BankZadan/r_init.php'); tab_grupy_danych($GLOBALS['PDO']); </php> ===== Ograniczenia techniczne ===== Podstawowym problemem, z jakim trzeba sobie poradzić podczas pobierania danych z bazy jest rozmiar niektórych grup danych: * **oszacowania:** - **kilkaset milionów** rekordów, * **wyniki: * ** kilkadziesiąt milionów rekordów w postaci szerokiej (kryteria oceny w kolumnach), * **ponad miliard** rekordów w postaci długiej (kryteria oceny w wierszach), * **ucznowieTesty:** kilkanaście milionów rekordów, * **uczniowie:** kilka milionów rekordów. Powoduje to, że z danych tych nie da się efektywnie przygotować do analiz prostym schemacie: - pobierz wszystkie dane na swój komputer; - otwórz, odfiltruj i złącz. Po pierwsze pobieranie całej grupy danych //wyniki// czy //oszacowania// zajęłoby kilkadziesiąt godzin, po drugie do otwarcia pełnego zbioru danych //wyników// czy //oszacowań// potrzeba by komputera z kilkudziesięcioma gigabajtami pamięci operacyjnej. Z uwagi na to pracując na danych z bazy często będziemy chcieli **odfiltrować i złączyć ze sobą grupy danych już po stronie bazy**, a nie na naszym komputerze. Szczegółowo problem ten został omówiony, wraz z przykładami, w opisach grup danych, których bezpośrednio dotyczy. Dalszą dyskusję na temat tego, jak radzić sobie z tym problemem, znaleźć można również [[r_wydajnosc|tutaj]].
r_gr.txt
· ostatnio zmienione: 2015/09/11 20:46 przez
zozlak
Narzędzia strony
Pokaż stronę
Poprzednie wersje
Odnośniki
Do góry