Narzędzia użytkownika

Narzędzia witryny


zlaczaniedanych

Zasady weryfikacji i łączenia danych

Łączenie danych

  • Rodzaje identyfikatorów uczniów używane do złączania rekordów pomiędzy zbiorami danych różnią się w zależności od źródła danych (wyniki egzaminacyjne EWD/wyniki egzaminacyjne PAOU/wyniki testów zrównujących).
  • Dla każdego przetwarzanego rekordu w zbiorze danych tworzone są wszystkie możliwe w danym wypadku identyfikatory
    • ich liczba jest ograniczana źródłem danych oraz ew. brakami danych w samym rekordzie
  • Dla wszystkich utworzonych dla danego rekordu identyfikatorów następuje próba odnalezienia w bazie odpowiadających im uczniów:
    • Jeśli wynik dopasowania jest jednoznaczny (wszystkie dopasowane identyfikatory wskazują na tego samego ucznia w bazie), wtedy:
      • rekord jest złączany z wyszukanym w bazie uczniem
      • do bazy dodawane są mapowania na wyszukanego ucznia wszystkich tych identyfikatorów rekordu, które nie zostały odnalezione w bazie
    • Jeśli wynik dopasowania jest niejednoznaczny (różne identyfikatory wskazują na różnych uczniów w bazie), wtedy:
      • rekord jest złączany wg identyfikatora o najniższym priorytecie (patrz opisy poszczególnych źródeł danych poniżej)
      • dla wszystkich identyfikatorów rekordu, które nie zostały odnalezione w bazie, dodawane są do bazy mapowania na ucznia wskazywanego przez identyfikator o najniższym priorytecie
    • Jeśli żaden z identyfikatorów nie został odnaleziony w bazie, wtedy:
      • do bazy dodawany jest nowy uczeń
      • do bazy dodawane są mapowania wszystkich identyfikatorów rekordu na dodanego ucznia

Wyniki egzaminacyjne EWD

Stosowane są trzy identyfikatory. Ich priorytet to:

  1. NR_WIERSZA
  2. CKE
  3. SP

NR_WIERSZA

NR_WIERSZA={ŚcieżkaDoPliku, NrRekorduWPliku}

  • Trywialny identyfikator, niezbędny z uwagi na sposób, w jaki przetwarzane są zbiory egzaminacyjne EWD (jeden zbiór zawiera wyniki trzech części egzaminu, w związku z czym przetwarzany jest oddzielnie dla każdej z nich)
  • Pozwala połączyć ze sobą rekordy opisujące różne części egzaminu dla tej samej obserwacji w zbiorze nawet wtedy, jeśli z uwagi na braki danych nie jest możliwe utworzenie żadnego innego identyfikatora

CKE

CKE=

  • {IdCkeUcznia}, jeżeli idCkeUcznia składa się z co najmniej 11 cyfr;
  • {OKE, IdCkeUcznia}, w przeciwnym wypadku,

gdzie
- OKE - nazwa Okręgowej Komisji Egzaminacyjnej, z której pochodzi dany rekord,
- IdCkeUcznia - różnowartościowe przekształcenie PESEL-a ucznia stosowane do identyfikacji uczniów w bazach wyników egzaminacyjnych w OKE i CKE od 2010 roku (a w wypadku uczniów nieposiadających numeru PESEL kod nadawany dowolnie przez OKE)

  • Jest to bardzo mocny identyfikator, pozwalający trafnie złączać rekordy pomiędzy latami i zbiorami
  • IdCkeUcznia dostępne jest w danych EWD od 2010 roku
  • Nazwa OKE jest wykorzystywana

SP

SP={Plec, RokSprawdzianu, IdOKESzkolyPodstawowej, kodOddziałuSzkołyPodstawowej, numerUczniaWRamachOddziałuSzkołyPodstawowej, arkuszSprawdzianu, WektorWynikówSprawdzianu}

  • Obskurny, ale jedyny dostępny identyfikator pozwalający złączać rekordy przed pojawieniem się w 2010 roku IdCkeUcznia
  • Doświadczenie wykazało, że niezbędne jest włączenie wyników sprawdzianu na poziomie odpowiedzi na poszczególne zadania, jeśli bowiem ograniczyć się do sumy punktów na sprawdzianie, trafiały się (i to dość licznie - 10-20% wszystkich rekordów, które udało się dopasować w więcej niż jednym zbiorze) sytuacje, w których ten sam uczeń uzyskiwał tą samą sumę punktów z różnych rozkładów odpowiedzi
  • Konstrukcja identyfikatora uniemożliwia złączanie rekordów uczniów, którzy wielokrotnie pisali sprawdzian
  • Nie jest to identyfikator zbyt trafny
    • porównując liczbę danych, które musiały zostać użyte w identyfikatorze, aby złączane za jego pomocą dane były spójne do liczby danych, jaka powinna wystarczyć, aby tak było (RokSprawdzianu, IdOKESzkolyPodstawowej, kodOddziałuSzkołyPodstawowej, numerUczniaWRamachOddziałuSzkołyPodstawowej) widać, że jakość danych identyfikujących szkołę, oddział i ucznia jest kiepska, a więc złączanie na ich podstawie takich danych jest obarczone błędami
    • porównując liczbę złączonych rekordów w latach, w których dostępny jest tylko on z liczbą rekordów złączanych w latach, w których dostępny jest identyfikator CKE widać, że złączanie na podstawie identyfikatora SP złącza kilkakrotnie mniej rekordów

GM

GM={Plec, RokEgzGimnazjalnego, IdOKEGimnazjum, kodOddziałuGimnazjum, numerUczniaWRamachOddziałuGimnazjum, arkuszEgzGimnazjalnego, WektorWynikówEgzGimnazjalnego}

  • Obskurny, ale jedyny dostępny identyfikator pozwalający złączać dane gromadzone do EWD gimnazjalnego i EWD maturalnego przed pojawieniem się w 2010 roku IdCkeUcznia
  • Dotyczą go te same uwagi, co identyfikatora SP

Wyniki egzaminacyjne PAOU

Do roku 2009 włącznie w wynikach egzaminacyjnych gromadzone przez PAOU z CKE nie istnieje żaden identyfikator ucznia, który pozwalałby na złączanie rekordów z innymi zbiorami. Stąd każdy rekord w zbiorze traktowany jest jako oddzielna obserwacja.

Od 2010 roku włącznie występuje identyfikator CKE, tożsamy z identyfikatorem CKE w zbiorach EWD (patrz wyżej).

Wyniki testów zrównujących

W testach zrównujących występuje jeden identyfikator.

ZRWN

ZRWN={rokZrównywania, idSzkołyWBazieDanych, kodOddziałuSzkoły, numerUczniaWRamachOddziału}

  • Pozwala na złączanie rekordów z wynikami egzaminacyjnymi EWD
  • Biorąc pod uwagę różnice pomiędzy tym, jak identyfikator SP danych EWD (patrz powyżej) powinien wyglądać w teorii, a jak musi wyglądać w praktyce i porównując to z konstrukcją identyfikatora ZRWN:
    • widać, że prawdopodobnie nie jest on zbyt trafny
    • ponieważ jednak służy on do dołączania zupełnie innych danych, błędne złączenie nie jest powoduje żadnej dającej się skontrolować niespójności (w przeciwieństwie do złączania danych EWD na podstawie identyfikatora SP), nie sposób więc oszacować skali chybień
  • Wymaga zmapowania {rokZrównywania, kodOKEszkoły} na id szkoły w bazie danych
zlaczaniedanych.txt · ostatnio zmienione: 2013/07/16 08:08 przez zozlak