ćw. 2 Brzeziński, Psychologia, Osobowość, opracowania
[ Pobierz całość w formacie PDF ]
O
SOBOWOŚĆ
-
UJĘCIE
SYSTEMATYCZNE
,
ĆW
. 2.
Źródło:
Brzeziński, J.
Metodologia badań psychologicznych
, r. 15 i 17. Warszawa:PWN.
Wersja odmatematyzowana na ile się da :P
15. Rzetelność i błąd standardowy
opracowanie by
Zdawacz Inc.
Cel: eliminować z obiegu testy złe, wskazywać poprawne użycie,
piętnować nadużycia; konstruowanie i stosowanie, nie dopuszczanie do powstania artefaktów.
Wynik testu musi być wkomponowany w teorię, która leży u podstaw narzędzia i ogranicza
jego stosowalność oraz zakres interpretacji.
Test psychologiczny
: zbiór pytań lub sytuacji służących do badania jednostek lub
grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub
niewerbalnych będących w miarę możliwości reprezentatywnymi próbkami ich zachowania.
Podstawowe kryteria (APA włącza je do definicji) testu to:
•
rzetelność
(i związany z nią, oby jak najmniejszy,
błąd standardowy
)
•
trafność
Wymaga się też:
•
obiektywności
•
wystandaryzowania
•
znormalizowania
Pozycje testowe musi cechować (oby jak najwyższa) moc dyskryminacyjna.
Badanie testem musi odpowiedzieć na pytania:
1.
Co można powiedzieć o całym, tego samego typu, możliwym zachowaniu osoby badanej
w tym samym czasie? np. co można powiedzieć o zasobie słów osoby, która podała
prawidłowe znaczenie 80% słów w teście X?
2.
Co można powiedzieć o innego typu możliwym zachowaniu osoby badanej w tym
samym czasie? np. co można powiedzieć o zręczności manualnej dziecka badanego
testem nawlekania koralików na drut
3.
Co można powiedzieć o przynależności osoby badanej do jakiejś grupy, wyróżnionej za
pomocą innego kryterium niż wynik testowy? np. czy rzeczywiście osoba, zgodnie ze
1
wskazaniem testu, jest depresyjna, uzdolniona matematycznie itd.?
4.
Co można powiedzieć o pewnych procesach fizjologicznych, zachodzących w organizmie
osoby badanej? np. pobudliwość emocjonalna, jeśli osoba obrysowuje figurę drżącą
kreską
5.
Co można powiedzieć o zachowaniu os. bad. w przyszłości?
np. przyszłe sukcesy ucznia,
który uzyskał wysoki wynik w teście uzdolnień matematycznych
Rzetelność to miara dokładności pomiaru dokonywanego za pomocą testu
. Im
większa rzetelność, tym większa dokładność mierzenia zmiennej i mniejszy błąd pomiarowy.
Najstarszy model rzetelności to model Gulliksena (klasyczny). Są nowsze i bardziej
zaawansowane, jednak na klasycznym opierają się najbardziej liczące się testy (no i nowsze
wymagają zaawansowanej statystyki :P).
Podstawowe równanie Gulliksena teorii testów:
X
t
= X
∞
+ X
e
gdzie X
t
- wynik otrzymany, X
∞
- wynik prawdziwy, X
e
- składnik błędu.
Wynik prawdziwy
(składnik prawdziwy
to wynik os. bad. otrzymany w idealnych
warunkach lub za pomocą idealnego narzędzia pomiar u - albo: średni wynik otrzymany w
nieskończenie wielu niezależnych badaniach tym samym testem.
Składnik błędu
(błąd
to wartość dodatnia albo ujemna będąca funkcją warunków
testowania konkretnej osoby w konkretnym badaniu. Większość błędów pozostaje nieznanym
źródłem zmienności.
Założenia:
1.
średnia arytmetyczna błędów wynosi 0 (
μ
e
= 0
)
2.
korelacja wyniku prawdziwego i błędu wynosi 0 (
ρ
∞e
= 0
)
3.
korelacja błędów dwóch równoległych testów wynosi 0 (
ρ
e1e2
= 0
)
Średnia sumy nieważonych składników równa się sumie średnich, więc śr. wyników
otrzymanych równa się średniej prawdziwych:
X
t
=
X
∞
X
e
=
X
∞
1 definicje Guilforda, przytoczone przez Brzezińskiego
2 nie można tak było od razu? ktoś się od tego czuje mądrzejszy?
2
Oczywiście, dla krótkiej serii pomiarów
średnia błędów jest różna od zera, a średnia
wyników otrzymanych różna od średniej prawdziwych
.
Wariancja sumy nieważonych składników to suma wariancji, o ile składniki nie są
skorelowane (nie są wg Założenia 2.), więc wariancja otrzymana to suma prawdziwej i błędu:
var
t
=
var
∞
var
e
Rzetelność to stosunek wariancji prawdziwej do otrzymanej
r
tt
=
var
∞
var
t
, czyli po
przekształceniu:
r
tt
=
[
var
t
−
var
e
]
var
t
.
Należy dążyć do sytuacji, by jak największą proporcję zmienności wyników wytłumaczyć
zmiennością indywidualną, a jak najmniejszą - błędam
var
t
max;var
e
min
. Na
podstawie poprzedniego równania możemy uzyskać
var
e
=
var
t
1−
r
tt
. Jeśli wyciągniemy z
obu stron pierwiastek, to otrzymamy wzór na
błąd standardowy pomiaru (SEM)
:
SEM
=
SD
t
1−
r
tt
, gdzie SD
t
to odchylenie standardowe w próbie (pierwiastek
kwadratowy z wariancji otrzymanej), a r
tt
to współczynnik rzetelności. SEM, choć jest
najczęściej obliczany
(np. obliczany w procedurach estymacji przedziałowej wartości wyniku
prawdziwego), to nie jest jedynym.
Odmiany błędu standardowego
1. Błąd pomiaru wyniku otrzymanego
wg podanego wyżej wzoru; definiowany jako
odchylenie rozkładu różnic
X
t
- X
∞
.
2. Błąd estymacji wyniku prawdziwego
SEE
=
r
tt
SEM
; jest
różnicą między estymowaną przez badacza wartością
wyniku prawdziwego a jego rzeczywistą wartością
X'
∞
- X
∞
. Odchylenie
standardowe rozkładu z próby różnic
X'
∞
- X
∞
.
3. Błąd pomiaru wyniku prawdziwego
SEM
∞
=
r
tt
SEM
;
rozbieżność między estymowanymi wynikami prawdziwymi
3 W moim wydaniu podręcznika w równaniu obok jest, najwyraźniej, błąd w mianowniku.
4 Co za objawienie! I aż wzór na to jest. Szkoda, że tylko taki krótki.
3
var
t
=1−
var
e
(
X'
∞
)
uzyskanymi przez osoby o identycznych wynikach prawdziwych
(
X*
∞
).
Odchylenie standardowe rozkładu z próby różnic
X'
∞
- X*
∞k
, gdzie
X*
∞k
to
k
-ta średnia
estymowanych wyników prawdziwych osób badanych, które uzyskały ten sam wynik
prawdziwy.
4. Błąd prognozy
SEP
=
SEM
1
r
tt
;
różnica prognozy testu wyniku równoległego (
X*
t
) i
wyniku danego testu (
X
r
t
)
:
X
r
t
- X*
t
.
5. Błąd zastąpienia
SES
=
SEM
2
; odchylenie standardowe z próby różnic
X
t
- X
r
t
. Kiedy zakładamy, że
wynik testu równoległego będzie równy wynikowi w danym teście
Analiza porównawcza błędów
W warunkach
idealnych
błędy są sobie
równe
, wynosząc
zero
. Wg symulacji, jeśli
r
tt
< 1,0
- to błędy można uporządkować:
SEM
∞
SEE
SEM
SEP
SES
.
SEM, SEP i SES
rosną
monotonicznie w miarę
spadku
wartości
r
tt
.
SEE
wzrasta i przyjmuje najwyższą
wartość dla
r
tt
= 0,5
a potem
zmniejsza się ze spadkiem rzetelności
testu.
SEM
∞
zaczyna
spadać od
r
tt
= 0,6 - 0,7
. Wskazuje to, że podział na
testy "lepsze" (
r
tt
>= 0,5
) i
"gorsze" (
r
tt
< 0,5
)
nie jest arbitralny.
Estymacja wyniku prawdziwego
•
punktowa
przeprowadzana z wykorzystaniem
modeli regresji liniowej
; wymaga 3 elementów:
wyniku w teście, współcz. rzetelności i średniej wyników otrzymanych w
teście z próby
; dla idealnej rzetelności
r
tt
= 1,0
wynik
otrzymany będzie równy
estymowanemu wynikowi prawdziwemu
, także
wariancja otrzymana będzie
równa prawdziwej
; dla testu idealnie nierzetelnego
r
tt
= 0,0
średnia wyników
otrzymanych będzie równa estymowanemu wynikowi prawdziwemu
, a
wariancja prawdziwa równa zero
; w warunkach rzeczywistych, tj.
0,0 > r
tt
> 1,0
estymowany wynik prawdziwy będzie wyższy od otrzymanego
gdy ten będzie
niższy od średniej
;
estymowany prawdziwy będzie niższy od otrzymanego
, gdy
5 Przyznam że nie wiem czy dobrze rozumiem ten błąd, sorry.
4
ten będzie
wyższy od średniej
•
przedziałowa
oparta na
przedziałach ufności
; potrzeba
wyniku otrzymanego, współcz.
rzetelności i błędu standardowego
;
przedział ufności z prawdopodobieństwem
1 - α
zawiera szacowany wynik prawdziwy
testu; rekomendowane
1 - α
to 0,68,
0,85, 0,90, 0,95, 0,99 i 0,999 przedziały ufności buduje się najczęściej w oparciu o błąd
standardowy pomiaru wyniku otrzymanego (
SEM
), ale zaleca się budowanie ich w
oparciu o estymowany wynik prawdziwy (
SEE
), bo
wyniki estymowane są bliższe
prawdziwym niż otrzymane
i wyniki
otrzymane skupiają się niesymetrycznie
wokół prawdziwych: wysokie powyżej, a niskie poniżej
; w gruncie rzeczy oba
błędy niewiele różnią się wartością -
SEE
=
r
tt
SEM
- więc nie robi to szalonej
różnicy; przy budowaniu przedziałów ufności zwracamy uwagę na
poziom ufności
,
czyli stopień
pewności, że przedział zawiera poszukiwaną wartość wyniku
prawdziwego
; ale
im większa pewność, tym mniejsza precyzja estymacji
("dłuższy" przedział, w którym gdzieś znajduje się poszukiwana wartość
; ogólna
dyrektywa postępowania: w badaniach
pilotażowych
albo jeśli
dla badanych nie
niesie to szkody - korzystać z "krótszych" przedziałów
(bardziej precyzyjnych,
mniej pewnych); dla poziomu ufności
P = 68%
zbudowanie przedziału polega na
dodaniu i odjęciu od wyniku otrzymanego wartości błędu standardowego; z APA:
"Interpretując wyniki testów trzeba raczej brać pod uwagę przedziały ufności
niż wartości absolutne"
.
6 empirycznych metod estymacji rzetelności testu
ANOVA umożliwia dokonanie najpełniejszego wglądu we właściwości statystyczne samego
testu, jak i jego poszczególnych pozycji.
Metody oparte na:
1.
porównaniu 2-krotnych badań tym samym testem (
test-retest reliability
)
zawodne - trudno o "równoległość" warunków testu i retestu
6 po ludzku: weźmy stóg siana - "
gdzieś
w nim jest igła", to jest nieprecyzyjna estymacja z dużą pewnością; "igła
jest
w
sześcianie siana o boku centymetra, oddalonym o metr od każdej krawędzi stogu", to jest estymacja precyzyjna,
ale mniej pewna - bo tylko szacujemy, że to akurat tam znajduje się igła
5
[ Pobierz całość w formacie PDF ]