06
6) Konstrukce a vlastnosti psychodiagnostických metod. Psychometrické vlastnosti testů. Standardizace. Položková analýza. Validita diagnostické metody a způsoby jejího zjišťování, druhy validity. Reliabilita a způsoby jejího zjišťování, zdroje chyb měření. Normalizace a druhy norem (věkové, kvantilové, standardní)
Konstrukce psychodiagnostické metody spočívá nejčastěji v tvorbě dostatečného počtu vhodných položek, mezi kterými je poté nutné vybrat ty, které jsou z hlediska relevantní teorie a na základě empirických dat vhodné pro měření daného atributu. Provádění takového výběru probíhá za pomoci nějaké metody analýzy položek.
Pokud tvůrce metody vyjde z toho, jaký atribut by měla jeho metoda měřit a u jaké skupiny porobandů, měl by nejprve vymezit a rozdělit příslušnou obsahovou doménu (obsahové univerzum) podle důležitých vlastností nebo dimenzí měřeného atributu tzv. faset (viz. psychometrika str. 205 – 207 – fakt nevím jak to popsat, ani jestli to je důležité, tak se na to radši mrkněte, tu knížku mám když tak naskenovanou). Reprezentativním výběrem témat ze všech těchto faset se vlastně tvůrce snaží naplnit požadavky obsahové validity.
- liší se podle toho, zda se snažíme zjišťovat úroveň nějaké kognitivní schopnosti (dovednosti, vědomosti atd.) nebo osobnostního rysu.
- U položek pro měření kognitivních rysů jde vlastně o vytvoření sady úkolů, které by měli lépe řešit lidé s vysokou mírou schopnosti než lidé s nízkou mírou schopnosti.
- Položek by měl být dostatečně velký počet a měly by se dostatečně lišit z hlediska obtížnosti, aby byl test dostatečně citlivý a rozlišoval mezi probandy s různými úrovněmi schopností
- U dotazníkových metod pro měření úrovně nějakého rysu osobnosti je situace o něco složitější, protože na osobnostní rys se nelze zeptat přímo (resp. dá, ale odpověď, kterou bychom dostali, by se jen stěží dala považovat za validní)
- na míru nějakého rysu můžeme usuzovat pouze z odpovědí na otázky (samozřejmě pokud pomineme některé metody klinické psychodiagnostiky, z nichž nejklasičtější je pozorování)
- např. Nepřímé otázky: Myslíte si, že je důležité chodit včas? Nebo přímé otázky: Jste dochvilný? Položka může mít také formu započatého výroku k dokončení.
Měli byhom se vyhýbat složitým nebo nezvyklým formulacím (např. Také dvojitý zápor ve větě, který se v češtině často vyskytuje)
Všechny nesprávné varianty by měly být přibližně stejně přijatelné
Počet alternativ větší než dvě.
Neměly by se oběvovat překrývající se nebo navazující odpovědi na položky
U neúplné věty, pro kterou se má vybrat dokončení, je nutné, aby alternativy správně gramaticky vyrůstaly z hlavní věty
U testů kognitivních schopností by odpovědi mely být podobné délky a správné odpovědi by neměly být na určitém místě častěji než jindy
Formáty odpovědí
- Doplňování odpovědi
7+2=…; Co mají společného obraz a socha?; Za dvacet let budu…
- Vícenásobná volba
Výběr z více než 3 variant s 1 správnou odpovědí a x distraktory
- Dichotomická položka
Výběr 2 variant
- Mnohonásobná volba
Vlastně série dichotomií…
- Spojování (párování)
„uspořádané kategorie“ resp. „stejně se jevící intervaly“
Nikdy –zřídka –občas -často –vždy
- Nucená volba
Jste spíše tolerantní, nebo náročný?
- Řazení
Seřaďte výroky podle výstižnosti: Jsem energický… nezávislý … důvěřivý…
- Neuspořádané kategorie (vícenásobná volba bez kriteriální odpovědi)
Rozlišovací účinnost položky
Pokud má nástroj měření fungovat, musí především rozlišovat mezi měřenými objekty z hlediska atributu, který má měřit. Asi těžko bychom chtěli měřit tloušťku různých tenkých drátů pomocí obyčejného kancelářského pravítka, protože citlivost takového měření by byla velmi pochybná. Protože položky považujeme za základní prvky, pomocí kterých měření probíhá, musí být každá jednotlivá položka dostatečně citlivá z hlediska měřeného rysu. To znamená, že nežádoucí jsou takové položky, na které všichni odpovídají stejně, nebo úkol, který všichni bez problémů vyřeší (nebo který není schopen vyřešit nikdo). Samozřejmě je nutné uvažovat také o tom, pro koho je metoda určena; např. metoda měřící sílu nějakého postoje bude necitlivá v případech, kdy respondenty budou osoby vyznačující se extrémními hodnotami tohoto postoje.
Analýza položek
Tato analýza probíhá tak, že se pokusná verze testu předloží vhodnému výběrovému souboru osob a získaná data týkající se relevantních charakteristik probandů (např. Věku, pohlaví, profese, diagnózy) spolu s údaji o tom, jak jednotliví probandi odpovídali na každou jednotlivou položku, jsou statisticky zpracovány.
- dostatečně velký a reprezentativní výběrový soubor (minimálně dvakrát až třikrát vyšší než počet položek, nebo v případě použití faktorové analýzy dvakrát až třikrát vyšší než počet parametrů modelu)
- výběrový soubor by se měl svým složením co nejvíce podobat složení cílové populace
- v ideálním případě náhodný výběr
Metody analýzy položek
Přístup založený na kritériu (maximalizaci vztahu s kritériem)
- Z historického hlediska nejstarší
- Cíl - vytvořit takovou metodu, která bude spolehlivě rozlišovat mezi určitými skupinami osob nebo která bude nejlépe predikovat nějaké kritérium
- Skupiny mohou být definovány např. jako diagnózy. Příkladem metod, které byly vytvořeny pomocí tohoto postupu a jsou dodnes s úspěchem používány, je např. metoda MMPI (Minnesotský multi-fázový osobnostní dotazník) nebo Strongův zájmový inventář
- porovnávají se průměry dvou skupiny, ale analýzu je zejména nutné provést na úrovni položek – hlavně je třeba zjistit, které skóry položek nemají statisticky významný vztah s kritériem – takové s největší pravděpodobností nepřispívají ke vzniku zjištěného rozdílu v naměřeném skóru obou skupin.
- Hlavní nedostatek této metody spočívá v tom, že přístup k analýze položek je většinou čistě empirický a není korigován žádnou teoretickou koncepcí, která by napomáhala vysvětlení výsledků zjištěných analýzou
- Někteří autoři (Helmstadter, 1964) mluví přímo o absenci psychologického významu - tvrdí, že zkoumané skupiny se od sebe často neliší pouze z hlediska rysu měřeného danou metodou, ale i z hlediska jiných charakteristik, takže je vlastně obtížné rozhodnout, co škála měří
- Položky se vyhodnocují jako dobré nebo špatné podle toho, nakolik korelují s kritériem
- Problém – aby bylo možné prokázat rozdíly mezi skupinami, je nutné tyto skupiny vhodným způsobem vymezit a vybrat. Klasifikace do skupin ale může mít velmi problematickou reliabilitu, čímž může být celý postup analýzy položek značně znehodnocen
Přístup založený na klasické analýze položek
- klasická analýza položek je postup, který používá poměrně běžné statistické indexy pro vyjádření charakteristik položek, vztahů mezi položkami navzájem a vztahů položek s celkovým skórem testu
- Princip je velmi podobný jako v předchozím případě postupu založeného na kritériu - opět je dostatečně velkému a reprezentativnímu výběrovému souboru (uvádí se, že minimální rozsah souboru je N = 100) administrována pokusná verze metody, je provedena statistická analýza a jsou vyhodnoceny výsledky¨
- Rozdíl je v cíli – minulý postup byl založen na maximalizaci validity, tento na maximalizaci reliability – cílem je tedy vytvořit co nejvíc vnitřně konzistentní test
Obtížnost položky – u výkonových testů - zjištění podílu osob z analyzovaného souboru, které danou položku vyřešily správně – pravděpodobnost zodpovězení pro použitelnou položku by měla
být mezi 0,2 a 0,8
Rozlišovací účinnost položky - míra, do jaké se probandi liší ve svých odpovědích na ni
- hlavní myšlenkou vysvětlující hodnotu korelace skórů položky a skórů testu jako míru rozlišovací účinnosti položky spočívá v tom, že pokud je tato hodnota dostatečně vysoká, znamená to, že skór položky má dostatečně vysoký podíl variability společná se skórem celého testu.
- Položka s dostatečně vysokou rozlišovací účinností by měla mít hodnotu korigované korelace (od skóru testu se odečte skór položky, kterou korelujeme) skóru položky se skórem testu alespoň 0,3.
Přístup založený na faktorové analýze
- U tohoto přístupu platí naprosto stejné principy a používá se stejný postup jako u klasická analýzy položek
- Specifičnost tohoto postupu oproti klasické analýze položek spočívá v tom, že se namísto korelační analýzy používá faktorová analýza, a to pokud možno konfrimační faktorová analýza, protože umožňuje testovat model vztahů mezi skóry položek, tzn, kriticky zkoumat nějakou teorii
Pak jsou ještě ještě přístupy založené na teorii odpovědi na položku (IRT) a na teorii vědomostního prostoru (KST). Těm jsou ale věnovány samostatné kapitoly před tím, než se píše o analýze položek. V kapitole věnující se analýze položek o nich nic není ….
Chyby měření
konstrukce_a_vlastnosti_psychodiagnostickych_metod_image_0.wmf
objektivita (jak test používat)→reliabilita → validita → normalizace (ta by měla být našim cílem)
Konstantní chyby (ovlivňují validitu)
- důsledkem nepříosti měření v psychologii (nějaký atribut měřeného objektu se porovnává s jiným atributem nástroje měření, který má pro daný měřící nástroj matematicky definovaný vztah s atributem měřeného objektu (např. Zavěšením závaží na pružinu, můžeme z jejího protažení odvodit váhu závaží – byť v psychologii moc o přesně definovaném matematickém vztahu moc mluvit nemůžeme – zasahují do toho právě ty chyby měření a proto bychom je prý jako psychologové měli znát)
- v případě naprosté většiny metod si pak nemůžeme být jisti, zda tyto metody skutečně měří to, co o nich jejich autoři tvrdí
- snaha eliminovat systematické chyby tedy souvisí s nejzákladnějším požadavkem kladeným na každou psychodiagnostickou metodu, totiž aby metoda skutečně měřila to co měřit má (např. u celé řady testů je nutné umět číst, ale bylo by chybou kdyby rozdíly ve výkonu v textu souvisely více se čtením než se zjišťovanou schopností)
- validita se taky někdy definuje jako relativní nepřítomnot konstantních chyb měření v naměřených hodnotách
Osobní chyby (souvisí s objektivitou)
- způsobovány konkrétním člověkem, který administruje, vyhodnocuje a interpretuje výsledky psychologického vyšetření
- může zkreslit instrukce; nesprávně měřit čas; vytvořit atmosféru, která nepřispěje k žádoucímu výkonu probanda v testu; může špatně vypočítat dílčí skóry; ve fázi interpretace může dát výsledky do neadekvátního kontextu; při aplikaci si mohou dva různí odborníci po přečtení téže zprávy z vyšetření učinit dva různé závěry
- pro omezení této chyby slouží –>
standardizace: v užším slova smyslu to spočívá ve stanovení takových pravidel administrace, skórování a interpretace výsledků měření, že jsu co nejpřesněji definovány podmínky, za kterých má měření probíhat.
- Zajišťuje, aby všichni testovaní měli stejné podmínky
- Záznamové archy, testové sešity, klíč pro vyhodnocení odpovědí, manuál,…
- Instrukce jsou pokyny pro probandy, jak mají postupovat v psychodiagnostické situaci;
- Hlavní požadavek kladený na instrukci spočívá v její jasnosti a srozumitelnosti pro všechny skupiny potenciálních probandů. Pokud se např. bude test používat pro vyšetření osob s nižším intelektem nebo vzdělání, měly by být formulace tak srozumitelné, aby jim i tyto osoby rozuměly.
- Situace vyšetření – přiměřené osvětlení, teplota, hluk, striktní dodržení časového limitu
- Hrát roli může i pohlaví administrátora, popř. jeho/její fyzická atraktivita nebo rasová příslušnost
Proměnné chyby (ovlivňují reliabilitu)
- O jejich existenci je možné se velmi jednoduše přesvědčit tak, že se provádí opakované měření téže veličiny. Jednotlivé naměřené hodnoty se od sebe liší, a to v závislosti na velikosti měřené hodnoty a přesnosti použité procedury měření
- Na základě statistických analýz opakovaných měření je pak možné stanovit, jaký díl variability měření odpovídá skutečně existujícím rozdílům v měřených hodnotách a jaký díl variability měření odpovídá skutečně existujícím v měřených hodnotách a jaký díl takto vysvětlit nelze; ten je pak připisován na vrub náhodným vlivům
- Pokud nám tedy často dává stejná metoda různé výsledky, není reliabilní (nelze se na i spolehnout, je příliš závislá na vnějších vlivech)
Interpretační chyby
- Chyby interpretace naměřených hodnot spočívají v nedodržení požadavku, aby se naměřená hodnota (tzv. hrubý skór) vždy interpretovala v nějakém kontextu
Řeší se tzv. normalizací - tedy vytvořením norem pro daný test
Reliabilita
1) reliabilita je charakteristika psychodiagnostické metody, která uvádí relativní nepřítomnost proměnných chyb v měření,
- reliabilita je v podstatě jiný název pro spolehlivost nebo přesnost metody měření
Test-retest reliabilita (reliabilita jako stabilita v čase)
Zadáme jeden a ten samý test dvakrát v různém čase a korelujeme výsledky – jakékoliv rozdíly se považují za zdroj chyby
- Tím pádem se předpokládá, že se měřený rys v čase nemění
- Tento předpoklad může být nerealistický – nelze tedy používat např. pro zjišťování reliability metod pro zjišťování přechodných psychických stavů – např. dotazníků depresivity
- po příliš krátké době oddělující obě testování může dojít ke vzniku jiného artefaktu (tzn. jevu, který vzniká nesprávným použitím metody) klamnému nadhodnocení reliability vlivem zapamatování odpovědí na jednotlivé otázky
- doporučuje se odstup 3 měsíce
Reliabilita paralelních forem
- Dva paralelní testy měří tentýž konstrukt stejným způsobem
- Paralelní formy by měly mít stejné průměry hrubých skórů, stejné směrodatné odchylky a stejné korelace s jinými měřícími nástroji v jakékoli populaci
- Pro zjištění reliability se oba testy korelují a srovnávají se průměry a rozptyly jednotlivých položek
- Problémem je vytvořit skutečně paralelní formy
Split-half reliabilita
- Odhad reliability získaný rozdělením testu na dvě poloviny
- Řeší problémy předchozích dvou způsobů odhadu, ve kterých se možné reálné fluktuace rysu automaticky považují za chyby, přestože tomu tak být nemusí (tím by byla skutečná reliabilita testu podhodnocena)
- Aby nebylo nutné složitě konstruovat paralelní formu testu, která nikdy nebude zcela dokonalá, administruje se pouze jeden test a pak se z důvodu analýzy rozdělí na dvě poloviny
- Problém – reliabilita testu roste s počtem položek – tím pádem rozdělení na dvě poloviny snižuje odhad reliability
- Nutná korekce pomocí Spearman-Brown prophecy formula - tzv. Spearman-Brownův prorocký vzorec:-) – prorocký, protože umožňuje odhadnout, nakolik zvýší reliabilitu, když přidáme určité množství položek
Kuder-Richardsonova reliabilita
- Předchozí přístup se nehodí při zjišťování reliability výkonových testů s rychlostní složkou, protože je známo, že stupňující se obtížnost položek u testů s rychlostní složkou vede k tomu, že subskóry vytvořené z několika po sobě následujících položek spolu obvykle korelují nízce, přestože měří stejnou schopnost
- Kuder-Richardsonův přístup pracuje s tzv. homogenitou
- Homogenita - konsistence výkonů v sadě položek
- V ideálním případě jsou položky testu s rychlostní složkou seřazeny podle vzrůstající obtížnosti. Dá se tedy očekávat, že osoba bude nějakou dobu řešit položky bez obtíží, a to až do té chvíle, kdy dosáhne svého osobního „stropu„, tzn. položky, za kterou už nevyřeší žádnou další. V ideálním případě by pak výkon všech osob vypadal tak, že by dosáhly bodu, před kterým vyřešily všechny položky a za kterým nevyřešily žádnou (samozřejmě každá osoba by tento bod měla jinde, podle své úrovně měřené schopnosti). V takovém případě by se test vyznačoval dokonalou reliabilitou podle Kudera a Richardsona
- stejně důležité je, aby test měřil pouze jeden rys nekontaminovaný žádným jiným - v takovém případě se o testu říká, že není tzv. jednorozměrný a požadavek homogenity bývá obvykle nesplnitelný
- odhad reliability se provádí pomocí koeficientu KR20 – použitelný pouze u dichotomických položek (správně/špatně)
Reliabilita podle Hoyta
- Je podobný teorii zobecnitelnosti
- Hoyt (1941; In: Brzeziňski, 1999) tvrdí, že kolísání výkonu osoby od položky k položce by se nemělo považovat za chybu, ale za reálně existující intraindividuální rozdíly, které by tudíž neměly zkreslovat (snižovat) odhad reliability
- Rozeznává tři zdroje variability, tzv. komponenty rozptylu, jejichž relativní důležitost lze při správně provedeném výzkumu vzájemně porovnat pomocí analýzy rozptylu
a) interindividuální rozdíly, tzn. skutečné rozdíly mezi lidmi, kvůli kterým se vlastně měření v psychologii a psychodiagnostika vůbec provádí
b) intraindividuální rozdíly, tzn. skutečné kolísání měřených hodnot
- chyby měření (variabilita chyb)
Faktory ovlivňující odhad reliability
Metoda odhadu reliability
- rozhodnutí o volbě argumentů pro reliabilitu meotdy by mělo být založeno ne na pragmatické snaze o získání co nejlepších parametrů, ale spíše na vlastnostech diagnostického nástroje, které samy vhodnou metodu indikují (přítomnost eychlostního faktoru; typ položek, z nichž jsou tvořeny škály; účely metody). V zásadě vša platí, že nemá smysl volit metody tak, aby se navzájem duplikovali,
- paralelní formy dávají nejnižší odhad, split-half nejvyšší (pozn. u reliability vždy mluvíme o odhadu)
Délka testu
- čím více položek máme (teoreticky je totiž položek zjišťujících daný atribut nekonečně mnoho), tím více je náš test reprezentativní pro daný rys (za předpokladu, že máme kvalitní položky) – tím pádem máme i vyšší reliabilitu
Heterogenita skupiny
- variabilita měřeného rysu ve výběrovém souboru – při příliš homogenním souboru se snižuje variabilita pravých skórů, přičemž variabilita chyb měření zůstává stejná – to znamená nižší odhad reliability
- kde není variabilita, tam není realabilita
časové aspekty
- u rychlostních testů je nadhodnocena reliabilita ve smyslu vnitřní konzistence
- možná je to tím, že lidé vykazují větší konzistenci v tempu práce, než v kvalitě výkonu
- Cronbach píše, že pracovní tempo je samo o sobě rysem respondenta. To by znamenalo, že výkon v každém rychlostním testu je dán dvěma latentními proměnnými – cíleně měřenou charakteristikou a rychlsotní složkou, které jsou navzájem pravděpodobně nekorelované
- z uvedených důvodů je užitečné vědět, do jaké míry jsou výkony v určitém testu ovlivněny časovým omezením, a tudíž rychlostí, jakou jsou probandi schopni pracovat.
Konstrukce a administrace metody
- špatná standardizace zadání testu výrazně snižuje reliabilitu
- Vlastnosti testu samého: ne – vzájemně závislé položky (nevím jednu, nemohu odpovědět na druhou); ne téměř identické položky; ne chytáky; taky emocinálně zbarvené položky berou do hry další atribut
- Forma položky
- Vyšetřované osoby
- Administrátor
Validita
K validitě se dá přistupovat ze tří stran
- z hlediska obsahu metody a situace testování a chování testované osoby v této situaci (těmto zdrojům důkazů o validitě se říká obsahové zdroje)
- z hlediska vztahu mezi skórem testu a skórem nějakého vnějšího kritéria (empirické zdroje)
- z hlediska začlenění měřeného atributu do vztahů dalších atributů v rámci teorie, ve které se měřený atribut definuje (konstruktové zdroje)
Obsahové zdroje důkazů o validitě
- míra, do jaké je obsah psychodiagnostické metody, situace testování a chování požadované od probanda, který se v této situaci nachází, ve shodě s účelem metody
Zjevná validita metody (face validity)
- zjevnou validitou se může pyšnit metoda měření, u které proband, který se stane jejím objektem měření, dokáže víceméně trefně odhadnout, co se metoda pokouší změřit
- Zdánlivá validita může zvýšit motivaci testovaných osob – mají pocit, že daný test má smysl, a tak mu věnují více energie – např. Rorschach nemá pro většinu lidí vůbec žádnou zdánlivou validitu a z toho se může odvíjeti i jejich motivace test dělat
- U výkonových testů není problémem, u osobnostních a jiných problémem být může
- může být i zdrojem zkreslení – ldyž na výsledcích testování závisí další osud probanda (někdy tak může být lepší, když test zjevnou validitu nemá)
Výběrová validita
- posouzení obsahové validity spočívá v oslovení nějakého počtu osob, které lze považovat za odborníky v daném oboru a od nichž chceme expertní posudek
- spočívá v posouzení adekvátnosti výběru obsahu položek vzhledem k rysu, který má být metodou měřen
- používá se zejména u výkonnových testů nebo testů schopností a vědomostí
Faktorová validita
-Obsah metody se posuzuje na základě faktorové analýzy dat představujících položky testu řešené nebo zodpovězené dostatečně početným souborem osob vybraných z relevantní populace.
Empirické důkazy o validitě
- jako argument svědčící o tom, že metoda skutečně měří atribut, pro jehož měření byla vytvořena, samotné důkazy o obsahové validitě nestačí. Mohou prokázat pouze to, že byly podniknuty adekvátní pokusy o pokrytí dané obsahové domény.
- Pro doložení validity obecně je nutné nějaké kritérium měřeného rysu, které v případě, že je metoda validní, má vztah se skórem získaným touto metodou
- Největší problém empirické validity představuje nalezení vhodného kritéria
- Důležitá je reliabilita kritéria a také heterogenita výběrového souboru
Prediktivní validita metody
Týká se míry, do jaké je hodnocený test použitelný pro předpovídání budoucích hodnot nějakého krtéria např. Nakolik je naměřená hodnota IQ vhodným prediktorem akademického úspěchu
Souběžná validita metody
- souběžná validita dvou a více metod
- Náš test se koreluje s výsledky testu měřícího stejný rys administrovaný ve stejnou dobu
Inkrementální validita metody
- Inkrementální validitou se může chlubit takový test, který přináší vzhledem k nějakému účelu informaci, kterou nelze získat z jiných zdrojů
- Tzn. inkrementální validita určuje, nakolik nám určitý test dopomáhá k našemu cíli – např. zpřesnění diagnózy, určení vhodného povolání atp.
- Jako příklad lze použít inteligenční test, který obsahuje různé subtesty pro měření dílčích složek inteligence. Tyto subtesty mají vůči sobě inkrementální validitu v situaci, kdy je cílem zjistit nejen celkovou úroveň inteligence, ale také strukturu schopností
Diferenciální validita metody
- Je určena tím, že výsledky našeho testu nekorelují s těmi, se kterými korelovat nemají
Konstruktové důkazy o validitě
- přišli s tím Cronbach a Meehl (1955), když vyslovili požadavek, aby každá validizační studie obsahovala také hodnocení měřeného atributu jako konstruktu v rámci relevantní psychologické teorie
- teprve v kontextu dané teorie je podle jejich názoru možné komplexně posousdit všechny obsahové aspekty, které by měla mít metoda měřící daný atribut, a také všechby hypoteticky důležité vztahy měřeného atributu s jinými atributy.
- Cronbach a Meehl (1955) navrhli také logický postup, který by se měl při posuzování konstruktové validity použít:
1) na začátku se přijme předpoklad, že daný test měří rys A
2) posoudí se současný stav teorie týkající se měřeného rysu A
3) zformulují se hypotézy, týkající se vztahů rysu A s ostatními rysy
4) hypotézy se empiricky ověří
- Tím pádem zjišťování konstruktové validity v sobě obsahuje všechny výše jmenované aspekty hodnocení validity
Helmstadter (1964) uvádí některé důležité aspekty související s procedurami hodnocení konstruktové validity.
1) Někdy se zjistí, že kritérium používané v raných stadiích vývoje testu je méně validní než test. To je již zmíněný případ testů inteligence, které v současné době považujeme za přesnější než hodnocení učitelů. Dá se říci, že se jedná o ideál, ke kterému se v rámci psychometriky snažíme dospět.
2) Uživatel testu potřebuje znát i teorii a důkazy její platnosti. Pokud není teorie pochopena, není možné adekvátně interpretovat výsledky testování
3) Konstruktovou validitu testu lze hodnotit pouze tehdy, byl-li test zveřejněn a zpřístupněn psychologické veřejnosti. Zejména je na miste opatrnost při používání testů, jejichž konstrukce a postup skórovaní jsou tajné
4) Každý výsledek ve shodě s teorií postupně podporuje validitu, ale dobře metodologicky a teoreticky fundovaný negativní nález muze vše najednou vyvrátit
5) Otázka po validitě testu je v konečném důsledku naivní, protože test nelze nikdy zcela validizovat (Cronbach a Meehl, 1955) a test může byt validní pouze vzhledem k nějakému účelu.
Standardizace
- je nutnou podmínkou objektivity
- Zajišťuje, aby všichni testovaní měli stejné podmínky
- Záznamové archy, testové sešity, klíč pro vyhodnocení odpovědí, manuál,…
- Instrukce jsou pokyny pro probandy, jak mají postupovat v psychodiagnostické situaci;
- Hlavní požadavek kladený na instrukci spočívá v její jasnosti a srozumitelnosti pro všechny skupiny potenciálních probandů. Pokud se např. bude test používat pro vyšetření osob s nižším intelektem nebo vzdělání, měly by být formulace tak srozumitelné, aby jim i tyto osoby rozuměly.
- Situace vyšetření – přiměřené osvětlení, teplota, hluk, striktní dodržení časového limitu
- Hrát roli může i pohlaví administrátora, popř. jeho/její fyzická atraktivita nebo rasová příslušnost
Normalizace
- Týká se tvorby norem, které pak slouží k porovnání výsledků jednotlivce s výsledky nějaké vhodně definované populace
- normy dávají testovým skórům psychologický smysl tím, že umožňují jejich interpretaci
- Normalizací rozumíme srovnání individuálních výsledků s normami, získanými vyšetřením velkého reprezentativního vzorku osob (norma je chápána jako průměrný výkon nebo typickou reakci příslušného vzorku populace). Pro snazší srovnání s normou se výkony dosažené v testu, tzv. hrubé skóry, převádějí na vážené nebo standardní skóry. Druhy norem:
- věková norma – příkladem je deviační inteligenční kvocient, kt. udává, jak mnoho se respondent liší od věkově příslušného populačního průměru
- kvantilová norma – typickým příkladem jsou percentily, kt. udávají kolik procent populace je horší v příslušném kritériu než vyšetřovaná osoba - osoba s hodnotou v testu 95 percentil = její výkon je lepší než výkon 95% populace nebo decily, ty jsou desetkrát větší → 1 decil = 10 percentilů
- stenová = standardní norma – způsob uvádění normalizovaných výsledků v hodnotách ležících v intervalu 1-10