06

_{Original file}

6) Konstrukce a vlastnosti psychodiagnostických metod. Psychometrické vlastnosti testů. Standardizace. Položková analýza. Validita diagnostické metody a způsoby jejího zjišťování, druhy validity. Reliabilita a způsoby jejího zjišťování, zdroje chyb měření. Normalizace a druhy norem (věkové, kvantilové, standardní)

Konstrukce psychodiagnostické metody spočívá nejčastěji v tvorbě dostatečného počtu vhodných položek, mezi kterými je poté nutné vybrat ty, které jsou z hlediska relevantní teorie a na základě empirických dat vhodné pro měření daného atributu. Provádění takového výběru probíhá za pomoci nějaké metody analýzy položek.

Pokud tvůrce metody vyjde z toho, jaký atribut by měla jeho metoda měřit a u jaké skupiny porobandů, měl by nejprve vymezit a rozdělit příslušnou obsahovou doménu (obsahové univerzum) podle důležitých vlastností nebo dimenzí měřeného atributu tzv. faset (viz. psychometrika str. 205 – 207 – fakt nevím jak to popsat, ani jestli to je důležité, tak se na to radši mrkněte, tu knížku mám když tak naskenovanou). Reprezentativním výběrem témat ze všech těchto faset se vlastně tvůrce snaží naplnit požadavky obsahové validity.

liší se podle toho, zda se snažíme zjišťovat úroveň nějaké kognitivní schopnosti (dovednosti, vědomosti atd.) nebo osobnostního rysu.
U položek pro měření kognitivních rysů jde vlastně o vytvoření sady úkolů, které by měli lépe řešit lidé s vysokou mírou schopnosti než lidé s nízkou mírou schopnosti.
Položek by měl být dostatečně velký počet a měly by se dostatečně lišit z hlediska obtížnosti, aby byl test dostatečně citlivý a rozlišoval mezi probandy s různými úrovněmi schopností
U dotazníkových metod pro měření úrovně nějakého rysu osobnosti je situace o něco složitější, protože na osobnostní rys se nelze zeptat přímo (resp. dá, ale odpověď, kterou bychom dostali, by se jen stěží dala považovat za validní)
na míru nějakého rysu můžeme usuzovat pouze z odpovědí na otázky (samozřejmě pokud pomineme některé metody klinické psychodiagnostiky, z nichž nejklasičtější je pozorování)
např. Nepřímé otázky: Myslíte si, že je důležité chodit včas? Nebo přímé otázky: Jste dochvilný? Položka může mít také formu započatého výroku k dokončení.

Měli byhom se vyhýbat složitým nebo nezvyklým formulacím (např. Také dvojitý zápor ve větě, který se v češtině často vyskytuje)

Všechny nesprávné varianty by měly být přibližně stejně přijatelné

Počet alternativ větší než dvě.

Neměly by se oběvovat překrývající se nebo navazující odpovědi na položky

U neúplné věty, pro kterou se má vybrat dokončení, je nutné, aby alternativy správně gramaticky vyrůstaly z hlavní věty

U testů kognitivních schopností by odpovědi mely být podobné délky a správné odpovědi by neměly být na určitém místě častěji než jindy

Formáty odpovědí

Doplňování odpovědi

7+2=…; Co mají společného obraz a socha?; Za dvacet let budu…

- Vícenásobná volba

Výběr z více než 3 variant s 1 správnou odpovědí a x distraktory

Dichotomická položka

Výběr 2 variant

Mnohonásobná volba

Vlastně série dichotomií…

Spojování (párování)

„uspořádané kategorie“ resp. „stejně se jevící intervaly“

Nikdy –zřídka –občas -často –vždy

Nucená volba

Jste spíše tolerantní, nebo náročný?

Řazení

Seřaďte výroky podle výstižnosti: Jsem energický… nezávislý … důvěřivý…

Neuspořádané kategorie (vícenásobná volba bez kriteriální odpovědi)

Rozlišovací účinnost položky

Pokud má nástroj měření fungovat, musí především rozlišovat mezi měřenými objekty z hlediska atributu, který má měřit. Asi těžko bychom chtěli měřit tloušťku různých tenkých drátů pomocí obyčejného kancelářského pravítka, protože citlivost takového měření by byla velmi pochybná. Protože položky považujeme za základní prvky, pomocí kterých měření probíhá, musí být každá jednotlivá položka dostatečně citlivá z hlediska měřeného rysu. To znamená, že nežádoucí jsou takové položky, na které všichni odpovídají stejně, nebo úkol, který všichni bez problémů vyřeší (nebo který není schopen vyřešit nikdo). Samozřejmě je nutné uvažovat také o tom, pro koho je metoda určena; např. metoda měřící sílu nějakého postoje bude necitlivá v případech, kdy respondenty budou osoby vyznačující se extrémními hodnotami tohoto postoje.

Analýza položek

Tato analýza probíhá tak, že se pokusná verze testu předloží vhodnému výběrovému souboru osob a získaná data týkající se relevantních charakteristik probandů (např. Věku, pohlaví, profese, diagnózy) spolu s údaji o tom, jak jednotliví probandi odpovídali na každou jednotlivou položku, jsou statisticky zpracovány.

dostatečně velký a reprezentativní výběrový soubor (minimálně dvakrát až třikrát vyšší než počet položek, nebo v případě použití faktorové analýzy dvakrát až třikrát vyšší než počet parametrů modelu)
výběrový soubor by se měl svým složením co nejvíce podobat složení cílové populace
v ideálním případě náhodný výběr

Metody analýzy položek

Přístup založený na kritériu (maximalizaci vztahu s kritériem)

Z historického hlediska nejstarší
Cíl - vytvořit takovou metodu, která bude spolehlivě rozlišovat mezi určitými skupinami osob nebo která bude nejlépe predikovat nějaké kritérium
Skupiny mohou být definovány např. jako diagnózy. Příkladem metod, které byly vytvořeny pomocí tohoto postupu a jsou dodnes s úspěchem používány, je např. metoda MMPI (Minnesotský multi-fázový osobnostní dotazník) nebo Strongův zájmový inventář
porovnávají se průměry dvou skupiny, ale analýzu je zejména nutné provést na úrovni položek – hlavně je třeba zjistit, které skóry položek nemají statisticky významný vztah s kritériem – takové s největší pravděpodobností nepřispívají ke vzniku zjištěného rozdílu v naměřeném skóru obou skupin.
Hlavní nedostatek této metody spočívá v tom, že přístup k analýze položek je většinou čistě empirický a není korigován žádnou teoretickou koncepcí, která by napomáhala vysvětlení výsledků zjištěných analýzou
Někteří autoři (Helmstadter, 1964) mluví přímo o absenci psychologického významu - tvrdí, že zkoumané skupiny se od sebe často neliší pouze z hlediska rysu měřeného danou metodou, ale i z hlediska jiných charakteristik, takže je vlastně obtížné rozhodnout, co škála měří
Položky se vyhodnocují jako dobré nebo špatné podle toho, nakolik korelují s kritériem
Problém – aby bylo možné prokázat rozdíly mezi skupinami, je nutné tyto skupiny vhodným způsobem vymezit a vybrat. Klasifikace do skupin ale může mít velmi problematickou reliabilitu, čímž může být celý postup analýzy položek značně znehodnocen

Přístup založený na klasické analýze položek

klasická analýza položek je postup, který používá poměrně běžné statistické indexy pro vyjádření charakteristik položek, vztahů mezi položkami navzájem a vztahů položek s celkovým skórem testu
Princip je velmi podobný jako v předchozím případě postupu založeného na kritériu - opět je dostatečně velkému a reprezentativnímu výběrovému souboru (uvádí se, že minimální rozsah souboru je N = 100) administrována pokusná verze metody, je provedena statistická analýza a jsou vyhodnoceny výsledky¨
Rozdíl je v cíli – minulý postup byl založen na maximalizaci validity, tento na maximalizaci reliability – cílem je tedy vytvořit co nejvíc vnitřně konzistentní test

Obtížnost položky – u výkonových testů - zjištění podílu osob z analyzovaného souboru, které danou položku vyřešily správně – pravděpodobnost zodpovězení pro použitelnou položku by měla

být mezi 0,2 a 0,8

Rozlišovací účinnost položky - míra, do jaké se probandi liší ve svých odpovědích na ni

hlavní myšlenkou vysvětlující hodnotu korelace skórů položky a skórů testu jako míru rozlišovací účinnosti položky spočívá v tom, že pokud je tato hodnota dostatečně vysoká, znamená to, že skór položky má dostatečně vysoký podíl variability společná se skórem celého testu.
Položka s dostatečně vysokou rozlišovací účinností by měla mít hodnotu korigované korelace (od skóru testu se odečte skór položky, kterou korelujeme) skóru položky se skórem testu alespoň 0,3.

Přístup založený na faktorové analýze

U tohoto přístupu platí naprosto stejné principy a používá se stejný postup jako u klasická analýzy položek
Specifičnost tohoto postupu oproti klasické analýze položek spočívá v tom, že se namísto korelační analýzy používá faktorová analýza, a to pokud možno konfrimační faktorová analýza, protože umožňuje testovat model vztahů mezi skóry položek, tzn, kriticky zkoumat nějakou teorii

Pak jsou ještě ještě přístupy založené na teorii odpovědi na položku (IRT) a na teorii vědomostního prostoru (KST). Těm jsou ale věnovány samostatné kapitoly před tím, než se píše o analýze položek. V kapitole věnující se analýze položek o nich nic není ….

Chyby měření

konstrukce_a_vlastnosti_psychodiagnostickych_metod_image_0.wmf

objektivita (jak test používat)→reliabilita → validita → normalizace (ta by měla být našim cílem)

Konstantní chyby (ovlivňují validitu)

důsledkem nepříosti měření v psychologii (nějaký atribut měřeného objektu se porovnává s jiným atributem nástroje měření, který má pro daný měřící nástroj matematicky definovaný vztah s atributem měřeného objektu (např. Zavěšením závaží na pružinu, můžeme z jejího protažení odvodit váhu závaží – byť v psychologii moc o přesně definovaném matematickém vztahu moc mluvit nemůžeme – zasahují do toho právě ty chyby měření a proto bychom je prý jako psychologové měli znát)
v případě naprosté většiny metod si pak nemůžeme být jisti, zda tyto metody skutečně měří to, co o nich jejich autoři tvrdí
snaha eliminovat systematické chyby tedy souvisí s nejzákladnějším požadavkem kladeným na každou psychodiagnostickou metodu, totiž aby metoda skutečně měřila to co měřit má (např. u celé řady testů je nutné umět číst, ale bylo by chybou kdyby rozdíly ve výkonu v textu souvisely více se čtením než se zjišťovanou schopností)
validita se taky někdy definuje jako relativní nepřítomnot konstantních chyb měření v naměřených hodnotách

Osobní chyby (souvisí s objektivitou)

způsobovány konkrétním člověkem, který administruje, vyhodnocuje a interpretuje výsledky psychologického vyšetření
může zkreslit instrukce; nesprávně měřit čas; vytvořit atmosféru, která nepřispěje k žádoucímu výkonu probanda v testu; může špatně vypočítat dílčí skóry; ve fázi interpretace může dát výsledky do neadekvátního kontextu; při aplikaci si mohou dva různí odborníci po přečtení téže zprávy z vyšetření učinit dva různé závěry
pro omezení této chyby slouží –>

standardizace: v užším slova smyslu to spočívá ve stanovení takových pravidel administrace, skórování a interpretace výsledků měření, že jsu co nejpřesněji definovány podmínky, za kterých má měření probíhat.

Zajišťuje, aby všichni testovaní měli stejné podmínky
Záznamové archy, testové sešity, klíč pro vyhodnocení odpovědí, manuál,…
Instrukce jsou pokyny pro probandy, jak mají postupovat v psychodiagnostické situaci;
Hlavní požadavek kladený na instrukci spočívá v její jasnosti a srozumitelnosti pro všechny skupiny potenciálních probandů. Pokud se např. bude test používat pro vyšetření osob s nižším intelektem nebo vzdělání, měly by být formulace tak srozumitelné, aby jim i tyto osoby rozuměly.
Situace vyšetření – přiměřené osvětlení, teplota, hluk, striktní dodržení časového limitu
1. Hrát roli může i pohlaví administrátora, popř. jeho/její fyzická atraktivita nebo rasová příslušnost

Proměnné chyby (ovlivňují reliabilitu)

O jejich existenci je možné se velmi jednoduše přesvědčit tak, že se provádí opakované měření téže veličiny. Jednotlivé naměřené hodnoty se od sebe liší, a to v závislosti na velikosti měřené hodnoty a přesnosti použité procedury měření
Na základě statistických analýz opakovaných měření je pak možné stanovit, jaký díl variability měření odpovídá skutečně existujícím rozdílům v měřených hodnotách a jaký díl variability měření odpovídá skutečně existujícím v měřených hodnotách a jaký díl takto vysvětlit nelze; ten je pak připisován na vrub náhodným vlivům
Pokud nám tedy často dává stejná metoda různé výsledky, není reliabilní (nelze se na i spolehnout, je příliš závislá na vnějších vlivech)

Interpretační chyby

- Chyby interpretace naměřených hodnot spočívají v nedodržení požadavku, aby se naměřená hodnota (tzv. hrubý skór) vždy interpretovala v nějakém kontextu

Řeší se tzv. normalizací - tedy vytvořením norem pro daný test

Reliabilita

1) reliabilita je charakteristika psychodiagnostické metody, která uvádí relativní nepřítomnost proměnných chyb v měření,

reliabilita je v podstatě jiný název pro spolehlivost nebo přesnost metody měření

Test-retest reliabilita (reliabilita jako stabilita v čase)

Zadáme jeden a ten samý test dvakrát v různém čase a korelujeme výsledky – jakékoliv rozdíly se považují za zdroj chyby

Tím pádem se předpokládá, že se měřený rys v čase nemění
Tento předpoklad může být nerealistický – nelze tedy používat např. pro zjišťování reliability metod pro zjišťování přechodných psychických stavů – např. dotazníků depresivity
po příliš krátké době oddělující obě testování může dojít ke vzniku jiného artefaktu (tzn. jevu, který vzniká nesprávným použitím metody) klamnému nadhodnocení reliability vlivem zapamatování odpovědí na jednotlivé otázky
doporučuje se odstup 3 měsíce

Reliabilita paralelních forem

Dva paralelní testy měří tentýž konstrukt stejným způsobem
Paralelní formy by měly mít stejné průměry hrubých skórů, stejné směrodatné odchylky a stejné korelace s jinými měřícími nástroji v jakékoli populaci
Pro zjištění reliability se oba testy korelují a srovnávají se průměry a rozptyly jednotlivých položek
Problémem je vytvořit skutečně paralelní formy

Split-half reliabilita

Odhad reliability získaný rozdělením testu na dvě poloviny
Řeší problémy předchozích dvou způsobů odhadu, ve kterých se možné reálné fluktuace rysu automaticky považují za chyby, přestože tomu tak být nemusí (tím by byla skutečná reliabilita testu podhodnocena)
Aby nebylo nutné složitě konstruovat paralelní formu testu, která nikdy nebude zcela dokonalá, administruje se pouze jeden test a pak se z důvodu analýzy rozdělí na dvě poloviny
Problém – reliabilita testu roste s počtem položek – tím pádem rozdělení na dvě poloviny snižuje odhad reliability
Nutná korekce pomocí Spearman-Brown prophecy formula - tzv. Spearman-Brownův prorocký vzorec:-) – prorocký, protože umožňuje odhadnout, nakolik zvýší reliabilitu, když přidáme určité množství položek

Kuder-Richardsonova reliabilita

Předchozí přístup se nehodí při zjišťování reliability výkonových testů s rychlostní složkou, protože je známo, že stupňující se obtížnost položek u testů s rychlostní složkou vede k tomu, že subskóry vytvořené z několika po sobě následujících položek spolu obvykle korelují nízce, přestože měří stejnou schopnost
Kuder-Richardsonův přístup pracuje s tzv. homogenitou
Homogenita - konsistence výkonů v sadě položek
V ideálním případě jsou položky testu s rychlostní složkou seřazeny podle vzrůstající obtížnosti. Dá se tedy očekávat, že osoba bude nějakou dobu řešit položky bez obtíží, a to až do té chvíle, kdy dosáhne svého osobního „stropu„, tzn. položky, za kterou už nevyřeší žádnou další. V ideálním případě by pak výkon všech osob vypadal tak, že by dosáhly bodu, před kterým vyřešily všechny položky a za kterým nevyřešily žádnou (samozřejmě každá osoba by tento bod měla jinde, podle své úrovně měřené schopnosti). V takovém případě by se test vyznačoval dokonalou reliabilitou podle Kudera a Richardsona
stejně důležité je, aby test měřil pouze jeden rys nekontaminovaný žádným jiným - v takovém případě se o testu říká, že není tzv. jednorozměrný a požadavek homogenity bývá obvykle nesplnitelný
odhad reliability se provádí pomocí koeficientu KR20 – použitelný pouze u dichotomických položek (správně/špatně)

Reliabilita podle Hoyta

Je podobný teorii zobecnitelnosti
Hoyt (1941; In: Brzeziňski, 1999) tvrdí, že kolísání výkonu osoby od položky k položce by se nemělo považovat za chybu, ale za reálně existující intraindividuální rozdíly, které by tudíž neměly zkreslovat (snižovat) odhad reliability
Rozeznává tři zdroje variability, tzv. komponenty rozptylu, jejichž relativní důležitost lze při správně provedeném výzkumu vzájemně porovnat pomocí analýzy rozptylu

a) interindividuální rozdíly, tzn. skutečné rozdíly mezi lidmi, kvůli kterým se vlastně měření v psychologii a psychodiagnostika vůbec provádí

b) intraindividuální rozdíly, tzn. skutečné kolísání měřených hodnot

chyby měření (variabilita chyb)

Faktory ovlivňující odhad reliability

Metoda odhadu reliability

rozhodnutí o volbě argumentů pro reliabilitu meotdy by mělo být založeno ne na pragmatické snaze o získání co nejlepších parametrů, ale spíše na vlastnostech diagnostického nástroje, které samy vhodnou metodu indikují (přítomnost eychlostního faktoru; typ položek, z nichž jsou tvořeny škály; účely metody). V zásadě vša platí, že nemá smysl volit metody tak, aby se navzájem duplikovali,
paralelní formy dávají nejnižší odhad, split-half nejvyšší (pozn. u reliability vždy mluvíme o odhadu)

Délka testu

čím více položek máme (teoreticky je totiž položek zjišťujících daný atribut nekonečně mnoho), tím více je náš test reprezentativní pro daný rys (za předpokladu, že máme kvalitní položky) – tím pádem máme i vyšší reliabilitu

Heterogenita skupiny

variabilita měřeného rysu ve výběrovém souboru – při příliš homogenním souboru se snižuje variabilita pravých skórů, přičemž variabilita chyb měření zůstává stejná – to znamená nižší odhad reliability
kde není variabilita, tam není realabilita

časové aspekty

u rychlostních testů je nadhodnocena reliabilita ve smyslu vnitřní konzistence
možná je to tím, že lidé vykazují větší konzistenci v tempu práce, než v kvalitě výkonu
Cronbach píše, že pracovní tempo je samo o sobě rysem respondenta. To by znamenalo, že výkon v každém rychlostním testu je dán dvěma latentními proměnnými – cíleně měřenou charakteristikou a rychlsotní složkou, které jsou navzájem pravděpodobně nekorelované
z uvedených důvodů je užitečné vědět, do jaké míry jsou výkony v určitém testu ovlivněny časovým omezením, a tudíž rychlostí, jakou jsou probandi schopni pracovat.

Konstrukce a administrace metody

špatná standardizace zadání testu výrazně snižuje reliabilitu
Vlastnosti testu samého: ne – vzájemně závislé položky (nevím jednu, nemohu odpovědět na druhou); ne téměř identické položky; ne chytáky; taky emocinálně zbarvené položky berou do hry další atribut
Forma položky
Vyšetřované osoby
Administrátor

Validita

K validitě se dá přistupovat ze tří stran

z hlediska obsahu metody a situace testování a chování testované osoby v této situaci (těmto zdrojům důkazů o validitě se říká obsahové zdroje)
z hlediska vztahu mezi skórem testu a skórem nějakého vnějšího kritéria (empirické zdroje)
z hlediska začlenění měřeného atributu do vztahů dalších atributů v rámci teorie, ve které se měřený atribut definuje (konstruktové zdroje)

Obsahové zdroje důkazů o validitě

míra, do jaké je obsah psychodiagnostické metody, situace testování a chování požadované od probanda, který se v této situaci nachází, ve shodě s účelem metody

Zjevná validita metody (face validity)

zjevnou validitou se může pyšnit metoda měření, u které proband, který se stane jejím objektem měření, dokáže víceméně trefně odhadnout, co se metoda pokouší změřit
Zdánlivá validita může zvýšit motivaci testovaných osob – mají pocit, že daný test má smysl, a tak mu věnují více energie – např. Rorschach nemá pro většinu lidí vůbec žádnou zdánlivou validitu a z toho se může odvíjeti i jejich motivace test dělat
U výkonových testů není problémem, u osobnostních a jiných problémem být může
může být i zdrojem zkreslení – ldyž na výsledcích testování závisí další osud probanda (někdy tak může být lepší, když test zjevnou validitu nemá)

Výběrová validita

posouzení obsahové validity spočívá v oslovení nějakého počtu osob, které lze považovat za odborníky v daném oboru a od nichž chceme expertní posudek
spočívá v posouzení adekvátnosti výběru obsahu položek vzhledem k rysu, který má být metodou měřen
používá se zejména u výkonnových testů nebo testů schopností a vědomostí

Faktorová validita

-Obsah metody se posuzuje na základě faktorové analýzy dat představujících položky testu řešené nebo zodpovězené dostatečně početným souborem osob vybraných z relevantní populace.

Empirické důkazy o validitě

jako argument svědčící o tom, že metoda skutečně měří atribut, pro jehož měření byla vytvořena, samotné důkazy o obsahové validitě nestačí. Mohou prokázat pouze to, že byly podniknuty adekvátní pokusy o pokrytí dané obsahové domény.
Pro doložení validity obecně je nutné nějaké kritérium měřeného rysu, které v případě, že je metoda validní, má vztah se skórem získaným touto metodou
Největší problém empirické validity představuje nalezení vhodného kritéria
Důležitá je reliabilita kritéria a také heterogenita výběrového souboru

Prediktivní validita metody

Týká se míry, do jaké je hodnocený test použitelný pro předpovídání budoucích hodnot nějakého krtéria např. Nakolik je naměřená hodnota IQ vhodným prediktorem akademického úspěchu

Souběžná validita metody

souběžná validita dvou a více metod
Náš test se koreluje s výsledky testu měřícího stejný rys administrovaný ve stejnou dobu

Inkrementální validita metody

Inkrementální validitou se může chlubit takový test, který přináší vzhledem k nějakému účelu informaci, kterou nelze získat z jiných zdrojů
Tzn. inkrementální validita určuje, nakolik nám určitý test dopomáhá k našemu cíli – např. zpřesnění diagnózy, určení vhodného povolání atp.
Jako příklad lze použít inteligenční test, který obsahuje různé subtesty pro měření dílčích složek inteligence. Tyto subtesty mají vůči sobě inkrementální validitu v situaci, kdy je cílem zjistit nejen celkovou úroveň inteligence, ale také strukturu schopností

Diferenciální validita metody

Je určena tím, že výsledky našeho testu nekorelují s těmi, se kterými korelovat nemají

Konstruktové důkazy o validitě

přišli s tím Cronbach a Meehl (1955), když vyslovili požadavek, aby každá validizační studie obsahovala také hodnocení měřeného atributu jako konstruktu v rámci relevantní psychologické teorie
teprve v kontextu dané teorie je podle jejich názoru možné komplexně posousdit všechny obsahové aspekty, které by měla mít metoda měřící daný atribut, a také všechby hypoteticky důležité vztahy měřeného atributu s jinými atributy.
Cronbach a Meehl (1955) navrhli také logický postup, který by se měl při posuzování konstruktové validity použít:

1) na začátku se přijme předpoklad, že daný test měří rys A

2) posoudí se současný stav teorie týkající se měřeného rysu A

3) zformulují se hypotézy, týkající se vztahů rysu A s ostatními rysy

4) hypotézy se empiricky ověří

Tím pádem zjišťování konstruktové validity v sobě obsahuje všechny výše jmenované aspekty hodnocení validity

Helmstadter (1964) uvádí některé důležité aspekty související s procedurami hodnocení konstruktové validity.

1) Někdy se zjistí, že kritérium používané v raných stadiích vývoje testu je méně validní než test. To je již zmíněný případ testů inteligence, které v současné době považujeme za přesnější než hodnocení učitelů. Dá se říci, že se jedná o ideál, ke kterému se v rámci psychometriky snažíme dospět.

2) Uživatel testu potřebuje znát i teorii a důkazy její platnosti. Pokud není teorie pochopena, není možné adekvátně interpretovat výsledky testování

3) Konstruktovou validitu testu lze hodnotit pouze tehdy, byl-li test zveřejněn a zpřístupněn psychologické veřejnosti. Zejména je na miste opatrnost při používání testů, jejichž konstrukce a postup skórovaní jsou tajné

4) Každý výsledek ve shodě s teorií postupně podporuje validitu, ale dobře metodologicky a teoreticky fundovaný negativní nález muze vše najednou vyvrátit

5) Otázka po validitě testu je v konečném důsledku naivní, protože test nelze nikdy zcela validizovat (Cronbach a Meehl, 1955) a test může byt validní pouze vzhledem k nějakému účelu.

Standardizace

je nutnou podmínkou objektivity
Zajišťuje, aby všichni testovaní měli stejné podmínky
Záznamové archy, testové sešity, klíč pro vyhodnocení odpovědí, manuál,…
Instrukce jsou pokyny pro probandy, jak mají postupovat v psychodiagnostické situaci;
Hlavní požadavek kladený na instrukci spočívá v její jasnosti a srozumitelnosti pro všechny skupiny potenciálních probandů. Pokud se např. bude test používat pro vyšetření osob s nižším intelektem nebo vzdělání, měly by být formulace tak srozumitelné, aby jim i tyto osoby rozuměly.
Situace vyšetření – přiměřené osvětlení, teplota, hluk, striktní dodržení časového limitu
Hrát roli může i pohlaví administrátora, popř. jeho/její fyzická atraktivita nebo rasová příslušnost

Normalizace

Týká se tvorby norem, které pak slouží k porovnání výsledků jednotlivce s výsledky nějaké vhodně definované populace
normy dávají testovým skórům psychologický smysl tím, že umožňují jejich interpretaci
Normalizací rozumíme srovnání individuálních výsledků s normami, získanými vyšetřením velkého reprezentativního vzorku osob (norma je chápána jako průměrný výkon nebo typickou reakci příslušného vzorku populace). Pro snazší srovnání s normou se výkony dosažené v testu, tzv. hrubé skóry, převádějí na vážené nebo standardní skóry. Druhy norem:
věková norma – příkladem je deviační inteligenční kvocient, kt. udává, jak mnoho se respondent liší od věkově příslušného populačního průměru
kvantilová norma – typickým příkladem jsou percentily, kt. udávají kolik procent populace je horší v příslušném kritériu než vyšetřovaná osoba - osoba s hodnotou v testu 95 percentil = její výkon je lepší než výkon 95% populace nebo decily, ty jsou desetkrát větší → 1 decil = 10 percentilů
stenová = standardní norma – způsob uvádění normalizovaných výsledků v hodnotách ležících v intervalu 1-10