Psychometrie v klinické praxi - Mgr. Václav Šnorek

Základní pojmy a principy pro práci s psychodiagnostickými metodami

Tato stránka vznikla jako referenční materiál k psychometrickým základům psychologické diagnostiky. Je určena kolegům v klinické praxi, účastníkům specializačního vzdělávání v klinické psychologii a všem, kdo chtějí porozumět tomu, co se skrývá za čísly v testových manuálech — a proč na tom záleží.

Psychometrie bývá vnímána jako suchá, matematická a vzdálená klinické realitě. Myslím, že je to nedorozumění. Když se v klinické praxi rozhodujeme na základě testového výsledku — o diagnóze, o způsobilosti, o tom, zda se pacientův stav změnil — provádíme v podstatě totéž co psychometrie: posuzujeme, nakolik si můžeme být svým závěrem jistí. Rozdíl je v tom, že psychometrie nám pro toto posouzení nabízí explicitní nástroje, zatímco bez ní se spoléháme výhradně na klinický dojem. A klinický dojem, jakkoli cenný, má své limity.

Co je psychologický test

Psychologické testování je standardizovaný postup, jehož cílem je získat reprezentativní vzorek chování za předem vymezených podmínek. Aby bylo možné metodu považovat za psychologický test v psychometrickém smyslu, musí být jasně určeno, co se zjišťuje, jak se data získávají a podle jakých pravidel se odpovědi převádějí na skóry — a to s ohledem na minimalizaci chyby měření.

Samotná existence testového materiálu a manuálu však ještě neznamená, že metoda má dostatečně doložené psychometrické vlastnosti. Kvalita testu se hodnotí podle empirických důkazů o validitě zamýšlených interpretací, o reliabilitě (přesnosti) měření, o vhodnosti norem a o férovosti použití. Proto mohou být dvě profesionálně publikované metody prakticky velmi odlišné v tom, jak silné důkazy podporují jejich použití.

Měřicí stupnice

Typ škály určuje, jaké matematické operace a jaké interpretační závěry jsou oprávněné.

Nominální škála slouží ke klasifikaci do kategorií bez možnosti smysluplného řazení. Příkladem je diagnostická kategorie (přítomnost versus nepřítomnost poruchy) nebo typ diagnózy. Můžeme pouze říci, zda jsou dva případy ve stejné nebo v odlišné kategorii.

Ordinální škála umožňuje pořadí, nikoli však jistotu, že rozdíly mezi sousedními hodnotami jsou stejně velké. Pokud pacient A dosáhne skóru 5 a pacient B skóru 10, víme pouze, že B dosáhl více než A — nikoli že jeho projev je přesně dvojnásobný. Mnohé klinické hodnotící škály mají ordinální charakter, i když se s nimi někdy nakládá jako s intervalovými.

Intervalová škála předpokládá stejné vzdálenosti mezi hodnotami, avšak nemá absolutní nulový bod. Mnohé standardní skóry v psychologii (IQ škála se středem 100 a SD 15, T-skóry se středem 50 a SD 10) se pro praktické účely interpretují jako přibližně intervalové, což umožňuje běžné statistické operace.

Poměrová škála má navíc smysluplnou nulu; v psychologické diagnostice se s ní setkáváme spíše u některých výkonových ukazatelů, například u reakčního času, latence odpovědi nebo procentuálních skórů.

Rozložení výsledků a normalita

Při konstrukci norem a některých standardních skórů se často vychází z předpokladu přibližně normálního rozložení výsledků. V praxi však mohou být empirická rozdělení zešikmená, zploštělá nebo naopak příliš špičatá, a proto je vždy nutné vycházet z reálných normativních dat, nikoli jen z teoretického předpokladu normality.

Odchylky od normality mohou ovlivnit převody hrubých skórů na standardní skóry i interpretaci polohy jedince v referenční populaci. Proto je důležité ověřovat, zda normativní data testu skutečně odpovídají předpokladům, na nichž jsou odvozené standardní skóry postaveny.

Chyby v diagnostickém procesu

Každé psychologické měření je zatíženo chybou. Systematická chyba vzniká tehdy, když výsledek soustavně ovlivňuje faktor, který nesouvisí s měřeným konstruktem; taková chyba ohrožuje validitu interpretace. Náhodná chyba způsobuje kolísání výsledků při opakovaném měření a snižuje reliabilitu, tedy přesnost měření.

Vedle toho se uplatňují i chyby administrace, skórování a interpretace. Pokud vyšetřující nedodrží standardní instrukce, hodnotí odpovědi nejednotně nebo použije nevhodné normy, zhoršuje tím objektivitu i interpretovatelnost výsledku.

Standardizace: tři významy pojmu

Pojem standardizace se v psychometrii používá nejméně ve třech propojených významech.

Standardizace administrace a skórování (objektivita) představuje soubor pravidel, který zajišťuje, že test probíhá stejným způsobem u všech osob. Minimalizuje chyby na straně vyšetřujícího. Popis těchto pravidel tvoří jádro testového manuálu.

Standardizace interpretační (normalizace) poskytuje referenční rámec pro posuzování výsledků. Hrubý skór sám o sobě nemá diagnostický význam — teprve porovnání s příslušnou normativní skupinou umožňuje říci, zda je výkon průměrný, podprůměrný nebo nadprůměrný.

Psychometrické ověření metody představuje doložení validity, reliability (přesnosti) a dalších vlastností potřebných pro zamýšlené použití. Bez těchto tří vrstev standardizace nelze o testu uvažovat jako o spolehlivém diagnostickém nástroji.

Reliabilita

Reliabilita vyjadřuje míru, v níž jsou rozdíly ve skórech dány skutečnými rozdíly mezi osobami, a nikoli náhodnou chybou měření. Současné standardy (AERA, APA, NCME, 2014) ji chápou jako konzistenci skórů napříč replikacemi testovací procedury.

Důležité je zdůraznit, že reliabilita není neměnnou vlastností testu „sama o sobě“, ale vlastností konkrétních skórů v určité populaci a za určitých podmínek použití.

Klasická teorie testování (CTT) vyjadřuje vztah mezi pozorovaným skórem, pravým skórem a chybou rovnicí:

X = T + E

kde X je pozorovaný (naměřený) skór, T je pravý skór a E je chybový skór. V tomto rámci reliabilita souvisí s podílem variance pravých skórů na celkové varianci skórů pozorovaných.

Vedle klasické teorie testování se dnes běžně uplatňují i modely teorie odpovědi na položku (IRT), které popisují vztah mezi latentní vlastností a pravděpodobností konkrétní odpovědi na úrovni jednotlivých položek. IRT umožňuje přesnější odhady schopností, adaptivní testování a lépe se vypořádává s testy, jejichž přesnost měření se liší na různých úrovních měřené vlastnosti. V klinické praxi se oba přístupy vzájemně doplňují.

Způsoby odhadu reliability

Test-retest reliabilita hodnotí stabilitu výsledků v čase. Tentýž test se administruje téže skupině osob s určitým časovým odstupem a korelace mezi oběma měřeními vyjadřuje, nakolik jsou výsledky stabilní. Nízká test-retest reliabilita může odrážet buď problém nástroje, nebo skutečnou proměnlivost měřeného jevu.

Inter-rater reliabilita posuzuje míru shody mezi nezávislými hodnotiteli a je zvlášť důležitá tam, kde skórování zahrnuje klinický úsudek.

Reliabilita paralelních forem zkoumá, zda dvě ekvivalentní verze metody poskytují srovnatelné výsledky.

Split-half postup porovnává dvě části téhož testu.

Vnitřní konzistence sleduje, do jaké míry položky společně zachycují tentýž konstrukt. V praxi se často používá Cronbachovo alfa, avšak v řadě situací může být vhodnější McDonaldovo omega — zejména pokud nejsou splněny předpoklady tau-ekvivalence položek, na nichž alfa stojí. Omega je v současné psychometrii stále více preferovanou mírou vnitřní konzistence.

Požadovaná výše reliability vždy závisí na účelu použití. Pro individuální klinická rozhodnutí bývají nároky vyšší (orientačně 0,90 a výše) než pro skupinová výzkumná srovnání (kde mohou postačovat hodnoty kolem 0,70–0,80). Tyto hranice nejsou absolutní — vždy záleží na kontextu a závažnosti rozhodnutí, které na základě testu činíme.

Standardní chyba měření a interval spolehlivosti

Koeficient reliability popisuje přesnost testu obecně, ale pro interpretaci konkrétního výsledku je užitečná standardní chyba měření (SEM). V klasickém pojetí ji lze vyjádřit vztahem:

SEM = SD × √(1 − r)

kde SD představuje směrodatnou odchylku skórů v normativním vzorku a r je koeficient reliability daného testu. SEM převádí abstraktnější údaj o reliabilitě na odhad velikosti náhodné chyby v jednotkách dané škály.

Individuální výsledek je proto vhodné interpretovat jako intervalový odhad, nikoli jako zcela přesný bodový údaj. Přibližný interval spolehlivosti lze v běžném případě zapsat jako:

CI = X ± z × SEM

kde X je naměřený skór a z odpovídá zvolené hladině spolehlivosti (pro 95% CI je z = 1,96). Čím je reliabilita nižší, tím širší je interval a tím větší opatrnost je třeba při interpretaci, zejména v blízkosti klinicky významných hranic (cut-off skórů).

Při příliš široké diagnostické nejistotě je vhodné zvážit: použití testu s vyšší reliabilitou, opakované testování nebo doplnění o další konvergentní zdroje informací.

Regrese k průměru a chyba rozdílu

Extrémní výsledky mají při opakovaném měření tendenci přibližovat se populačnímu průměru, což je známý jev regrese k průměru. Nejde nutně o skutečnou změnu schopnosti nebo symptomu, ale často o statistický důsledek chybové složky měření — extrémní naměřené hodnoty obsahují proporcionálně více náhodného šumu než hodnoty blízké průměru. Při interpretaci opakovaných měření je proto třeba rozlišovat mezi reálnou změnou a změnou očekávatelnou vzhledem k přesnosti testu.

Odhad pravého skóre při zohlednění regrese k průměru:

T‘ = μ + r × (X − μ)

kde μ je populační průměr, r je reliabilita a X je pozorovaný skór. Kvalitní testové manuály zohledňují regresi k průměru při výpočtu intervalů spolehlivosti, což se projevuje asymetrií těchto intervalů pro extrémní hodnoty skóru.

Standardní chyba rozdílu (SED)

Když porovnáváme dva skóry — například dvě škály téhož testu nebo výsledky téhož pacienta ve dvou časových bodech — nestačí uvažovat SEM každého z nich odděleně. Je třeba pracovat se standardní chybou rozdílu (SED), protože každý rozdíl je zatížen chybou obou srovnávaných měření současně. SED je proto vždy větší než SEM jednotlivých škál.

I statisticky spolehlivý rozdíl navíc nemusí být automaticky klinicky významný. Statistická významnost rozdílu je nutnou, avšak ne postačující podmínkou pro vyvození klinického závěru. Diagnostik musí vždy posoudit, zda je rozdíl nejen statisticky spolehlivý (otázka reliability), ale také diagnosticky smysluplný (otázka validity).

Validita

Současné psychometrické pojetí chápe validitu jako míru, v níž důkazy a teorie podporují zamýšlené interpretace testových skórů pro navrhované použití (AERA, APA, NCME, 2014). Validita tedy není jednoduchá vlastnost testu jako takového, ale argument vztahovaný ke konkrétní interpretaci, účelu a kontextu použití. Tentýž nástroj může být dostatečně podložen pro screening, ale nedostatečně podložen pro vysoce závažné individuální rozhodování.

Toto pojetí představuje zásadní posun oproti staršímu přístupu, kde se rozlišovaly oddělené „typy“ validity (obsahová, kriteriální, konstruktová). Současný rámec namísto toho rozlišuje pět zdrojů důkazů, které ve svém souhrnu vytvářejí argument pro platnost dané interpretace:

Důkazy založené na obsahu testu posuzují, zda položky testu adekvátně pokrývají měřenou doménu. Reprezentuje obsah testu tu oblast, o které chceme na základě výsledků vypovídat?

Důkazy založené na procesech odpovídání zkoumají kognitivní procesy, které testovaná osoba při řešení úloh skutečně používá. Je důležité, aby odpovídání angažovalo ty procesy, o jejichž měření usilujeme, a nikoli jiné strategie (například hádání nebo sociální žádoucnost).

Důkazy založené na vnitřní struktuře ověřují, zda empirická struktura testu (například faktorová) odpovídá teoretickému modelu konstruktu.

Důkazy založené na vztazích k dalším proměnným zahrnují konvergentní validitu (korelace s jinými měřítky téhož konstruktu), diskriminantní validitu (nízké korelace s měřítky odlišných konstruktů), prediktivní validitu (schopnost předpovědět budoucí kritérium) a souběžnou validitu (shoda se současně měřeným kritériem).

Důkazy založené na důsledcích testování se zabývají tím, zda interpretace a použití testových výsledků vede k zamýšleným pozitivním důsledkům a zda nevytváří nežádoucí vedlejší efekty, například systematické znevýhodnění určitých skupin.

Tyto zdroje se nemají chápat jako oddělené „typy validity“, ale jako různé linie argumentace podporující konkrétní interpretaci skórů. Reliabilita je přitom pro validní interpretaci nutnou, nikoli však postačující podmínkou — test může měřit vysoce konzistentně, ale něco jiného, než zamýšlíme.

Normy a normativní srovnání

Hrubý skór sám o sobě obvykle nestačí k interpretaci. Teprve porovnání s příslušnou normativní skupinou umožňuje určit, zda je výkon podprůměrný, průměrný nebo nadprůměrný. Kvalita norem závisí zejména na velikosti normativního souboru (větší vzorek = menší chyba v odhadu populačních parametrů), jeho reprezentativnosti (zda odráží cílovou populaci z hlediska věku, pohlaví, vzdělání, regionu) a na tom, zda odpovídá populaci, pro kterou má být test používán.

Zásadní je i aktuálnost norem. Flynnův efekt označuje dlouhodobě pozorovaný nárůst průměrných IQ skórů v čase, který vede k zastarávání norem. Meta-analytické práce ukazují, že tento jev byl historicky robustně doložen, i když jeho velikost se liší podle období, populace i typu testu. Novější studie z některých vyspělých zemí navíc naznačují stagnaci nebo dokonce mírný úpadkový trend (tzv. anti-Flynnův efekt), což činí otázku aktuálnosti norem ještě naléhavější.

Pro klinickou praxi to znamená, že použití zastaralých norem může vést k systematickému nadhodnocení nebo podhodnocení kognitivního výkonu pacienta.

Objektivita a férovost

Objektivita označuje míru, v níž výsledek nezávisí na osobě vyšetřujícího. Lze rozlišit objektivitu administrace (všem osobám je test zadáván stejně), objektivitu skórování (výsledky jsou vyhodnocovány podle jednoznačných pravidel) a objektivitu interpretace (závěry jsou odvozovány na základě standardizovaných postupů). Čím více postup vyžaduje jednoznačně definované instrukce a pravidla vyhodnocení, tím lépe lze objektivitu kontrolovat. U metod s větším podílem klinického úsudku je obzvlášť důležité ověřovat inter-rater reliabilitu.

Férovost je v moderních standardech (AERA, APA, NCME, 2014) samostatným základním principem testování. Zahrnuje absenci systematického zkreslení (bias) vůči určitým skupinám, přiměřený přístup k testování i odpovědnost za to, aby interpretace skórů nebyla zatížena konstruktově nerelevantními vlivy. Moderní psychometrické postupy — diferenciální fungování položek (DIF), měřicí invariance v konfirmační faktorové analýze — umožňují toto zkreslení detekovat a korigovat. Proto je třeba sledovat nejen validitu a reliabilitu, ale i možný bias a vhodnost použitých norem pro konkrétní skupinu osob.

Psychometrie v diagnostickém procesu

Psychometrické uvažování vstupuje do všech fází diagnostiky. Při formulaci zakázky pomáhá zvolit metodu s adekvátními důkazy pro daný účel. Při administraci pomáhá udržet standardní podmínky a minimalizovat chyby na straně vyšetřujícího. Při vyhodnocení umožňuje přesný převod hrubých skórů na standardizované hodnoty s přihlédnutím k intervalu spolehlivosti. Při interpretaci vede k práci s intervaly nejistoty místo přehnaně definitivních závěrů a k rozlišování mezi statisticky a klinicky významným nálezem. Při formulaci závěru pomáhá přiměřeně komunikovat míru diagnostické jistoty.

Klinický úsudek a psychometrický přístup se proto nemají chápat jako protiklady, ale jako vzájemně se doplňující roviny kvalitní diagnostické práce. Psychometrické nástroje poskytují přesné měření dílčích charakteristik, zatímco klinický úsudek integruje tyto dílčí výsledky do celostního porozumění konkrétnímu člověku v jeho životním kontextu.

Slovníček klíčových pojmů

Pojem	Definice
Reliabilita	Konzistence skórů napříč replikacemi testovací procedury
Validita	Míra, v níž důkazy a teorie podporují zamýšlené interpretace skórů pro navrhované použití
SEM	Standardní chyba měření — odhad velikosti náhodné chyby individuálního skóru
CI	Interval spolehlivosti — intervalový odhad výsledku zatíženého chybou měření
SED	Standardní chyba rozdílu — chyba při porovnávání dvou skórů
CTT	Klasická teorie testování vyjádřená vztahem X = T + E
IRT	Teorie odpovědi na položku modelující vztah mezi latentní vlastností a odpovědí na položku
Normy	Referenční rámec odvozený z výkonu normativní skupiny
Objektivita	Nezávislost výsledku na osobě vyšetřujícího
Férovost	Požadavek, aby testování nebylo systematicky zkreslené vůči určitým skupinám
Flynnův efekt	Historicky doložený růst průměrných IQ skórů v čase vedoucí k zastarávání norem
DIF	Diferenciální fungování položek — metoda detekce zkreslení na úrovni položek
Omega (McDonaldovo)	Preferovaná míra vnitřní konzistence, která neklade předpoklad tau-ekvivalence položek

Doporučené zdroje

AERA, APA, & NCME (2014). Standards for Educational and Psychological Testing. Washington, DC: AERA. — Mezinárodně přijímaný referenční rámec pro validitu, reliabilitu, chybu měření a férovost. V roce 2024 bylo oznámeno zahájení práce na nové revizi.

Urbánek, T., Denglerová, D., & Širůček, J. (2011). Psychometrika: měření v psychologii. Praha: Portál. — Základní česká učebnice pokrývající klasickou i aplikovanou psychometrii.

Furr, R. M., & Bacharach, V. R. (2021). Psychometrics: An Introduction. 4th edition. Thousand Oaks: Sage. — Praktický a srozumitelný úvod do psychometrie v anglickém jazyce.

Václav Šnorek | Poslední aktualizace: březen 2026