Academix Revue Povědomí o psychometrii je u nás dosud slabé
9.
Měření inteligence

Povědomí o psychometrii je u nás dosud slabé

Filip Smolík je vedoucí vědecký pracovník Psychologického ústavu AV ČR a profesor psychologie na Filozofické fakultě UK. Je odborným vedoucím Laboratoře behaviorálních a lingvistických studií, společného pracoviště PsÚ AV a FF UK a tajemníkem Mezinárodní asociace pro studium dětského jazyka (International Association for the Study of Child Language). Publikoval v tuzemských i zahraničních odborných časopisech mimo jiné o rozvoji jazykových kompetencí u malých dětí a psychodiagnostických metodách. Podílel se například na vývoji diagnostických nástrojů Dotazník vývoje komunikace Dovyko, Baterie diagnostických testů jazyka, Stručný dotazník dětského slovníku (SDDS 16-42) nebo Receptivní slovník & opakování vět (TRS-OPAV). Je spoluautorem knihy Vývoj jazykových schopností v předškolním věku (Praha: Grada, 2019; spolu s Gabrielou Seidlovou Málkovou).

Academix Revue Povědomí o psychometrii je u nás dosud slabé

Rozhovor s psychologem a odborníkem na vývoj jazyka u dětí Filipem Smolíkem o měření v psychologii, prvcích kvalitního psychometrického testu a nárocích, které je třeba klást nejen na jednotlivé metody, ale na vědy o společnosti a společnost samotnou.

Antonín Handl: Ve své praxi se věnujete vývoji gramatických a obecněji jazykových znalostí a tématům s nimi spojeným – včetně například diagnostiky rizik opožděného vývoje jazyka u dětí. S kolegyněmi a kolegy se podílíte mimo jiné na rozvoji diagnostických metod. Pozorujete v posledních letech významné posuny v psychometrických, případně psychodiagnostických metodách? Případně jaké?

Filip Smolík: Tady je třeba rozdělit dění u nás a dění ve světě obecně, a také v různých oblastech vývoje metod a v tom, jak jim rozumí veřejnost.

U nás i ve světě je nyní pochopitelně tendence k digitalizaci a automatizaci diagnostických metod a vývoji diagnostických metod pro tablety a podobná zařízení. To má spoustu výhod oproti prezentaci typu tužka–-obrázek–papír. Omezuje se tím možnost chyb na straně administrátora (toho, kdo test zadává). Jsou možné komplikovanější varianty průběhu testu, včetně rozhodování o dalším průběhu testu na základě předchozích odpovědí. To otevírá dveře běžnějšímu použití adaptivních testů, které průběžně odhadují měřenou charakteristiku a administrují jen tolik úkolů či otázek, aby se dosáhlo požadované míry přesnosti. Často se tak dá doba testování výrazně zkrátit.

Jinak stále dochází k vývoji citlivějších metod a postupů pro hodnocení dat: každá statistika je postavená na určitém zjednodušení, ale s dostupností výkonných počítačů mohou být tato zjednodušení blíže realitě, protože se dají používat komplikovanější a výpočetně náročnější matematické metody.

...stále dochází k vývoji citlivějších metod a postupů pro hodnocení dat: každá statistika je postavená na určitém zjednodušení, ale s dostupností výkonných počítačů mohou být tato zjednodušení blíže realitě, protože se dají používat komplikovanější a výpočetně náročnější matematické metody.

U nás je bohužel povědomí o psychometrii a jejím zásadním přínosu psychodiagnostice pořád slabé, zejména mezi lidmi, kteří nepůsobí v psychologii. To je problém, protože psychometrické postupy jsou důležité pro jakékoli měření u lidí, včetně vzdělávání, posuzování organizací a podobně. Ale v posledních asi 15 letech se situace výrazně zlepšila. Máme dobré psychometriky nejen mezi psychology, ale i mezi matematiky, což je důležité pro rozvoj oboru. Zvyšuje se i zájem mezi studenty – psychometrie je více chápána jako zásadní součást vzdělání v psychologii. Zároveň otevřená data a statistický software dovolují mnohem snadnější přístup k praktickému výcviku a porozumění metodám u studentů.

A. H.: Myslíte, že byste mohl stručně nastínit, jaká základní kritéria by měl splnit kvalitní psychometrický test?

F. S.: Ano. Musí mít doklady o validitě, reliabilitě a normy. Začnu od norem: měření v psychologii nebo vzdělávání je téměř vždy založené na srovnávání konkrétního výsledku (např. výsledku určité osoby v testu) s rozložením výsledků v populaci. Různými způsoby v podstatě říkáme například, že výsledek je na úrovni průměru, nebo že je lepší než u 97 procent populace, nebo naopak je lepší pouze než u 6 procent populace. Abychom toto porovnání mohli provést, musíme nasbírat velké množství dat v populaci, k níž výsledky chceme vztahovat: typicky obyvatelé ČR ve srovnatelném věku, příp. stejného pohlaví. Aby metoda umožnovala takové srovnání s populací, musíme ji zadat velkému množství lidí z této populace: minimálně stovkám, ideálně tisícům. Dobrá metoda pro obecné použití a diagnostiku by měla mít k dispozici takovéto porovnání. Což je pochopitelně drahý a obtížný proces, který navíc není typicky hodnocen jako vědecký výsledek, i když se jedná o poměrně komplikovanou a přitom úzce specializovanou statistiku. Motivace k takovým projektům je tedy omezená, což třeba u nás znamená, že metod s dobrými normami je málo. Metoda, která nemá normy, může pořád smysluplně měřit, když máme doklad validity a reliability, ale její použití je omezené na porovnávání lidí, které naměříme.

Validita metody znamená, že metoda měří to, co má měřit. To se dokládá nejrůznějšími způsoby. Jednak shodou odborníků a věcným posouzením úloh či zadání. Dále pak porovnáním s jinými metodami, které by měly měřit něco podobného, nebo naopak něco úplně jiného. Nová metoda obvykle nemá být stejná jako nějaká předchozí, ale měla by vykazovat očekávanou míru souvislosti s jinými metodami. Pak se dá také posuzovat, do jaké míry metoda předvídá nějaké jiné výsledky: testové výsledky v budoucnu, ale také životní fakta jako školní prospěch, úspěšnost v práci nebo nemocnost. V praxi je obvykle nemožné využít všechny tyto postupy najednou, ale zároveň je vhodné, aby autoři dokládali validitu nějakou kombinací způsobů, nebo alespoň považovali za svůj závazek, že relevantní data budou sbírat a zveřejňovat.

Jako poslední zmiňuju reliabilitu, tedy spolehlivost. Ta se dá chápat jako míra šumu, náhodné chyby v měření. Souvisí jednak s tím, zda všechny části metody měří totéž, a také s tím, jak přesně je možné danou věc měřit, včetně délky, počtu úloh apod. Test s nedostatečnou reliabilitou nemůže být validní, protože jeho výsledky jsou příliš náhodné.

A. H.: Co byste řekl, že nejvíce schází výzkumu psychometrických a psychodiagnostických metod v České republice?

F. S.: Největší problém je nezájem a neinformovanost potenciálních uživatelů a jejich zákazníků, tedy především státu, ale třeba velkých zaměstnavatelů, zdravotních pojišťoven, neziskovek apod. Obecněji vzato je to slabé povědomí o metodách psychologie: katedru psychologie má téměř každá větší vysoká škola, typicky jako součást didaktické přípravy, ale principy měření v psychologii se tam učí zřídka. Je to neblahé dědictví minulosti, kdy si psychologové příliš úzkostlivě snažili chránit diagnostické metody před nekvalifikovaným používáním. Nežádoucím důsledkem však je, že ani profesionálové ze spřízněných oborů nyní nemají představu o principech, možnostech a mezích psychometrických (edukometrických atd.) metod.

Obecněji vzato je to slabé povědomí o metodách psychologie: katedru psychologie má téměř každá větší vysoká škola, typicky jako součást didaktické přípravy, ale principy měření v psychologii se tam učí zřídka. Je to neblahé dědictví minulosti, kdy si psychologové příliš úzkostlivě snažili chránit diagnostické metody před nekvalifikovaným používáním.

A. H.: Jaký posun ve standardizaci psychometrických postupů obecněji v posledních letech považujete za zvlášť relevantní?

F. S.: V opravdu posledních letech mě nic nenapadá, ale dejme tomu od r. 2000 se díky zvýšenému výkonu běžných počítačů staly běžnými metody, které dřív byly komputačně příliš náročné, to jsem zmiňoval. To má spoustu pozitivních důsledků. Další je možnost díky elektronické administraci a internetu průběžně sbírat data z praxe, a tak neustále vylepšovat metody.

A. H.: Máte v tomto směru nějaké konkrétní ambice?

F. S.: Jsem původně experimentalista a diagnostické metody vyvíjím spíše z nutnosti. Z podobných důvodů se snažím šířit osvětu, v mém případě často mezi logopedy. Nicméně rád pomáhám s vývojem širšího repertoáru metod formou nějaké inspirace, supervize nebo doporučení. Nejen v diagnostice komunikačního vývoje, ale i obecného vývoje poznávacích schopností a temperamentu by byla zapotřebí řada metod různé úrovně podrobnosti, tak aby praktici měli na výběr podle potřeb a kontextu.

Věcně mě nyní zajímá role gramatických a slovníkových dovedností při diagnostice jazyka. Slovní zásoba je hodně citlivá na nedostatek podnětů v okolí dítěte, např. při sociálním znevýhodnění, to by v případě gramatických a strukturních dovedností nemuselo hrát tak velkou roli: potřebujeme to ale ověřit v češtině a najít vhodné úlohy.

A. H.: Jelikož se věnujete mimo jiné testování kognitivních schopností, nevyhnu se otázce na hojně diskutované téma, a to tuzemské přijímací testy. Jak se v posledních letech měnilo pojetí přijímacích testů na střední a vysoké školy? Odpovídá laický dojem, že se posouvají směrem ke zkoušení tzv. obecných studijních předpokladů, skutečnosti?

F. S.: Nemůžu se vyjadřovat k tomu, jak se měnilo pojetí přijímacích testů, protože to v detailu nesleduju, ale dojem mám podobný. A považuji to spíše za pozitivní vývoj, protože pokud se zaměříme na nějaký úzký katalog znalostí, pak budou výsledky ještě mnohem víc záviset na konkrétní zkušenosti daného dítěte, zaměření a kvalitě školy, odkud dítě přichází. A na mnoha vyloženě náhodných faktorech. Nicméně klíčová věc by byla konkrétní definice toho, co chceme měřit – formulovaná ve spolupráci s odborníky na psychometrii, resp. edukometrii, aby takové zadání bylo realistické. Můj dojem z diskusí mezi učiteli, novináři a dalšími je, že by chtěli něco, co prostě nejde splnit. Každé posuzování je založené na určitém malém vzorku chování a dovedností dítěte a metodám se někdy vyčítá, že neberou v úvahu celek jeho osobnosti, možnost uplatnění v životě apod. Ale nikdo neříká, jaká je alternativa. Představa, že ústní pohovor vám o dítěti řekne víc než test, je ve většině případů prostě chybná. Naopak pokud chceme lepší testy, musíme lépe formulovat, co chceme posoudit.

A. H.: A možná jednodušeji: jak na vás působí častá kritika CERMAT a jeho přijímacích testů?

F. S.: Záleží na tom, co je kritizováno. Kritiku ze strany psychometriků zcela sdílím, kritiku ze strany mnoha učitelů a veřejnosti naopak považuji za nepodloženou.
Konkrétně: často se kritizuje náplň a formulace úloh, ale třeba Hynek Cígler ukázal, že úlohy fungují velice solidně, zejména tedy, že úlohy zadávané v jednom předmětu měří stejnou věc. Pochopitelně se může stát, že formulace úlohy je diskutabilní, ale zjevně se v testech nevyskytují zásadně zavádějící úlohy. Někdy se kritizuje, že se tam vyskytují příliš obtížné úlohy, ale to je jako kritizovat měřicí pásmo za to, že je moc dlouhé.

Co je na testech CERMAT špatně, a to velmi zásadně, je neporovnatelnost mezi různými vlnami testování. V novinách čteme formulace typu „letošní děti měly horší výsledky než děti v loňském roce“, ale to je nesmysl. Bohužel se takových výroků dopouštějí i funkcionáři CERMAT. Současné testy ale toto nedovolují posoudit. Velké prostředky investované do přípravy metod jsou tak z velké části nepoužitelné pro výzkum fungování vzdělávání jako celku a přijdou vniveč. Je to jeden z mnoha případů plýtvání potenciálem a znalostmi společenských věd u nás.

A. H.: V našem čísle se vyskytují také texty kritické ke způsobům, jakými se psychometrické nástroje někdy používají ve společensko-politické rovině. Určitá skepse se nabízí už kvůli historickým případům, kdy psychometrické metody sloužily k vytváření hierarchií lidí nebo sloužily k vyloučení určitých lidí z „dobré společnosti“. Vidíte podobná rizika také v současnosti?

F. S.: Riziko hierarchizace je zde vždy, bez ohledu na to, jestli se k němu používají metody behaviorálních věd, nebo něco jiného. Jako každý mocný nástroj je psychometrie dobrý sluha, ale zlý pán. Takže texty, které kritizují psychometrii za to, jak jsou její výsledky někdy chybně či demagogicky využívány, považuji za pláč na špatném hrobě. Navíc se nedomnívám, že se to týká nějak specificky psychometrie, resp. měření duševních vlastností, ale všech věd o lidech.

Zároveň je důležité rozlišovat mezi psychologickou či kognitivní teorií a psychometrií. Psychometrie (nebo edukometrie apod.) je soubor technických postupů, ale interpretace výsledků je věc širší vědy. Takže někdy vůbec není problém ve špatném použití psychometrie, ale ve vědecky chybné nebo neadekvátní interpretaci, chybné výstavbě teorie a podobně. Výsledky psychometrických metod se nedají interpretovat bez ohledu na to, co víme o vzájemných vztazích mezi biologií, společností, prostředím a obecnými zákonitostmi učení, teorie informace a podobně.

Psychometrie (nebo edukometrie apod.) je soubor technických postupů, ale interpretace výsledků je věc širší vědy. Takže někdy vůbec není problém ve špatném použití psychometrie, ale ve vědecky chybné nebo neadekvátní interpretaci, chybné výstavbě teorie a podobně. 

Jedna věc je velmi důležitá: v psychologii často měříme věci, jejichž povahu moc dobře neznáme, případně je předmětem diskusí a polemik. Na to je třeba vždy brát ohled při interpretaci. Praktické využití metod se musí opírat o velmi pragmatický přístup k věci a nevytvářet dojem, že proniká do lidských hlubin – většinou je to spíš způsob, jak do nich nahlédnout. Je to jako dobrý mikroskop: můžeme vidět spoustu věcí, ale smysl dávají až ve chvíli, kdy jim trochu rozumíme.

A. H.: Další z kritik cílí na chápání lidských kognitivních kompetencí jako něčeho, co člověka vyvyšuje nad zvířata. Opět nemusíme jít přímo do politiky – samo měření kompetencí jistě neodpovídá za naše nakládání s jinými živočišnými druhy. Jak se nicméně stavíte k otázce samotné výlučnosti? V rozhovoru pro Český rozhlas jste uvedl, že člověk podle dosavadního zkoumání nakládá s jazykem zcela specificky, například od útlého věku používá jazyk neutrálně, jen v rámci „hlasové hry“. Mohl byste tuto tezi rozvést?

F. S.: Předpokládám, že odlišnost člověka od zvířat není nic diskutabilního nebo kontroverzního. Obvykle spíš musím upozorňovat, na to, že člověk je živočich a s ostatními živočichy má mnoho společného, a to i v chování a jeho organizaci a řízení. Nicméně náš kognitivní systém nám dovoluje mnohem efektivnější sběr zkušeností a jejich předávání. V tom hraje roli určitě do velké míry lidský jazyk a k tomu se vztahoval uvedený příklad z výzkumu Kima Ollera z Vanderbilt University. Ale nemyslím, že to příliš souvisí s psychometrií. Jak už jsem řekl, psychometrie umí měřit jen tak, že srovnává lidi mezi sebou, přičemž i mezi lidmi považujeme za relevantní pouze srovnání s lidmi ze srovnatelné skupiny (věk, kultura, jazyk). K otázce výlučnosti lidí: to vnímám jako hodnotovou a řekněme filozofickou otázku. V nějakém ohledu jsou lidé stejně výluční jako psi nebo myši, každý druh v něčem jiném. Ale psychometrie k tomu nemá moc co říct.