Tiede ja teknologia

Todennäköisyyslaskenta ja vasta-aineet

Mihin matematiikan tunnilla opittuja asioita tarvitaan? Korona-aikana tähän löytyy paljon vastauksia aina eksponentiaalisesta kasvusta ennustemalleihin. Yksi ajankohtainen ilmiö ovat vasta-ainetestit ja niihin liittyvät todennäköisyydet.

Verinäytteestä voidaan tutkia, onko henkilöllä pandemian aiheuttaneen SARS-Cov-2 –viruksen vasta-aineita. Niiden löytyminen on merkki sairastetusta virusinfektiosta. Testitulosten luotettavuus riippuu kuitenkin – ehkä hieman yllättäen –  siitä, kuinka suurella osalla väestöstä on vasta-aineita.

Sama ilmiö liittyy myös muihin lääketieteellisiin testeihin. Asia on hahmotettavissa lukion todennäköisyyslaskennan pohjalta ja saattaa kiinnostaa esim. lääketieteen opinnoista haaveilevaa lukiolaista. Sen käsitteleminen on hyvä tapa tuoda esiin, miten monella alueella matematiikkaa sovelletaan. Lisäksi se toimii muistutuksena siitä, kuinka matematiikka auttaa ymmärtämään ilmiöitä, joissa arkinen intuitio vie harhaan.

Tarkkuus ja herkkyys

Lääketieteellisiin testeihin liitetään kaksi arvoa: herkkyys ja tarkkuus. Herkkyys on todennäköisyys sille, että testi tunnistaa positiivisen näytteen (eli näytteen jossa on vasta-aineita), ja tarkkuus todennäköisyys sille, että testi tunnistaa negatiivisen näytteen (näytteen jossa ei ole vasta-aineita). Erään markkinoilla olevan SARS-Cov-2 –vasta-ainetestin herkkyys on n. 97% ja tarkkuus n. 96%. Tämä tarkoittaa, että testi antaa 97% todennäköisyydellä positiivisen (eli oikean) tuloksen verinäytteelle, jossa on vasta-aineita, ja 96% todennäköisyydellä negatiivisen (eli oikean) tuloksen näytteelle, jossa ei ole vasta-aineita.

Äkkiseltään ehkä kuvittelisi, että näillä luvuilla testitulos on varsin luotettava. Todennäköisyyslaskenta on kuitenkin epäintuitiivista. Asian ydin on siinä, että on erotettava toisistaan seuraavat kysymykset:

  1. Millä todennäköisyydellä saan positiivisen testituloksen, jos veressäni on vasta-aineita?
  2. Millä todennäköisyydellä veressäni on vasta-aineita, jos saan positiivisen tuloksen?

 
Testin herkkyys antaa vastauksen ensimmäiseen kysymykseen, mutta toinen kysymys on vaikeampi.

Tarkastellaan tilannetta, jossa vasta-aineita on prosentilla väestöstä. Nyt 100 testihenkilön joukossa keskimäärin yhdellä on vasta-aineita. Tämä saa 97% todennäköisyydellä positiivisen testituloksen. Niistä 99 ihmisestä, jotka eivät ole sairastaneet tautia, testi tunnistaa negatiivisiksi noin 96% eli 95 ihmistä. Loppujen neljän kohdalla testi antaa virheellisesti positiivisen tuloksen. Positiivisen tuloksen saaneita on siis 5, joista vain yksi on sairastanut taudin. Todennäköisyys sille, että positiivinen tulos pitää paikkansa on $\frac{1}{5}=20\%$.

Kun taudin on sairastanut 50% väestöstä, arvio näyttää toisenlaiselta. Silloin 100 henkilön otoksessa on noin 50 taudin sairastanutta. Heistä 97% eli n. 49 saa positiivisen tuloksen. Niistä 50 henkilöstä, jotka eivät ole sairastaneet, 96% eli n. 48 saa negatiivisen tuloksen. Oikeita positiivisia on siis 49 ja vääriä positiivisia 2. Positiivinen tulos pitää paikkansa todennäköisyydellä $\frac{49}{49+2}=96\%$.

Positiivisen tuloksen luotettavuus kasvaa, kun suurempi osa väestöstä sairastaa taudin. Voi tuntua hämmentävältä, että muiden vasta-aineet vaikuttavat oman tuloksen luotettavuuteen. Todennäköisyysilmiönä tämä eroaa kuitenkin esim. nopanheittojen sarjasta siinä, että tapaukset riippuvat toisistaan. Voin saada testistä paikkansapitävän positiivisen tuloksen vain, jos veressäni on vasta-aineita. Niinpä oikean positiivisen todennäköisyys riippuu todennäköisyydestä sille, että minulla on vasta-aineita.  Ensimmäisessä esimerkissä jälkimmäinen on 1%, toisessa 50%.

Jos yllä esitetyt argumentit epäilyttävät, voi asiasta varmistua myös klassisen todennäköisyyden kautta. Todennäköisyys sille, että saa testistä oikean positiivisen, on sama kuin todennäköisyys sille että 1) veressä on vasta-aineita (1%) JA 2) testi löytää vasta-aineet (97%). Eli $0,01 \cdot 0,97=0,0097=0,97\%$. Väärän positiivisen todennäköisyys on todennäköisyys sille, että 1) veressä ei ole vasta-aineita (99%) JA 2) testi antaa väärän tuloksen ($100\%-96\%=4\%)$, eli $0,99 \cdot 0,04=0,0396=4,0\%$. Tälläkin tavalla huomataan, että esiintyvyyden ollessa alhainen väärä positiivinen on todennäköisempi kuin oikea.

Luotettavuutta toistojen kautta

Ongelmaa voi korjata testaamalla positiivisen tuloksen saaneet uudelleen. Jos vasta-aineiden esiintyvyys koko väestössä on 1%, on niitä 20 prosentilla positiivisen tuloksen saaneista. Heidän joukossaan esiintyvyys on siis 20%. Siitä saadaan laskettua todennäköisyys positiivisen tuloksen paikkansapitävyydelle aivan kuten aiemminkin. Tulokseksi tulee 86% (yksityiskohdat jätetään harjoitustehtäväksi).

On kuitenkin syytä muistaa, että lääketieteelliset testit eivät ole puhdasta todennäköisyyslaskentaa. Niissä voi tapahtua systemaattisia virheitä, jotka vain toistuvat testiä uusittaessa. Yksi esimerkki on tilanne, jossa jonkin muun viruksen vasta-aineet aiheuttavat väärän positiivisen.

Positiivisen tuloksen luotettavuus kasvaa kun esiintyvyys kasvaa, mutta samalla pienenee negatiivisen tuloksen luotettavuus. Jos vasta-aineiden esiintyvyys on 99%, testin tarkkuus 96% ja herkkyys 97%, ei sadasta testihenkilöstä kukaan todennäköisesti saa väärää positiivista, mutta väärän negatiivisen saa keskimäärin kolme ihmistä. Tällöin negatiivinen testitulos pitää paikkansa todennäköisyydellä $\frac{1}{4}=25\%$.

Vaikka testitulos voi olla yksilön kohdalla epäluotettava, voi satunnaisotannalla tehdyillä vasta-ainetesteillä silti saadaan suhteellisen luotettavia arvioita siitä, kuinka suurella osalla koko väestöstä on vasta-aineita, kunhan otoskoko on riittävän suuri. Tulos heittää vähän, mutta kun testin herkkyys ja tarkkuus tiedetään, pystytään niiden avulla laskemaan tarkempi arvio. Tällaista väestötason tietoa puolestaan voi käyttää sen arvioimiseen, kuinka luotettavia testit ovat yksilön kohdalla.

Bayesin teoreema

 Kun kysytään, millä todennäköisyydellä positiivinen testitulos pitää paikkansa, lasketaan itse asiassa todennäköisyyttä sille, että veressä on vasta-aineita, kun toteutuu ehto, joka sanoo että tulos on positiivinen. Ehdollisiin todennäköisyyksiin liittyviä kysymyksiä tutki 1700-luvulla brittiläinen pastori ja matemaatikko Thomas Bayes. Hänen mukaansa on nimetty Bayesin teoreema, jonka kautta niitä voidaan tarkastella.

Ehdollista todennäköisyyttä merkitään $P(A|B)$ (todennäköisyys, että $A$ tapahtuu, kun ehto $B$ on voimassa). Bayesin teoreema sanoo, että

$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}.$$

Lasketaan tästä todennäköisyys positiivisen testituloksen pätevyydelle ensimmäisessä esimerkissä, jossa vasta-aineiden esiintyvyys oli 1%. Merkitään kirjaimella $A$ tapahtumaa ”Veressä on vasta-aineita” ja kirjaimella B tapahtumaa ”Testitulos on positiivinen”.  Tällöin $P(A)=0,01$ (todennäköisyys sille, että veressä vasta-aineita) ja $P(B|A)=0,97$ (todennäköisyys sille, että testitulos on positiivinen, mikäli veressä on vasta-aineita – eli testin herkkyys).

Jotta voitaisiin laskea haluttu todennäköisyys Bayesin teoreeman antamasta kaavasta,  on vielä laskettava $P(B)$ eli todennäköisyys sille, että testitulos on positiivinen. Se saadaan laskemalla yhteen oikean ja väärän positiivisen tuloksen todennäköisyydet (kts osio Tarkkuus ja herkkyys): $P(B)=0,97 \cdot 0,01+(1-0,96)(1-0,01)$. Eli

$$P(A|B)=\frac{0,97 \cdot 0,01}{0,97 \cdot 0,01+(1-0,96)(1-0,01)}=20\%.$$

Mutta miksi teoreema pitää paikkansa? Asian voi perustella seuraavasti. Todennäköisyyden, että sekä $A$ ja $B$ ovat voimassa yhtä aikaa, voi laskea kahdella tavalla. Koska tiedetään, että todennäköisyys tapahtumalle $B$ kun $A$ on voimassa, on $P(B|A)$, saadaan todennäköisyys sille, että molemmat ovat voimassa kertomalla tapahtuman $A$ todennäköisyys tällä todennäköisyydellä: $P(A \textrm{ ja } B)=P(A) \cdot P(B|A)$. Toisaalta tiedetään myös, että todennäköisyys tapahtumalle $A$ kun $B$ on voimassa, on $P(A|B)$, eli $P(A \textrm{ ja } B)=P(B) \cdot P(A|B)$. Siispä $P(B)P(A|B)=P(A)P(B|A)$, ja jakamalla puolittain termillä $P(B)$ saadaan Bayesin teoreeman kaava.

 

Kaisa Kangas
FT, Helsingin yliopiston matematiikan ja tilastotieteen osasto

 

Aloituskuva: https://unsplash.com/photos/egT3xtDu9DQ

Print Friendly, PDF & Email
Takaisin etusivulle