Sigma statistikoje: kaip įvertinti, kad gauti duomenys yra reikšmingi?

Sigma

Toks klausimas iškyla beveik visuomet, kuomet tik eksperimento metu yra gaunami duomenys, kuriuos reikia įvertinti. Ar gauti rezultatai  yra pakankamai patikimi ir juos reikėtų vertinti kaip svarius?

Atsakymas susijęs ir su duomenų statistiniu reikšmingumu, ir tuo, kokius standartus naudoti jų vertinimui.

Kai kalbame apie duomenų statistinį reikšmingumą, paprastai  naudojamas matavimo vienetas yra standartinis nuokrypis, žymimas mažąja graikiška raide sigma  – σ. Jis suteikia informaciją apie tai, ar gauti duomenys yra susitelkę apie vieną vertę, ar yra labai išsisklaidę.

Daugeliu atvejų eksperimento rezultatai atitinka vadinamąjį normalųjį skirstinį. Pavyzdžiui, jei jūs mesite monetą 100 kartų ir skaičiuosite, kiek kartų ji atsivers herbu, o kiek skaičiumi, vidurkis turėtų būti 50. Bet jei jūs pakartosite šį veiksmą 100 kartų, tai yra mesite monetą šimtą kartų po šimtą, viso dešimt tūkstančių kartų, o po kiekvieno šimto metimų užrašysite gautą rezultatą, jis bus gana įvairus. Kartais po 50 kartų iškris skaičius ir herbas, kartais 49 kartus herbas, o 51 skaičius. Pasitaikys, kad herbas iškris 45 kartus, o herbas – 55. Tačiau beveik nebus atvejų, kuomet herbas iškris tik 40, o skaičius – 60 kartų.

Šiuos rezultatus atidėjus grafike, gautume gerai žinomą kreivę, vadinamą Gauso arba varpo formos kreive, kurioje nuo maksimumo – vidurkio – į abi puses nueina nuolaidūs šlaitai. Tai yra normalusis skirstinys.

Sigma

Nuokrypis leidžia įvertinti, kiek kiekvienas gautas rezultatas yra nutolęs nuo vidurkio. Pavyzdžiui, rezultato 47 nuokrypis nuo vidurkio – 50 –  yra 3. Standartinis nuokrypis yra kvadratinė šaknis iš visų nuokrypių kvadratų sumos. Kvadratu keliama, norint panaikinti neigiamus skaičius – normaliojo skirstinio atveju sudėjus visus nuokrypius (nepakeltus kvadratu), visuomet gautume skaičių, artimą nuliui.

Grafike nubrėžus dvi vertikalias linijas, nutolusias į abi puses nuo vidurkio vieno standartinio nuokrypio (arba vienos sigmos) atstumu, į išskirtą plotą patektų 68 procentai visų duomenų taškų. Nubrėžus vertikalias linijas dviejų sigmų atstumu nuo vidurkio, plote būtų jau 95,4 procentai duomenų, o trijų sigmų atstumu – 99,7 procentų duomenų.

Taigi, kada gautas matavimų ar mokslinių tyrimų rezultatas – vienas taškas šioje kreivėje yra laikytinas reikšmingu?

Čia ir padeda standartinis nuokrypis. Jei duomenų taškas yra nutolęs per keletą standartinių nuokrypių nuo tiriamo modelio vidurkio, tai yra pakankamai tvirtas įrodymas, kad gauta reikšmė yra nesuderinama su šiuo modeliu.

Tačiau kaip naudoti šį kriterijų, priklauso ir nuo situacijos, nes statistikoje yra daug vietos ir kūrybiškumui, ir, deja, klaidoms.

Pavyzdžiui, atliekant viešosios nuomonės tyrimus, paprastai laikoma, kad dviejų standartinių nuokrypių nuo vidurkio paklaida yra priimtina, nes ji suteikia pakankamai svarų – 95 procentų pasikliovimo lygį.

Tai reiškia, kad, pavyzdžiui, jei viešosios nuomonės tyrimo metu buvo apklausta 2000 atsitiktinai parinktų žmonių, ir 20 procentų jų pasakė, kad balsuos už antrąjį kandidatą, tuomet yra 95 procentų tikimybė, kad balsavimo metu nuo 15 iki 25 procentų žmonių balsuos už šį kandidatą.

Žinoma, tai taip pat reiškia, kad 5 procentai rezultatų būtų ne dviejų sigmų intervale. Tokia paklaida dažniausiai laikoma priimtina viešosios nuomonės apklausose, bet ji gali visai netikti eksperimentams, tiriantiems sudėtingas sistemas ar reiškinius.

Dažnai moksle penkių sigmų riba laikoma tvirtu patvirtinimu, kad rezultatas atitinka teoriją – tik vienas matavimas iš milijono yra atsitiktinis.

Tačiau 2011 metų rugsėjo mėnesį Europos branduolinių mokslinių tyrimų organizacija (CERN) paskelbė aptikusi neutrinus, kurie skriejo greičiu, didesniu nei šviesos. Matavimų paklaida buvo mažesnė nei šešios sigma. Todėl rezultatai atrodė labai patikimi, nors visiškai prieštaravo teorijoms.  Tačiau ši sensacija greitai buvo paneigta – paaiškėjo, kad matavimų klaidą nulėmė blogai veikiantis šviesolaidinis laikmatis.

Taigi, net šešių sigmų paklaida vis dar gali būti netinkama, jei lieka nepastebėtos kokios nors svarbios aplinkybės, nors šešios sigma reiškia, kad tik vienas matavimas iš milijardo yra kitoks –  iškrintantis iš visų kitų rezultatų.

Atliekant kitą CERN eksperimentą – ieškant Higso bozono, pradinių rezultatų paklaida buvo tik 2,3 sigma  – tai yra vienas matavimas iš penkiasdešimties galėjo būti lemtas atsitiktinės paklaidos. Tačiau šiame eksperimente buvo remiamasi pripažinta vadinama Standartine fizikos teorija, todėl dauguma fizikų manė, kad gautas  rezultatas gali būti teisingas, nepaisant daug mažesnio statistinio patikimumo lygio. Vėlesni tyrimai tai ir patvirtino.

Taigi reikia nepamiršti, kad jei kokie nors tyrimų rezultatai atitinka statistinę reikšmingumo apibrėžtį, tai dar gali visai nereikšti, kad jie tokie ir yra.