Site name

Zloupotreba statistike u nauci

* Na osnovu nekog uzorka mi sa statistikom možemo da pokažemo koliko su neke teze verovatne, ali ne i to da li su istinite

"Postoje obične laži, opasne laži i statistika!" Ova izreka se pripisuje Mark Tvenu, a može se čuti kad neko uz pomoć brojeva pokušava da opravda svoj slab argument.

4

Piše: Damjan Krstajić

28. jul 2017. 17:00

Nažalost, danas u doba hiperprodukcije podataka i naučnih radova ova izreka ima smisla i za današnju nauku.

Džon Joanidis (John Ioannidis), grčko-američki lekar i trenutno profesor na Stenford univerzitetu, pre desetak godina je uzburkao naučnu javnost sa radom "Zašto su nalazi većine objavljenih istraživanja pogrešni?" Pokazao je da su dizajni većine naučnih studija takvi da su njihovi nalazi više verovatno pogrešni nego tačni. Kako je to moguće? Joanidis zalazi u detalje u svom radu, ali jednostavan odgovor je pogrešna upotreba statistike u nauci. Ono što mali broj ljudi razume je da se uz pomoć statistike ne može dokazati nijedna teza. Na osnovu nekog uzorka mi sa statistikom možemo da pokažemo koliko su neke teze verovatne, ali ne i to da li su istinite. Ako na osnovu uzorka dobijemo da je neka teza malo verovatna to automatski ne znači da je ona netačna, i obratno.

Džud Perl (Judea Pearl), dobitnik Turingove nagrade za svoj doprinos metodologiji kauzaliteta, sa pravom navodi da nema veće zamke za naučni progres od preovladajuće prakse fokusiranja na statistiku, dok se uzročnost ostavlja na milost i nemilost našoj intuiciji i zdravom razumu. Koliko puta ste preko medija mogli da čujete da su najnovija istraživanja pokazala da ako uzmete XYZ onda ćete smanjiti rizik od ABC. Najčešće ta saopštenja počinju sa: "Naučnici sa univerziteta NN su dokazali da ...". Ako pretpostavimo da su naučnici sa univerziteta NN pošteni i nisu lažirali svoje nalaze (mada ih ima dosta i kod nas i u svetu koji to rade), postavlja se pitanje gde oni greše. Statistički gledano, oni ne greše, podaci ne lažu. Međutim, ako oni nisu pokazali uzročno posledičnu vezu između XYZ i ABC, što uopšte nije lako, sve je to i dalje pod znakom pitanja.

Evo dva primera. U prvom primeru, naučnici su posmatrali ljude u zavisnosti od toga na koju nogu ujutru ustaju. Na osnovu dobijenih podataka ustanovili su da oni koji ustaju na levu nogu imaju 20 odsto manje rizika za dobijanje raka creva u odnosu na one koji ustaju na desnu nogu. Drugi primer je veoma sličan, samo što su istraživači ovaj put odlučili da posmatraju ljude u zavisnosti od toga da li uzimaju vitamin E suplemente ili ne, i dobili su da se unosom vitamina E smanjuje rizik od srčanog udara za 40 odsto. Koja je razlika između ova dva primera? Statistički gledano nema razlike. Prvi primer je hipotetički i njega nijedan naučni časopis neće ni da uzme u razmatranje, dok drugi primer je realan i objavljen.

Velika je razlika između naučnih opservacija i dokazivanja uzročnosti. Ako se sticajem prilika desilo da jedna grupa ljudi, bilo da ustaju na levu nogu ili da uzimaju vitamin E supIemente, takođe se i zdravije hrani od druge grupe, vi ćete nažalost imati faktor zbunjivanja (en. confounding factor) u uzorku koji dovodi do statistike koja favorizuje jednu podgrupu u odnosu na drugu. Problem je u našem pogledu na uzročnost, ili bolje rečeno u našoj lakovernosti da ne tražimo uzrok, jer kasniji klinički trajali su pokazali da uzimanje vitamin E suplementa ne smanjuje rizik od srčanog udara.

Kao statističar po struci, naravno da volim da vidim kvalitetnu statistiku, ali više cenim naučna dela sa dobro objašnjenom uzročno posledičnom vezom i slabom statistikom, nego radove sa sjajnom statistikom i šupljim objašnjenima. Šta više, iz iskustva mogu reći da radovi sa puno statistike su najčešće tanki sa dokazima, inače im ne bi trebalo toliko statistike. Pronalaženje uzročno posledičnih veza je mukotrpan i dugotrajan proces bez garancija za uspeh. Za očekivati je da na tom putu koristimo statistiku kao vodilju, ali ona sama po sebi ne može da bude krajnji cilj, niti da zameni uzročnost. Zahvaljujući prethodno pomenutom Džudu Perlu, uzročnost je ponovo dobila značaj u nauci i njegove knjige su vredan putokaz za sve istraživače.

Istorija nauke nas uči poniznosti. Šta su sve naučnici tvrdili pre sto godina, a danas znamo da ne važi? Nije li za očekivati da će i naučnici početkom 22. veka isto tako da gledaju na današnja naučna dostignuća. Ono što nam međutim Joanidis ukazuje je da za većinu objavljenih nalaza koji koriste statistiku u svojoj analizi mi već danas možemo da kažemo da su pod znakom pitanja. Preovlađuje utisak da nema dovoljno kritičke svesti među naučnicima po pitanju pravilne upotrebe statistike u istraživanjima. Najveću odgovornost za to snose naučnici koji, svesno ili nesvesno, zloupotrebljavaju statistiku, ali i mi statističari koji na to nedovoljno ukazujemo.

Kad sledeći put čujete "Naučnici sa univerziteta NN su dokazali da ...", zapitajte se da li je uzrok objašnjen. To je dovoljno za početak.

Autor je diplomirani matematičar za verovatnoću i statistiku

povezane vesti

Bebe i poslanici

0

Piše: Voja Radovanović

Zarđala kašika u Evropi

1

Piše: Srđan Milivojević

komentari (4)

* Sva polja su obavezna

Potvrdite

Slanjem komentara slažete se sa Pravilima korišćenja ovog sajta.

Sokolica

29. jul 2017.

Mozda ste ucinili malu nepravdu prema naucnicima; ispitati tzv. confoundning varijable je osnova istazivackog rada i prosto mi je nezamislivo da ih ne uzimaju u obzir, isto kao i to da korelacija ne znaci uzrocnost. Prosto, kriviti ih da ne ispunjavaju sto bi trebalo da bude deo regularnog procesa istrazivackog rada, je malo nefer. Naucnike, takodje, ne bi trebalo u potpunosti da krivimo za senzacionalisticke i pojednostavljene izvestaje o najnovijim istrazivanjima, vec novinare. Naucni radovi cesto sadrze zakljucak u formi: ukoliko uzmete X smanjiecte rizik od A pod uslovom Y i Z, i pod B i C okolnostima. Zarad clickbeita, novinari to objave kao: "Necete verovati, naucnici za Univerziteta u NN pronasli lek za AA!". Na sta, verujem, naucnici samo prevrnu ocima. Opet, sa druge strane, u kompetitivnoj atmosferi u kojoj se i nauka danas nalazi, nije retko da naucnici nategnu rezultate i p-vrednosti, da bi uspeli da objave radove u casopisima sa visokim impakt factorom i nabave dodatna sredstva za istrazivanja, te i oni delom snose odgovornost za senzacionalisticke naslove, ali su ipak oprezniji, naravno, u svojim zakljucivanjima od novinara i njihovih izvestaja. Ali mislim da je vazno da se skrene paznja na ovo o cemu pisete, i da je vazno da se statistika, logika i metodologija naucnih istrazivanja uvedu kao obavezni deo obrazovanja u oblasti nauka, narocito drustvenih, sto, cini mi se, nije slucaj na nasim fakultetima. I da svakako naucne institucije imaju statisticara u svojim timovima.

Statisticar

29. jul 2017.

Pored problema kauzaliteta, postoji i podjednako ozbiljan problem u modernim naucnim istrazivanjima a to su pretpostavke. One se vrlo cesto zloupotrebljavaju, posebno u drustvenim naukama, npr. ekonomiji ili finansijama. Iz besmislenih pretpostavki je cak lako proizvesti kauzalitet i dokazati ga jos lakse statisticki. A mnoge od tih nauka, zbog objektivnih poteskoca u izvodjenju ili ponavljanju eksperimenata, su prisiljene na pretpostavke. Cini mi se da bi u tim slucajevima, pazljiv citalac trebalo da prvo pogleda i sam istrazi i taj deo istrazivanja... A i o kvalitetu, izvorima podataka ili njihovom izvodjenju bi moglo jos vise da prica...

fizicar

29. jul 2017.

Bravo za tekst. Neuobicajena, ali izuzetno vazna tema. Zamislite samo kakva je zloupotreba statistike u politici, pa i u ekonomiji.

Milan

30. jul 2017.

Ovo je tema o kojoj se zaista može dosta pisati, ali čini mi se da je tekst mogao biti bolje napisan. Tačno je da se statistika zloupotrebljava, ali nije tačno da je to u skorije vreme, termin ''''data pusher'''' je skovan još pre četrdeset godina i odnosi se na ljude koji znaju kako se tumači statistika ali namerno istačinju astronomske brojeve i krive odnose između verovatnoće dva događaja. Npr. kada otkrijete da je učestalost nekog događaja (npr. oboljenja od neke vrste artritisa) u Srbiji mala i nije značajno različita u odnosu na druge države, neka to bude svega 0.01%, samo treba da iskažete u apsolutnim brojevima i eto vesti o 70 000 obolelih od tog nekog artritisa. Sledeća stavka na koju foliranti često igraju je uplitanje emotivno obojenih objašnjenja, nema tog recezenta koji bi dao negativnu recenziju o radu koji se tiče ženskih prava i prateće statitike uz taj rad. Ili zlostavljanje dece i verovatnoća da koja proizlazi iz te statistike. Tu može da se tumači kako god pisac poželi. Treća stvar je u vezi sa testiranjem hipoteza. To se ne koristi danas onako kako je Fišer koristio, naročito P vrednost i prag značajnosti testa. Kasnije kako su Džerzi Njuman i Pirsonov sin razvijali testiranje hipoteza, pa se još modifikovalo kroz decenije koje su prošle, sve je to drugačije bilo od današnjeg pristupa gde većina naučnika realno i ne zna šta je P vrednost osim da je dobro da bude niža od 0,05. I na kraju, ozbiljna statistika se odnosi na modeliranje ili multifaktorijsku statistiku, ostalo je sitna boranija.