Zloupotreba statistike u nauci 1

„Postoje obične laži, opasne laži i statistika!“ Ova izreka se pripisuje Mark Tvenu, a može se čuti kad neko uz pomoć brojeva pokušava da opravda svoj slab argument.

Nažalost, danas u doba hiperprodukcije podataka i naučnih radova ova izreka ima smisla i za današnju nauku.

Džon Joanidis (John Ioannidis), grčko-američki lekar i trenutno profesor na Stenford univerzitetu, pre desetak godina je uzburkao naučnu javnost sa radom „Zašto su nalazi većine objavljenih istraživanja pogrešni?“ Pokazao je da su dizajni većine naučnih studija takvi da su njihovi nalazi više verovatno pogrešni nego tačni. Kako je to moguće? Joanidis zalazi u detalje u svom radu, ali jednostavan odgovor je pogrešna upotreba statistike u nauci. Ono što mali broj ljudi razume je da se uz pomoć statistike ne može dokazati nijedna teza. Na osnovu nekog uzorka mi sa statistikom možemo da pokažemo koliko su neke teze verovatne, ali ne i to da li su istinite. Ako na osnovu uzorka dobijemo da je neka teza malo verovatna to automatski ne znači da je ona netačna, i obratno.

Džud Perl (Judea Pearl), dobitnik Turingove nagrade za svoj doprinos metodologiji kauzaliteta, sa pravom navodi da nema veće zamke za naučni progres od preovladajuće prakse fokusiranja na statistiku, dok se uzročnost ostavlja na milost i nemilost našoj intuiciji i zdravom razumu. Koliko puta ste preko medija mogli da čujete da su najnovija istraživanja pokazala da ako uzmete XYZ onda ćete smanjiti rizik od ABC. Najčešće ta saopštenja počinju sa: „Naučnici sa univerziteta NN su dokazali da …“. Ako pretpostavimo da su naučnici sa univerziteta NN pošteni i nisu lažirali svoje nalaze (mada ih ima dosta i kod nas i u svetu koji to rade), postavlja se pitanje gde oni greše. Statistički gledano, oni ne greše, podaci ne lažu. Međutim, ako oni nisu pokazali uzročno posledičnu vezu između XYZ i ABC, što uopšte nije lako, sve je to i dalje pod znakom pitanja.

Evo dva primera. U prvom primeru, naučnici su posmatrali ljude u zavisnosti od toga na koju nogu ujutru ustaju. Na osnovu dobijenih podataka ustanovili su da oni koji ustaju na levu nogu imaju 20 odsto manje rizika za dobijanje raka creva u odnosu na one koji ustaju na desnu nogu. Drugi primer je veoma sličan, samo što su istraživači ovaj put odlučili da posmatraju ljude u zavisnosti od toga da li uzimaju vitamin E suplemente ili ne, i dobili su da se unosom vitamina E smanjuje rizik od srčanog udara za 40 odsto. Koja je razlika između ova dva primera? Statistički gledano nema razlike. Prvi primer je hipotetički i njega nijedan naučni časopis neće ni da uzme u razmatranje, dok drugi primer je realan i objavljen.

Velika je razlika između naučnih opservacija i dokazivanja uzročnosti. Ako se sticajem prilika desilo da jedna grupa ljudi, bilo da ustaju na levu nogu ili da uzimaju vitamin E supIemente, takođe se i zdravije hrani od druge grupe, vi ćete nažalost imati faktor zbunjivanja (en. confounding factor) u uzorku koji dovodi do statistike koja favorizuje jednu podgrupu u odnosu na drugu. Problem je u našem pogledu na uzročnost, ili bolje rečeno u našoj lakovernosti da ne tražimo uzrok, jer kasniji klinički trajali su pokazali da uzimanje vitamin E suplementa ne smanjuje rizik od srčanog udara.

Kao statističar po struci, naravno da volim da vidim kvalitetnu statistiku, ali više cenim naučna dela sa dobro objašnjenom uzročno posledičnom vezom i slabom statistikom, nego radove sa sjajnom statistikom i šupljim objašnjenima. Šta više, iz iskustva mogu reći da radovi sa puno statistike su najčešće tanki sa dokazima, inače im ne bi trebalo toliko statistike. Pronalaženje uzročno posledičnih veza je mukotrpan i dugotrajan proces bez garancija za uspeh. Za očekivati je da na tom putu koristimo statistiku kao vodilju, ali ona sama po sebi ne može da bude krajnji cilj, niti da zameni uzročnost. Zahvaljujući prethodno pomenutom Džudu Perlu, uzročnost je ponovo dobila značaj u nauci i njegove knjige su vredan putokaz za sve istraživače.

Istorija nauke nas uči poniznosti. Šta su sve naučnici tvrdili pre sto godina, a danas znamo da ne važi? Nije li za očekivati da će i naučnici početkom 22. veka isto tako da gledaju na današnja naučna dostignuća. Ono što nam međutim Joanidis ukazuje je da za većinu objavljenih nalaza koji koriste statistiku u svojoj analizi mi već danas možemo da kažemo da su pod znakom pitanja. Preovlađuje utisak da nema dovoljno kritičke svesti među naučnicima po pitanju pravilne upotrebe statistike u istraživanjima. Najveću odgovornost za to snose naučnici koji, svesno ili nesvesno, zloupotrebljavaju statistiku, ali i mi statističari koji na to nedovoljno ukazujemo.

Kad sledeći put čujete „Naučnici sa univerziteta NN su dokazali da …“, zapitajte se da li je uzrok objašnjen. To je dovoljno za početak.

Autor je diplomirani matematičar za verovatnoću i statistiku

Komentari

Vaša adresa e-pošte neće biti objavljena.

Ovo veb mesto koristi Akismet kako bi smanjilo nepoželjne. Saznajte kako se vaši komentari obrađuju.

4 reagovanja na “Zloupotreba statistike u nauci”

  1. Mozda ste ucinili malu nepravdu prema naucnicima; ispitati tzv. confoundning varijable je osnova istazivackog rada i prosto mi je nezamislivo da ih ne uzimaju u obzir, isto kao i to da korelacija ne znaci uzrocnost. Prosto, kriviti ih da ne ispunjavaju sto bi trebalo da bude deo regularnog procesa istrazivackog rada, je malo nefer.

    Naucnike, takodje, ne bi trebalo u potpunosti da krivimo za senzacionalisticke i pojednostavljene izvestaje o najnovijim istrazivanjima, vec novinare. Naucni radovi cesto sadrze zakljucak u formi: ukoliko uzmete X smanjiecte rizik od A pod uslovom Y i Z, i pod B i C okolnostima. Zarad clickbeita, novinari to objave kao: "Necete verovati, naucnici za Univerziteta u NN pronasli lek za AA!". Na sta, verujem, naucnici samo prevrnu ocima.

    Opet, sa druge strane, u kompetitivnoj atmosferi u kojoj se i nauka danas nalazi, nije retko da naucnici nategnu rezultate i p-vrednosti, da bi uspeli da objave radove u casopisima sa visokim impakt factorom i nabave dodatna sredstva za istrazivanja, te i oni delom snose odgovornost za senzacionalisticke naslove, ali su ipak oprezniji, naravno, u svojim zakljucivanjima od novinara i njihovih izvestaja.

    Ali mislim da je vazno da se skrene paznja na ovo o cemu pisete, i da je vazno da se statistika, logika i metodologija naucnih istrazivanja uvedu kao obavezni deo obrazovanja u oblasti nauka, narocito drustvenih, sto, cini mi se, nije slucaj na nasim fakultetima. I da svakako naucne institucije imaju statisticara u svojim timovima.

  2. Pored problema kauzaliteta, postoji i podjednako ozbiljan problem u modernim naucnim istrazivanjima a to su pretpostavke. One se vrlo cesto zloupotrebljavaju, posebno u drustvenim naukama, npr. ekonomiji ili finansijama. Iz besmislenih pretpostavki je cak lako proizvesti kauzalitet i dokazati ga jos lakse statisticki. A mnoge od tih nauka, zbog objektivnih poteskoca u izvodjenju ili ponavljanju eksperimenata, su prisiljene na pretpostavke. Cini mi se da bi u tim slucajevima, pazljiv citalac trebalo da prvo pogleda i sam istrazi i taj deo istrazivanja… A i o kvalitetu, izvorima podataka ili njihovom izvodjenju bi moglo jos vise da prica…

  3. Bravo za tekst. Neuobicajena, ali izuzetno vazna tema. Zamislite samo kakva je zloupotreba statistike u politici, pa i u ekonomiji.

Komentari

Vaša adresa e-pošte neće biti objavljena.

Ovo veb mesto koristi Akismet kako bi smanjilo nepoželjne. Saznajte kako se vaši komentari obrađuju.