Myterna om hur fantastiska p-värdena är totalt katastrofala men sträcker sig tyvärr hela vägen in i de flesta biologiska statistisk kurser. Ett p-värde betyder tyvärr inte att något är sant, eller är askalas bra eller att en (antagligen) smått värdelös hypotes är korrekt eller inte korrekt. Allt det betyder är att resultatet är statistisk signifikant, det betyder inte att det är biologiskt signifikant (eller liknande beroende på vad man jobbar med. Värdet är också högst beroende av din sample size, vilket saknas i exemplet ovan, då det ger den statistiska kraft ett test har att säga om det är signifikant eller inte. Har du låg statistiks kraft är därmed resultatet du får högst opålitligt då chansen är hög för ett typ II fel (att ett resultat är signifikant trots att det egentligen inte är/borde vara det), eller att ett typ I fel (att resultatet är inte signifikant trots att det borde vara det). Har du väldigt hög statistisk kraft blir precis vad som helst statistiskt signifikant. Tyvärr är träningen i hur man kollar det innan man samlar in sin data väldigt låg, även om man har hört ordet är det oerhört många som inte har någon aning om hur man kollar det.
I biologin t.ex. bryr vi oss egentligen om effekter, och det är antar jag liknande i det juridiska exemplet ovan. Vi vill veta hur stor effekt t.ex. temperatur har på en art eller hur stor effekt t.ex. gymnasial utbildning har på om en person begår ett brott. Statistisk signifikans kan inte säga det, den säger enbart att det finns en effekt. Vilket, för att vara ärlig, jag kunde ha sagt innan jag ens hade försökt göra något med datan. Det finns alltid en effekt, om du kolalt tillräckligt noga. Det är där problemen med NHST kommer in (Null Hypothesis Significant Testing) kommer in. Tyvärr blir de allra flesta tränade i att jobba med noll-hypoteser, som i ungefär 99% av fallen är totalt värdelösa. Majoriteten av vad som kallas "silly nulls" eller "noll nulls", dvs svaret ger dig ingen ny information. En noll hypotes som säger "det finns ingen skillnad i längd mellan kvinnor och män" är faktist tämligen värdelös, det kan jag ju säga utan data att det antagligen är. Däremot är frågeställningen "hur stor skillnad är det i längd mellan kvinnor och män" en intressantare fråga, men den passar inte in NHST . Den andra öppnar liksom upp för att kolla på åt vilket håll det går (är män kortare än kvinnor och med hur mycket t.ex).
Det finns en anledning att vissa journals och områden börjar förbjuda p-värden. P värden och jakten på statistik signifikans (p hacking) leder inte enbart ofta till feltolkningar av författare och läsare, manipulation av analys, utan också till en ökning av publikation av typ II i journals då resultat som inte var signifikanta ofta ratas (utan någon tanke på varför och vad det resultatet betyder).
Det är inte enbart hur NHST och p värden används idag som är konstigt och fel, men jag tror att det blir lite väl mycket att gå in i historien bakom p värden, det finns eminenta artiklar som går mer på djupet bakom felen med p värden också. R A Fisher hade inte varit glad om han han funnits idag och sett hur det miss-används dock.
Att studenter på det stora hela inte får lära sig att det finns andra tekniker än NHST för att analysera data är faktist helt förkastligt, t.ex. är Bayesian en teknik som kanske tar lite längre tid att lära sig men däremot har ett sundare framework runt hur man tittar på data osv (men att tro att det finns en ultimat lösning och att allt är svart och vitt vore också fel).