Bilim Felsefesi & Metodoloji 14 Mayıs 2026

P-Değeri Krizinin 100. Yılında: İstatistiksel Anlamlılık Bilimi Yanlış mı Yönlendirdi?

bunyamin

PhD

21 2 dk okuma

p-Değeri Diktatörlüğü: Bilimsel Gerçeklik mi, İstatistiksel Yanılgı mı?

Ronald Fisher'ın 1920'lerde istatistiksel analizlere kazandırdığı p-değeri (p-value), aradan geçen 100 yılda akademik yayıncılığın en büyük putu haline geldi. Bugün pek çok araştırmacı, yüksek lisans tezlerinden prestijli makale başvurularına kadar her çalışmada "kutsal" p < 0.05 sınırını aşabilmek için amansız bir mücadele veriyor. Peki istatistiksel anlamlılık, gerçekten bilimsel anlamlılık ile eşdeğer mi?

2016 ASA Bildirisi ve Paradigmada Çatlak

Amerikan İstatistik Derneği (ASA), 2016 yılında bilim tarihinde nadir görülen bir adım atarak p-değerinin kullanımı üzerine resmi bir bildiri yayınladı. Bildirinin özü şuydu: p-değeri tek başına bir sonucun bilimsel önemini, pratik değerini veya bir hipotezin doğruluğunu kanıtlayamaz.

Bu açıklamanın temel sebepleri şunlardı:

p-değeri araştırmanın sadece boş hipoteze (null hypothesis) ne kadar zıt olduğunu gösterir; araştırmacının kendi hipotezinin (H1) ne kadar doğru olduğunu göstermez.
Çok büyük örneklemlerde en önemsiz, minicik farklar bile istatistiksel olarak anlamlı (p < 0.05) çıkabilir.
0.05 eşiği tamamen keyfi ve tarihsel bir kabule dayanır. p = 0.049 ile p = 0.051 arasındaki bilimsel gerçeklikte aslında hiçbir uçurum yoktur.

Replikasyon Krizi: Psikoloji ve Tıbbın Yüzleşmesi

İstatistiksel anlamlılığa bu körü körüne bağlılık, bilim dünyasında günümüzde Replikasyon Krizi (Replication Crisis) olarak bilinen büyük bir skandalı doğurdu. 2010'lu yılların ortalarında, özellikle psikoloji ve tıp alanında daha önce saygın dergilerde yayınlanmış (ve p < 0.05 çıkmış) yüzlerce çalışmanın yeniden tekrarlandığında aynı sonuçları vermediği ortaya çıktı. Araştırmacılar, anlamlı sonuç bulmak uğruna veriyi manipüle etme (p-hacking) veya sadece anlamlı sonuçları yayınlama (publication bias) gibi etik sorunlarla yüzleşmek zorunda kaldı.

Çözüm Ne? Etki Büyüklüğü ve Bayesyen Yaklaşım

Bilim felsefecileri ve metodologlar, sadece p-değerine bakarak bilim yapma devrinin kapanması gerektiğini savunuyor. Yeni dönemdeki standartlar şu şekilde evriliyor:

Etki Büyüklüğü (Effect Size) ve Güven Aralıkları (Confidence Intervals): Artık farkın sadece "var" olduğunu söylemek yetmiyor, "ne kadar büyük" olduğunu (Cohen's d, Eta-squared) raporlamak zorunlu hale geliyor.
Bayesyen İstatistik: Sadece verinin modele uyumunu test eden Frekansçı (Frequentist) yaklaşımın ötesine geçerek, öncelikli inançlarımızı (prior) eldeki veriyle güncelleyerek (posterior) doğrudan hipotezlerin olasılığını hesaplayan Bayesyen yaklaşımlar popülerlik kazanıyor.

Sonuç olarak, p-değeri bilimsel süreci tamamen yönlendiren bir yargıç değil, yalnızca elimizdeki veriye dair küçük bir ipucu veren bir dedektif olarak görülmelidir.

Kaynakça:

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.

Nuzzo, R. (2014). Scientific method: statistical errors. Nature News, 506(7487), 150.

Cumming, G. (2014). The new statistics: Why and how. Psychological Science, 25(1), 7-29.

bunyamin

PhD

Profili Gör

Tüm Yazılar