İçeriğe geç

P-Değeri Krizinin 100. Yılında: İstatistiksel Anlamlılık Bilimi Yanlış mı Yönlendirdi?

bunyamin

PhD

101 4 dk okuma

p-Değeri Diktatörlüğü: Bilimsel Gerçeklik mi, İstatistiksel Yanılgı mı?

Ronald Fisher'ın 1920'lerde istatistiksel analizlere kazandırdığı p-değeri (p-value), aradan geçen 100 yılda akademik yayıncılığın en büyük putu haline geldi. Bugün pek çok araştırmacı, yüksek lisans tezlerinden prestijli makale başvurularına kadar her çalışmada "kutsal" p < 0.05 sınırını aşabilmek için amansız bir mücadele veriyor. Peki istatistiksel anlamlılık, gerçekten bilimsel anlamlılık ile eşdeğer mi?

2016 ASA Bildirisi ve Paradigmada Çatlak

Amerikan İstatistik Derneği (ASA), 2016 yılında bilim tarihinde nadir görülen bir adım atarak p-değerinin kullanımı üzerine resmi bir bildiri yayınladı. Bildirinin özü şuydu: p-değeri tek başına bir sonucun bilimsel önemini, pratik değerini veya bir hipotezin doğruluğunu kanıtlayamaz.

Bu açıklamanın temel sebepleri şunlardı:

  1. p-değeri araştırmanın sadece boş hipoteze (null hypothesis) ne kadar zıt olduğunu gösterir; araştırmacının kendi hipotezinin (H1) ne kadar doğru olduğunu göstermez.
  2. Çok büyük örneklemlerde en önemsiz, minicik farklar bile istatistiksel olarak anlamlı (p < 0.05) çıkabilir.
  3. 0.05 eşiği tamamen keyfi ve tarihsel bir kabule dayanır. p = 0.049 ile p = 0.051 arasındaki bilimsel gerçeklikte aslında hiçbir uçurum yoktur.

Replikasyon Krizi: Psikoloji ve Tıbbın Yüzleşmesi

İstatistiksel anlamlılığa bu körü körüne bağlılık, bilim dünyasında günümüzde Replikasyon Krizi (Replication Crisis) olarak bilinen büyük bir skandalı doğurdu. 2010'lu yılların ortalarında, özellikle psikoloji ve tıp alanında daha önce saygın dergilerde yayınlanmış (ve p < 0.05 çıkmış) yüzlerce çalışmanın yeniden tekrarlandığında aynı sonuçları vermediği ortaya çıktı. Araştırmacılar, anlamlı sonuç bulmak uğruna veriyi manipüle etme (p-hacking) veya sadece anlamlı sonuçları yayınlama (publication bias) gibi etik sorunlarla yüzleşmek zorunda kaldı.

Çözüm Ne? Etki Büyüklüğü ve Bayesyen Yaklaşım

Bilim felsefecileri ve metodologlar, sadece p-değerine bakarak bilim yapma devrinin kapanması gerektiğini savunuyor. Yeni dönemdeki standartlar şu şekilde evriliyor:

  • Etki Büyüklüğü (Effect Size) ve Güven Aralıkları (Confidence Intervals): Artık farkın sadece "var" olduğunu söylemek yetmiyor, "ne kadar büyük" olduğunu (Cohen's d, Eta-squared) raporlamak zorunlu hale geliyor.
  • Bayesyen İstatistik: Sadece verinin modele uyumunu test eden Frekansçı (Frequentist) yaklaşımın ötesine geçerek, öncelikli inançlarımızı (prior) eldeki veriyle güncelleyerek (posterior) doğrudan hipotezlerin olasılığını hesaplayan Bayesyen yaklaşımlar popülerlik kazanıyor.

Sonuç olarak, p-değeri bilimsel süreci tamamen yönlendiren bir yargıç değil, yalnızca elimizdeki veriye dair küçük bir ipucu veren bir dedektif olarak görülmelidir.

p Değerinin Kısa Tarihi

Ronald Fisher 1925'te p < .05 eşiğini kesin bir karar kuralı olarak değil, araştırmacının takdirine bırakılmış sezgisel bir kılavuz olarak önerdi. Jerzy Neyman ve Egon Pearson ise aynı dönemde Tip I/Tip II hata dengesini vurgulayan farklı bir çerçeve geliştirdi. Bu iki yaklaşım yıllar içinde harmanlanarak "p < .05 ise anlamlı" şeklinde yarım kalan bir pratiğe dönüştü; Fisher'in kendisi bu çarpıtmaya itiraz etti.

Ne Yanlış Gitti?

Temel sorun, p değerinin taşıdığı sınırlı bilginin gerçeği tam yansıtır gibi yorumlanmasıdır. p = .04 bulan bir araştırma "anlamlı" olarak yayımlanır; p = .06 bulan aynı kalitede bir araştırma "anlamsız" ilan edilir. Bu yapay sınır, (1) yayın yanlılığını (publication bias), (2) p-hacking ve HARKing (Hypothesizing After Results are Known) gibi araştırma esnekliği sorunlarını ve (3) düşük replikasyon oranlarını beraberinde getirdi.

Replikasyon Krizi

2015 yılında Nosek ve ark. koordinasyonuyla yürütülen Replikasyon Projesi, 100 psikoloji çalışmasının yalnızca %39'unun özgün bulgularını koruduğunu ortaya koydu. Tıp, nörobilim ve sosyal bilimlerde benzer bulgular raporlandı. Bu kriz, p değerine dayalı karar mantığının tek başına yetersiz olduğunu tartışmasız biçimde ortaya koydu.

Alternatif Yaklaşımlar

  • Etki büyüklüğü + güven aralığı: Cohen's d, η², r değerlerini %95 güven aralıklarıyla birlikte raporlayın — hem pratik önemi hem belirsizliği gösterir.
  • Bayes faktörü (BF): H₀ ve H₁ arasındaki kanıt oranını verir; BF > 10 güçlü kanıt anlamına gelir.
  • Ön kayıt (pre-registration): AsPredicted.org veya OSF üzerinden hipotez ve analiz planını veriye bakmadan kaydedin; bu p-hacking'i önler.
  • NHST'ye ek olarak: p değerini tamamen terk etmek zorunda değilsiniz — ancak etki büyüklüğü, güven aralığı ve örneklem büyüklüğü ile birlikte yorumlayın.

Sonuç: Araştırmacı Ne Yapmalı?

p değeri bir karar kuralı değil, olasılık ifadesidir. Tezinizde p < .05 eşiği bulguların kısmi destekleyicisi olarak gösterilebilir; ancak etki büyüklüğü ve %95 güven aralığı olmadan eksik kalır. Ön kayıt yaparak şeffaflığı artırmak, replique edilebilir bilimin en pratik bireysel katkısıdır. p değeri krizi araştırmacılara bir uyarı değil, metodolojik genişleme daveti sunar.

Araştırmacı İçin Pratik Özet

p değeri krizi, istatistiksel analizi daha dürüst ve şeffaf yapma çağrısıdır. Tezinizde bu çağrıya yanıt vermek için şu adımları izleyebilirsiniz: p değerini her zaman etki büyüklüğü (Cohen's d, η², r) ve güven aralığıyla birlikte raporlayın. Anlamlılık eşiğine ulaşamayan bulguları "negatif" olarak nitelendirmek yerine "yeterli istatistiksel güç sağlanamadı" veya "belirsizlik devam etmektedir" gibi nüanslı bir dille aktarın. Mümkünse çalışmanızı OSF üzerinden ön kaydedin — bu hem p-hacking riskini ortadan kaldırır hem de araştırmanızın akademik güvenilirliğini pekiştirir. Yüz yılın birikiminden çıkan ders şudur: tek bir sayı hiçbir zaman bütün hikâyeyi anlatamaz.

Önemli hatırlatma: Amerikan İstatistik Derneği (ASA) 2016'da yayımladığı bildirge ile p değerinin tek karar ölçütü olarak kullanılmasını açıkça eleştirmiştir. 2019 bildirgesinde ise "istatistiksel anlamlılık" kavramını terk etmeyi öneren 800'den fazla bilim insanının imzaladığı bir çağrı yayımlanmıştır. Bu gelişmeler, p < .05 eşiğinin bilimsel bir kanun olmadığını; tarihsel ve kültürel bir uzlaşının ürünü olduğunu göstermektedir.



Kaynakça:

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.

Nuzzo, R. (2014). Scientific method: statistical errors. Nature News, 506(7487), 150.

Cumming, G. (2014). The new statistics: Why and how. Psychological Science, 25(1), 7-29.

Bilimin ışığında veriyi yönetin Akademik başarınız için yanınızdayız SPSS R Python Excel STATA AMOS JASP EViews LISREL SmartPLS Akademik Danışmanlık Tez Analizi Text editörlüğü Regresyon ANOVA Faktör Analizi SEM Bibliyometrik analizi Geçerlik ve Güvenilirlik 1000 puan = Teklif Verme Yetkisi Bilimin ışığında veriyi yönetin Akademik başarınız için yanınızdayız SPSS R Python Excel STATA AMOS JASP EViews LISREL SmartPLS Akademik Danışmanlık Tez Analizi Text editörlüğü Regresyon ANOVA Faktör Analizi SEM Bibliyometrik analizi Geçerlik ve Güvenilirlik 1000 puan = Teklif Verme Yetkisi
Proje hakkında konuşalım