Eksik Veri (Missing Data) Tezde Nasıl Ele Alınır?
PhD
Eksik Veri (Missing Data) Tezde Nasıl Ele Alınır?
Veri setinizi açtığınızda bazı hücrelerin boş olduğunu fark ettiniz. Analize nasıl devam edeceksiniz? Eksik verileri görmezden gelmek, silmek veya yanlış yöntemle doldurmak sonuçlarınızı ciddi biçimde çarpıtabilir. Bu yazıda eksik veri türlerini, kabul gören çözüm yöntemlerini ve tezde nasıl raporlayacağınızı bulacaksınız.
Eksik Veri Türleri (Little & Rubin, 2002)
| Tür | Kısaltma | Açıklama | Çözüm |
|---|---|---|---|
| Tamamen Rastgele Eksik | MCAR | Eksiklik hiçbir değişkenle ilişkili değil | Liste silme veya ortalama atama kabul edilebilir |
| Rastgele Eksik | MAR | Eksiklik gözlenen değişkenlerle açıklanabilir | Çoklu atama (MI) veya FIML önerilir |
| Rastgele Olmayan Eksik | MNAR | Eksiklik bizzat eksik değerle ilişkili | Uzman danışmanlığı gerektirir — en sorunlu tür |
Yöntemlerin Karşılaştırması
| Yöntem | Ne Zaman Kullanılır? | Dezavantaj |
|---|---|---|
| Liste silme (Listwise deletion) | Eksiklik < %5, MCAR | Örneklem küçülür, güç kaybı |
| Ortalama ile doldurma | Nadiren önerilir | Varyansı düşürür, ilişkileri zayıflatır |
| Çoklu atama (MI) | MAR, eksiklik < %40 | Karmaşık, yazılım gerektirir |
| FIML (Full Information ML) | Yapısal modellerde (SEM) | Yazılım bağımlı (Amos, Mplus) |
Pratikte Ne Yapılır?
1. Eksik veri oranını hesaplayın: değişken başına %5'in altındaysa liste silme genellikle kabul edilir.
2. Little's MCAR testini uygulayın (SPSS: Analyze → Missing Value Analysis).
3. %5–20 arası eksiklik için çoklu atama (SPSS Multiple Imputation) tercih edin.
4. %20'nin üzerinde eksik olan değişkeni analizden çıkarmayı değerlendirin.
Tezde Nasıl Yazılır?
"Veri setinde toplam gözlemlerin %3.2'si oranında eksik veri tespit edilmiştir. Little's MCAR testi sonucunda eksik verinin tamamen rastgele olduğu belirlenmiş (χ²(14) = 18.43, p = .189) ve liste silme yöntemi uygulanmıştır. Analize dahil edilen nihai örneklem 374 katılımcıdan oluşmaktadır."
Verilerinizi analiz etmek için → Analizus İstatistik Araçlarını kullanın.
SPSS'te Eksik Veri Analizi: Adım Adım
Eksik veri oranını ve dağılımını SPSS ile şu şekilde inceleyebilirsiniz:
- Frekans analizi: Analyze → Descriptive Statistics → Frequencies → tüm değişkenleri seçin. Çıktıda her değişken için Missing satırı eksik gözlem sayısını ve yüzdesini verir.
- Missing Value Analysis: Analyze → Missing Value Analysis → değişkenleri seçin → Descriptives bölümünde Univariate statistics işaretleyin. Bu yol her değişken için daha ayrıntılı eksik veri istatistikleri ve Little's MCAR testini sunar.
- Pattern matrisi: Missing Value Analysis penceresinde Patterns sekmesini işaretleyin. Hangi gözlemlerin hangi değişkenlerde aynı anda eksik olduğunu gösteren bir görsel matris oluşturulur. Belirli bir katılımcı grubunun sistematik biçimde eksik yanıt verip vermediği bu matris incelenerek anlaşılır.
Little's MCAR Testi Nasıl Yorumlanır?
Little's MCAR testi, H₀: "Eksik veri tamamen rastgeledir (MCAR)" hipotezini sınar. SPSS Missing Value Analysis çıktısında Little's MCAR test satırındaki Chi-Square ve Sig. değerlerini okursunuz:
- p > .05: H₀ reddedilemez → MCAR varsayımı destekleniyor. Liste silme veya ortalama atama savunulabilir (eksiklik düşükse).
- p ≤ .05: MCAR reddedildi → MAR veya MNAR olabilir. Çoklu atama (MI) veya FIML önerilir.
Tezde: "Little's MCAR testi istatistiksel olarak anlamlı bulunmamıştır (χ²(14) = 18.43, p = .189); bu sonuç eksik verinin tamamen rastgele dağıldığına işaret etmektedir."
Çoklu Atama (Multiple Imputation) Sonrası Raporlama
SPSS'te Multiple Imputation yolunu şöyle bulursunuz: Analyze → Multiple Imputation → Impute Missing Data Values. Önerilen atama sayısı (imputation count) genellikle 5–20 arasındadır; eksiklik oranı arttıkça bu sayıyı artırmak önerilir.
MI sonrası analizler her imputasyon için ayrı çalıştırılır ve sonuçlar Rubin kurallarıyla birleştirilir. SPSS bunu otomatik yapar; çıktıda Pooled satırı birleşik tahmini verir. Tezde: "Eksik veriler SPSS Multiple Imputation prosedürüyle (m = 5 atama) doldurulmuş; analizler birleştirilmiş (pooled) katsayılar üzerinden raporlanmıştır."
Sık Yapılan Hatalar
- Eksik veri raporlamamak: Kaç gözlemin eksik olduğu ve bu veriyle nasıl başa çıkıldığı mutlaka Yöntem bölümünde belirtilmelidir.
- Ortalama atamayı varsayılan çözüm olarak kullanmak: Ortalama atama (mean imputation) varyansı düşürür ve değişkenler arası korelasyonları zayıflatır; yalnızca %5'in altındaki MCAR durumlarında ve tartışmalı biçimde kabul görmektedir.
- Liste silmeyi %20'nin üzerinde uygulamak: Eksik veri oranı yüksekse liste silme güç kaybına ve olası yanlılığa yol açar; bu durumda MI veya FIML tercih edilmelidir.
Eksik Veri İçin Duyarlılık Analizi
Eksik veri yönteminizin sonuçları etkileyip etkilemediğini doğrulamak için duyarlılık analizi (sensitivity analysis) yapılabilir. Bunun için aynı analizi farklı eksik veri yöntemiyle tekrarlayın: örneğin liste silme ile elde ettiğiniz sonuçları çoklu atama sonuçlarıyla karşılaştırın. Temel bulgular iki yöntemde de tutarlıysa sonuçların eksik veri yöntemine duyarsız olduğu sonucuna varabilirsiniz. Bu karşılaştırma tezde kısa bir paragraf ya da tablo hâlinde sunulabilir ve metodolojik özeni gösterir.
MNAR Durumunda Seçenekler
Eksik verinin rastgele olmadığı (MNAR) durum en zorlu senaryodur; yani kişiler belirli bir nedenle yanıt vermiyordur (örneğin yüksek gelirli bireyler gelirlerini açıklamak istemiyordur). Bu durumda hiçbir standart istatistiksel yöntem yanlılığı tamamen gidermez. Seçenekler: (1) MNAR mekanizmasını modelleyen Heckman seçim modeli, (2) pattern-mixture modellemesi, (3) bulgu bölümünde olası yanlılık yönünü açıkça tartışmak. Lisans ve yüksek lisans düzeyindeki çalışmalar için en pratik yaklaşım üçüncü seçenektir: eksik verinin olası yönlü etkisini kısıtlılıklar bölümünde şeffaflıkla tartışın.
Eksik Veri Oranı ve Örneklem Gücü
Eksik veri yalnızca yanlılık riski yaratmakla kalmaz, aynı zamanda örneklem büyüklüğünü azaltarak istatistiksel gücü düşürür. Liste silme yönteminde her eksik gözlem analizden tamamen çıkarılır; %15 eksik veri bile başlangıçta güç analizine göre belirlenmiş örneklem büyüklüğünü yetersiz kılabilir. Bu nedenle veri toplama aşamasında eksik yanıt oranını en aza indirmeye yönelik önlemler almak — hatırlatma e-postaları, teşvik unsurları, kısa anket tasarımı — araştırma gücünü korumak açısından kritiktir. Tezde bu önlemlerin belirtilmesi de veri kalitesine gösterilen özeni yansıtır.
Kaynakça:
Little, R. J. A., & Rubin, D. B. (2002). Statistical analysis with missing data (2nd ed.). Wiley.
Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147–177.