İstatistik
14 Mart 2026
Yapay Zeka Çağında Neden Hala Regresyon Kullanıyoruz? (Derin Öğrenmenin Çözemediği Sır)
bunyamin
PhD
27
3 dk okuma
Yapay zekanın, büyük dil modellerinin ve derin sinir ağlarının manşetleri süslediği bir dönemdeyiz. Bir araştırmacı olarak verilerinizi alıp karmaşık bir makine öğrenmesi algoritmasına (örneğin XGBoost veya Derin Öğrenme ağına) vererek %95 doğruluk oranları yakalamak cazip gelebilir.
Peki, makalenizi prestijli bir dergiye gönderdiğinizde veya tez savunmanızda jürinin karşısına çıktığınızda şu soruyla karşılaşırsanız ne olacak: "Modeliniz harika tahmin yapıyor ama bu sonuca nasıl ve neden ulaştı?" İşte tam bu noktada, o şaşaalı "siyah kutu" (black-box) modelleri sessizliğe bürünürken, istatistiğin tartışmasız kralı sahneye çıkar: Regresyon. Bir Veri Bilimcisi ve Yapay Zeka Mühendisi olarak size açıkça söyleyebilirim: Eğer bir lineer model, karmaşık bir derin sinir ağının performansının %90'ına ulaşabiliyorsa ve size 1000 kat daha fazla yorumlanabilirlik sunuyorsa, her zaman lineer modeli seçmelisiniz. (Bkz. Occam'ın Usturası).
Basitlikten Şaşmayın: İhtiyacınız olmayan hiçbir değişkeni modele eklemeyin. Her gereksiz değişken, modelinizin açıklama gücünü bulanıklaştırır.
Modern Yaklaşımları Entegre Edin: Eğer çok fazla değişkeniniz varsa ve modeliniz aşırı öğrenmeye (overfitting) gidiyorsa, geleneksel EKK (En Küçük Kareler) yerine veriye ceza puanı uygulayan Ridge veya Lasso Regresyon gibi modern makine öğrenmesi tekniklerini araştırmanıza dahil edin. Sonuç olarak; Yapay zeka araçları literatür taramanızı hızlandırabilir veya kod yazmanıza yardım edebilir. Ancak araştırma sorunuzu cevaplarken, bulgularınızı bilim dünyasına sunarken ve "Neden?" sorusuna yanıt ararken, iyi kurgulanmış bir regresyon modelinden daha sadık bir ekip arkadaşı bulamazsınız.
Peki, makalenizi prestijli bir dergiye gönderdiğinizde veya tez savunmanızda jürinin karşısına çıktığınızda şu soruyla karşılaşırsanız ne olacak: "Modeliniz harika tahmin yapıyor ama bu sonuca nasıl ve neden ulaştı?" İşte tam bu noktada, o şaşaalı "siyah kutu" (black-box) modelleri sessizliğe bürünürken, istatistiğin tartışmasız kralı sahneye çıkar: Regresyon. Bir Veri Bilimcisi ve Yapay Zeka Mühendisi olarak size açıkça söyleyebilirim: Eğer bir lineer model, karmaşık bir derin sinir ağının performansının %90'ına ulaşabiliyorsa ve size 1000 kat daha fazla yorumlanabilirlik sunuyorsa, her zaman lineer modeli seçmelisiniz. (Bkz. Occam'ın Usturası).
1. Tahmin Etmek Yetmez, Anlamak Zorundayız
Akademik araştırmaların temel amacı sadece geleceği tahmin etmek değil, değişkenler arasındaki nedensel veya ilişkisel dinamikleri çözmektir. Bir yapay zeka modeli size "Bu hastanın kalp krizi geçirme riski %85" diyebilir. Ancak bir Lojistik Regresyon modeli size şunu söyler: "Kolesteroldeki her 1 birimlik artış, diğer tüm faktörler sabit kaldığında (ceteris paribus), kalp krizi geçirme olasılığını (odds) 1.2 kat artırmaktadır." İlki sadece bir tahmindir. İkincisi ise literatüre katkı sağlayacak, halk sağlığı politikalarını değiştirebilecek bilimsel bir içgörüdür.2. Verinin Ruhunu Okumak: Varsayımlar Sizi Korur
Pek çok araştırmacı SPSS veya R'da regresyon kodunu çalıştırıp sadece p değerine (p-value) odaklanma hatasına düşer. Oysa regresyon, verinizle bir sözleşme imzalamaktır. Bir makine öğrenmesi algoritması verideki gürültüyü (noise) ezberleyebilir (overfitting). Ancak regresyon sizi durdurur ve verinin doğasını anlamaya zorlar:Hata terimleri normal dağılıyor mu?
Varyanslar homojen mi (Homoscedasticity)? * Bağımsız değişkenleriniz arasında gizli bir savaş (Çoklu Doğrusal Bağlantı - Multicollinearity) var mı? Bu varsayımları test etmek bir külfet değil, verinizin kalitesini ve bulgularınızın güvenilirliğini ispatlama sanatıdır. Hakemler R2 değerinizin yüksekliğinden ziyade, bu varsayımları nasıl ele aldığınızla ilgilenir.3. P-Hacking Tehlikesi ve İstatistiksel Anlamlılık Yanılgısı
Sadece p<0.05 bulmak uğruna modele sürekli yeni değişkenler eklemek veya veriyi manipüle etmek (p-hacking), modern bilimin en büyük krizlerinden biridir. Kıdemli bir veri analisti, modelin istatistiksel olarak anlamlı olmasıyla, pratik/klinik olarak anlamlı olması arasındaki farkı bilir. Regresyondaki katsayıların (Betalar) büyüklüğü ve güven aralıkları (Confidence Intervals), bize etkinin gerçek dünyadaki karşılığını gösterir. Milyonlarca satırlık bir veride çok anlamsız bir değişken bile p<0.05 verebilir; ama regresyon katsayısı size "Bu etkinin gerçek hayatta hiçbir karşılığı yok" diye bağırır. Araştırmacılar İçin Altın KurallarTezinizde veya araştırmanızda regresyon kullanırken şu adımları asla atlamayın:
Keşfedici Veri Analizi (EDA) ile Başlayın: Modellemeye geçmeden önce verinin dağılımını, aykırı değerleri (outliers) ve saçılım grafiklerini inceleyin. Veriyi görmeden kurulan model, karanlıkta ok atmaktır.Basitlikten Şaşmayın: İhtiyacınız olmayan hiçbir değişkeni modele eklemeyin. Her gereksiz değişken, modelinizin açıklama gücünü bulanıklaştırır.
Modern Yaklaşımları Entegre Edin: Eğer çok fazla değişkeniniz varsa ve modeliniz aşırı öğrenmeye (overfitting) gidiyorsa, geleneksel EKK (En Küçük Kareler) yerine veriye ceza puanı uygulayan Ridge veya Lasso Regresyon gibi modern makine öğrenmesi tekniklerini araştırmanıza dahil edin. Sonuç olarak; Yapay zeka araçları literatür taramanızı hızlandırabilir veya kod yazmanıza yardım edebilir. Ancak araştırma sorunuzu cevaplarken, bulgularınızı bilim dünyasına sunarken ve "Neden?" sorusuna yanıt ararken, iyi kurgulanmış bir regresyon modelinden daha sadık bir ekip arkadaşı bulamazsınız.