İçeriğe geç

Anonimleştirme Yanılgısı: "İsimsiz" Veri Setlerinden Kimlik Yeniden Nasıl İnşa Ediliyor?

bunyamin

PhD

22 2 dk okuma

Anonimleştirme Gerçekten İşe Yarıyor mu?

Araştırmacılar, kurumlar ve şirketler veri paylaşırken kimlikleri gizlediklerini iddia ederek verileri "anonim" hale getirdiklerini söylerler. Genellikle isim, TC kimlik numarası veya telefon numarası gibi doğrudan tanımlayıcıların (direct identifiers) silinmesi yeterli görülür. Ancak modern veri bilimi, bu "isimsiz" veri setlerinin sandığımız kadar gizli olmadığını kanıtlamıştır.

De-anonimleştirme (Re-identification) Nedir?

De-anonimleştirme, sözde anonim hale getirilmiş bir veri setindeki kişilerin kimliklerinin, veri setindeki diğer dolaylı tanımlayıcılar (yaş, cinsiyet, posta kodu, meslek) ile farklı bir dış veri setinin (örneğin seçmen kayıtları) eşleştirilmesi (linkage attack) sonucu yeniden açığa çıkarılmasıdır.

Tarihe Geçen Skandallar

  • Netflix Prize Davası: Netflix, film öneri algoritmasını geliştirmek için yarışmacılara "anonimleştirilmiş" bir izleme geçmişi veri seti sundu. Araştırmacılar, bu veri setini IMDB'deki halka açık film oylama saatleriyle eşleştirerek Netflix kullanıcılarının gerçek kimliklerini ve hatta siyasi/cinsel eğilimlerini ortaya çıkardı.
  • Massachusetts Valisi Olayı: Eyalet, hastane kayıtlarını anonimleştirerek yayınladı. Ancak bir araştırmacı, hastane verilerindeki "doğum tarihi, cinsiyet ve posta kodu" üçlüsünü halka açık seçmen kütükleriyle eşleştirerek, doğrudan valinin tıbbi kayıtlarını masasına koymayı başardı.

Gerçek Anonimlik İçin Gelişmiş Teknikler

Basit maskeleme yöntemleri yerine, veri gizliliğini matematiksel olarak garanti altına alan modern teknikler kullanılmalıdır:

  1. k-Anonymity (k-Anonimlik): Bir veri setindeki herhangi bir kişinin, aynı özellikleri taşıyan en az k-1 diğer kişiden ayırt edilememesi prensibidir. Örneğin k=5 ise, veri setindeki herhangi bir kişi, gruptaki diğer 4 kişiyle tamamen aynı demografik özelliklere sahiptir.
  2. l-Diversity ve t-Closeness: k-Anonimliğin yetersiz kaldığı durumlar (hassas verilerin homojen olması vb.) için geliştirilmiş, grup içindeki hassas niteliklerin çeşitliliğini zorunlu kılan ileri düzey yöntemlerdir.
  3. Differential Privacy (Diferansiyel Gizlilik): Veri tabanına kasıtlı olarak istatistiksel bir "gürültü" (noise) ekleyerek, genel veri analizinin doğruluğunu korurken herhangi bir bireyin o veri tabanında olup olmadığının anlaşılmasını imkansız hale getirir. Apple ve Google günümüzde bu yöntemi sıkça kullanmaktadır.


Kaynakça:

Sweeney, L. (2002). k-anonymity: A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 557-570.

Narayanan, A., & Shmatikov, V. (2008). Robust de-anonymization of large sparse datasets. 2008 IEEE Symposium on Security and Privacy (sp 2008), 111-125.

Dwork, C. (2008). Differential privacy: A survey of results. International conference on theory and applications of models of computation.

Bilimin ışığında veriyi yönetin Akademik başarınız için yanınızdayız SPSS R Python Excel STATA AMOS JASP EViews LISREL SmartPLS Akademik Danışmanlık Tez Analizi Text editörlüğü Regresyon ANOVA Faktör Analizi SEM Bibliyometrik analizi Geçerlik ve Güvenilirlik 1000 puan = Teklif Verme Yetkisi Bilimin ışığında veriyi yönetin Akademik başarınız için yanınızdayız SPSS R Python Excel STATA AMOS JASP EViews LISREL SmartPLS Akademik Danışmanlık Tez Analizi Text editörlüğü Regresyon ANOVA Faktör Analizi SEM Bibliyometrik analizi Geçerlik ve Güvenilirlik 1000 puan = Teklif Verme Yetkisi