8 Temmuz 2013 Pazartesi

Öznitelik Seçimi (Gen Seçimi)

Öznitelik seçimi, mikrodizi verilerinde olduğu gibi çok fazla değişkenin(genleri düşünebiliriz) olduğu veri kümelerinde kullanılır. Bu çok fazla değişkeni, kalabalık bir konserdeki insanlara benzeterek anlatmak istiyorum. Çünkü bir olay örgüsü ile daha iyi anlaşılacağını düşünüyorum. 


Bir arkadaşınızla Bülent Ortaçgil'in konserine gittiğinizi varsayalım. Çok güzel bir yer buldunuz. Şüphesiz konseri çok iyi seyredeceksiniz. İçecek almak için ayrılıyorsunuz. Fakat geri dönüş yolunu bulamıyorsunuz ve gerçekten çok kalabalık arkadaşınızı seçemiyorsunuz. Ama arkadaşınızı tanımak için elinizde bazı nitelikler var; kareli kırmızı gömlek ve lacivert pantolon giymiş, siyah saçlı, uzun boylu gibi. Arkadaşınızı bulmak için kalabalıkta çok zor da olsa seçmeye çalışıyorsunuz. Siyah saçlı insanlar çok fazla olduğu için arkadaşınızı ayırt edecek nitelik olmadığına karar veriyorsunuz ve uzun boylu insanlara odaklanıyorsunuz. Uzun boylu insanların siyah saçlara göre daha az olduğunu görüyorsunuz filtreleyerek aramaya devam ediyorsunuz. Pantolona bakamıyorsunuz çünkü görmek mümkün değil ve kareli kırmızı gömlek olanlara bakıyorsunuz. Kalabalıktan seçmek zor olsa da kimsede bu gömlek olmadığı için sonunda arkadaşınızı buluyorsunuz ve güzel eğlenceli bir akşam geçiriyorsunuz.

Öznitelik seçimi de yukarıda anlattığım olay örgüsünün aslında çok benzeri bir algoritması var. Binlerce değişkeninin olduğu verilerde sizin araştırmanızı destekleyen çok az değişken olabilir ve bunları diğer gereksiz değişkenlerden ayırt etmek gerekebilir. Diğer gereksiz değişkenlerin varlığının araştırmanızı yanlış etkileme olasılığı yüksektir. Öznitelik seçimi yapmanın hem biyoloji açısından hem de hesaplama açısından avantajları vardır.

Öznitelik seçimi avantajları;
  • Gereksiz değişkeni elde etmek için harcayacağınız maliyetten ve zamandan kazanç elde edilir.
  • Verinin analiz sürecinde karmaşıklığa sebep olan çok fazla değişkenin (konserdeki kalabalık gibi) etkisinden kurtularak güvenilir modeller kurulur.
  • Veride varsayım bozukluğuna sebep olan (aykırı değerler büyük varyanslılık gibi) gürültüleri temizler.
  • Daha az değişkenle veriyi anlamak, bilgi çıkartmak ve yorumlamak daha kolay olur.

Yararları belki daha da arttırılabilir. 

T-istatistiği, ki-kare istatistiği öznitelik seçimi yöntemlerinden bazılarıdır. Hipotez testinden farkı, skorlar tablo değerleri ile karşılaştırılmaz ve kendi içinde sıralama yapılarak seçilir. Önemli bir sorun da kaç tane öznitelik seçileceğidir. Belli bir katsayının üzerindekileri almak gibi literatürde çok farklı yöntemlerden bahsedilmiştir. Fakat araştırmacının deneyimi bu durumda ön plana çıkmaktadır.


Sözün Özü:

Öznitelik seçimi; önemli değişkenlerin veriden çekilmesi ve boyut azaltma işlemidir. Veriyi en az değişkenle en iyi açıklamak için kullanılan yöntemdir.