17 Ocak 2014 Cuma

Kümeleme Analizi

İnsanın doğası gereği yeni bir bilgiyi öğrenmek, ve öğrendikten sonra bu bilgiyi kolay ve hızlı bir şekilde geri çağırmak için beynimizde sınıflara ayırırız. Giysi dolabımıza kıyafetlerimizi ayırarak koyduğumuz gibi. Pantolonlarımız bir yerde, kazaklarımız ayrı bir yerde olduğu gibi. Benzer giysileri bir araya koyarız çünkü bulmak istediğimizde nereye bakmamız gerektiğini biliriz hemde ulaşmak daha hızlı ve pratiktir. 

Verimizde benzer gözlemlerin olduğunu düşünüyorsak ve sınıflara ayırmak istiyorsak kümeleme analizi kullanırız. Kümeleme analizi veriya ait değişkenleri kullanarak, benzer gözlemleri kümeleme işlemidir. Biyoinformatikte genel resmi vermesi ve sonraki adıma ışık tuttuğu için sıkça kullanılan bir analiz yöntemidir. 

Benzer genleri kümelemek istediğimizde, bir gen ailesine sahip sekansları kümelemek için, gen ve protein anatasyonu yapabilmek için gibi işlemlerde kullanılır. 



Kümeleme analizi yapabilmek için bir çok yöntem mevcuttur. Verinin yapısına göre yöntemlerin avantajları ve dezavantajları vardır. Keşfedici veri analizinden sonra uygun yöntem seçilebilir. Bir diğer konu ise küme sayısının araştırmacı tarafından belirlenmesi yada algoritma tarafından belirlenmesidir. Eğer veri hakkında önceden bir bilgi varsa(hiyerarşik olmayan kümeleme) araştırmacı tarafından belirlenmesi avantajlı olabilir. Eğer hiç bir bilgi yoksa algoritma tarafından belli küme sayısına bölünür (Hiyerarşik kümeleme) ve doğruluğunu geçerlemek için ANOVA gibi analizler kullanılabilir. 

Kümelere ayrılan bir veri üzerinde çalışmak çoğu zaman daha avantajlıdır. Kümelerin karakteristik özellikleri keşfedilebilir ve uygun bir model kurularak değişkenler üzerinden yorum yapılabilir. 

Sözün Özü:

Kümeleme analizi, birimleri sınıflara ayırma işlemidir. Kümelere  ayrılan birimler üzerinde çalışmak veriden bilgi edinme bakımından daha yararlı ve kullanışlı olmasıdır.