"İnsanlar
dünyanın düz olduğuna inandıkları zamanlarda haksızdılar. Dünyanın küre
şeklinde olduğunu düşündüklerinde de haksızdırlar. Fakat eğer dünyanın küre
şeklinde olduğuna inanmanın, düz olduğuna inanmak kadar yanlış olduğunu
düşünüyorsanız, sizin bakış açınız bu kişinin toplamından daha yanlıştır."
Isaac Asimov
Dünyanın
geoit bir yapıya sahip olduğunu gelişmiş teknoloji ve bilim sayesinde
biliyoruz. Geçmiş zamanlarda ise bunu bilmek zordu. Veri çok azdı ve kısıtlı araçlar
ile çalışmalar sürdürülmekteydi. Günümüzde de bazı istatistiksel çalışmalarda
bu durumla karşı karşıya gelebiliyoruz. Örneklemin az sayıda olması, verinin
aykırı değerler içermesi, yanlış yöntemlerin seçilmesi gibi nedenlerden dolayı
dünyanın düz bir şekle sahip olduğu sonucuna varıyoruz. İyi bir çalışmada bile
geoit sonucuna varamasak da küre şeklinde olduğuna dair yorum getirmemiz çok
değerli bilgileri sunar. İstatistiğin aslında tanımından gelen bir varsayım ile
(yanılma payı) geoit olması göz ardı edilebilir olması uygulamada kullanılabilirliği
avantajını sağlar.
Matematiksel
model: y=a+bx
İstatistiksel model: y=a+bx+ε
İstatistiğin
matematikten farkı yanılma payı (ε) ile başlar. Belli bir yanılma ile hipotezlerini
test eder. Modeldeki hata terimi sayesinde belirli bir güven düzeyi içerisinde dünyanın küre şekli olduğunu kabul etmemizi sağlar. Güven aralığı sayesinde zaman zaman geoit olabileceğini ama çoğunlukla küre şekline benzediğini söyleyebileceğini de not düşmek lazım. Yanılma payını (hatayı) ilerideki yazılarımda biraz daha detaylı
açıklayacağım.
Örneklemin
az sayıda olması, verinin aykırı değerlere sahip olması ve yanlış yöntemlerin
seçiminin ne demek olduğunun anlaşılır olması için örnekle açıklama yapmanın daha faydalı
olacağını düşünüyorum.
Örnek
Bir
hastalığa ait genin hastalık durumunda gen ifade düzeyini incelemek istiyoruz
diyelim.
Örneklem
|
X geni(sağlıklı)
|
X geni(hasta)
|
1
|
15
|
75
|
2
|
25
|
50
|
3
|
13
|
10
|
4
|
54
|
500
|
5
|
12
|
30
|
6
|
35
|
40
|
7
|
41
|
35
|
İlk
öncelikle veriye çıkarımsal istatistik yöntemleri uygulamadan sadece
tanımlayıcı istatistiklerle basitçe açıklama yapacağım. Excel'de fonksiyonları
kullanarak siz de çok hızlıca yapabilirsiniz.
Ortalama (mean)
|
27,85
|
105,71
|
Ortanca (median)
|
25
|
40
|
Standart hata (std. error)
|
6,08
|
66,13
|
Genel
bir bakışta 4. gözlemimizde gen ifadesi seviyesinin diğer örnekler arasında çok
fazla farklılık gösterdiğini görüyoruz. Yanlış ölçülmüş olabilir ya da gerçek değeri
de olabilir bilemiyoruz. Bunu örneklem kümemizi arttırarak daha güvenli yorum
yapabiliriz. Ortalamalar üzerinden konuşursak; ortalama denince genellikle
aritmetik ortalama ilk akla gelendir. Aritmetik ortalama en çok bilinen ve
yaygın olarak kullanılan bir ortalamadır. Her gözlemin değerinden etkilendiği
için aykırı ve uç değerlere karşı çok duyarlıdır. Örneğimizde de uç değerden etkilenmiştir.
Standart hata da aritmetik hatanın azizliğine uğramış ve payını o da almıştır.
Oysa böyle bir veride medyan güvenilir
bir merkezi eğilim ölçüsüdür.
Kutu
çizimi (Box plot) yaparak da uç değerlerin varlığını görebiliriz. Box plot
medyandan yararlanarak çizim yapar. Her gözlemden etkilenmediği için ilk bakışta
verimiz hakkında genel resmi çıkarması açısından sıklıkla yararlanır.
Sözün özü:
Girişte alıntıda, Isaac Asimov sözün özünü gayet güzel açıklamış aslında.