24 Mayıs 2013 Cuma

Veri Analizinde Uygulanan Adımlar - 3 (Sorunun Belirlenmesi)

Verileri, yorumlayacak kişi veya grubun üzerinde kontrol sahibi olup olmaması açısından iki farklı çatı altında toplayabiliriz. Bunlardan ilki, yorumlanacak olan verilerin üzerinde kontrol sahibi olabildiğiniz, deneysel çalışmaları veya sahaya inmeyi gerektiren veri tipleridir ve ortaya çıkacak olan analiz sonuçları üzerinde doğrudan etkiniz vardır. İkinci tip veri ise, verinin toplanış biçimi de dahil olarak üzerinde herhangi bir etkinizin olmadığı, ya bir veritabanından ulaştığınız, ya da farklı kaynaklardan derlediğiniz verilerdir. 

Deneysel çalışmalar genellikle çok iyi tanımlanmamış sorularla başlar; çoğu zaman yüksek çıktılı [high-throughput] teknolojilerle yapılan çalışmalarda bu soruları tanımlayabilmek çok da kolay değildir. Ancak deneysel süreçlerin sonunda elde edeceğiniz veri, öncesindeki süreci nasıl planladığınızla doğrudan ilişkilidir ve çoğu çalışmanın gerçek potansiyeline ulaşmasını büyük oranda belirler. Bu nedenle bu süreçler sonucunda elde edeceğiniz veriler üzerinde teknik detaylar hariç olmak üzere çok büyük oranda etkiniz vardır. Etki çoğu zaman sorumluluk da getirir, bu nedenle iyi planlanmamış bir deney en hafif haliyle insan, cihaz ve sarf kaynaklarının israfı anlamına gelir. Peki bu aşamada nelere dikkat edebiliriz?

İlk olarak, teknolojinin seçimi ön plana çıkıyor çünkü çoğu zaman uygulayacağınız deneysel protokoller kullanacağınız teknoloji doğrultusunda şekillenir. Örneğin, sorunuz gen ifade [gene expression] seviyelerini belirleyerek cevaplanabilecek ise mikrodizi [microarray] ile Yeni Nesil Sekanslama (YNS) arasında bir karar vermeniz gerekir. Her iki platformda da üretilen veriler doğası gereği çok farklı karakteristik özelliklere sahiptir ve bu da verilerin yorumlanmasını büyük ölçüde etkiler. Bir teknoloji türünde karar kılsanız dahi (örneğin YNS) o teknolojinin farklı uygulayıcıları (Illumina, Ion Torrent, 454 vb.) işin detay kısmında farklı tercihlerle cihazlarını geliştirdikleri için bu aşamada bile bilinçli bir seçime ihtiyacınız vardır. Veri analiz deneyimlerim doğrultusunda karşılaştığım gerçek durumlardan iki örnek vererek devam edeceğim.

Eğer genomik çalışmalar yürütüyorsanız, çoğu zaman ucuz veya erişilmesi kolay olan mikrodizi teknolojisini tercih edersiniz (dünyada durum biraz daha farklı, kendi ülkemizin şartlarını gözönüne alarak bu varsayımda bulunuyorum). Eğer sorunuzun cevabı SNP [single nucleotide polymorphism] verisi elde etmekten geçiyorsa, en uygun mikrodizi teknolojisi Illumina'nın sunduğu teknolojidir. Ancak niyetiniz gen ifade verileriyle çalışmaksa, o zaman Illumina ürettiği verilerin özellikleri açısından geride kalır ve pek de iyi bir tercih değildir. Bu tür bir detaya dikkat etmezseniz, farklılıkları araştırmazsanız veya bir bilene sormazsanız, elde edebileceğiniz potansiyel sonuçların %30'una kadar bir kayıp yaşayabilirsiniz.

İkinci örnek ise YNS'den. Eğer amacınız mutasyon verilerini elde etmekse Illumina ilk tercihiniz olmalı, Ion Torrent veya 454 aynı kaliteye ancak çok yüksek maliyetlerle ulaşabiliyor; doğası gereki PacBio ise neredeyse hiç uygun değil böyle bir çalışma için. Ancak amacınız hiç çalışılmamız bir genomu dizilimlemek veya bir örnekteki türleri belirlemek ise, o zaman Illumina gereğinden fazla kaliteli bir veri üreteceği için maliyet açısından en iyi tercih olmayabilir; Ion Torrent veya PacBio bu durumda ön plana çıkmaktadır. Yanlış bir tercih yaparsanız, çalışmanızın niteliği doğrultusunda verinizin yarısından fazlası kullanılamaz hale gelebilir veya toplam maliyetleriniz iki katına kadar çıkabilir. Zaman kaybından bahsetmiyorum bile.

Tüm bunlar sizin sorduğunuz soruyla doğrudan ilişkilidir. Bu nedenle olay dönüp dolaşıp yine aynı yere geliyor: tam olarak cevaplamak veya aydınlatmak istediğiniz şey nedir? Bunun çerçevesini iyi bir şekilde belirleyemezseniz, deney tasarımınızı, deney gruplarınızı ve örnek sayılarınızı da uygun bir şekilde belirleyememişsiniz demektir. Şuna da baksaydık diyebileceğiniz eksik bir deney grubu tüm çalışmanızı mahvedebilir veya büyük ölçüde anlamsız kılabilir; buna maalesef birçok kez şahit oldum. 

Önemli olan bir diğer mevzu ise, karşılaştırma yapacağınız referans veya kontrol gruplarını iyi tanımlamak ve belirlemek. Modern teknolojilerin neredeyse tamamı mutlaka bir referans deneye ihtiyaç duyuluyor ve yerinde tasarlanmayan deney grupları analizden elde edilebilecek sonuçları büyük ölçüde kısıtlıyor. 

Peki, ya verilerin üretilmesi üzerinde bir etkiniz yoksa? Yani, ya analize son aşamada dahil olmuşsanız ya da veritabanlarındaki mevcut verileri seçmek zorundaysanız? Devreye yine sorunun doğru bir şekilde belirlenmesi giriyor. Verilere göre soruyu belirlemek yerine, sorunuzu cevaplayabilecek verilerin seçilmesi çoğu zaman daha etkili ve odağınızın da kaybolmamasını sağlıyor.

Birkaç örnek soru üzerinden gidelim: 
Son bir yıllık dönemde en fazla değişen ilk on hisse senedi, sonraki on hisse senedine göre ne kadar değişmiş? 
Bir etken maddenin literatürde de belirtilen 4 farklı dozu, üzerinde çalıştığımız model organizma üzerinde gen ifadesi açısından nasıl bir etkiye sahip  
İlgilendiğim proteinlerin ortak protein alt birimlerinin olup olmaması benim deneysel süreçlerim açısından anlamlı mı? Veya, elde edeceğim verilerin protein verileriyle de birleştirilebilmesi benim için önemli mi?
Her bir soru, aslında sonrasında karşımıza çıkacak olan seçeneklerden hangisini seçmemiz, veya daha önemlisi, seçmememiz gerektiğini belirliyor. Bir sonraki yazıda, sorduğumuz soruların cevabını en iyi şekilde verebilecek analiz hedeflerinin neler olması gerektiğinden bahsedeceğim.


Sözün Özü:
Sorunun belirlenmesi, açık denizde yol almak üzere yola koyulurken rotanın belirlenmesi gibidir. Doğru rota sizi hedefinize ulaştırır veya en azından yaklaştırır. Yanlış, eksik, veya bir odağa bağlı olmadan değişen bir rota ise sizin zamanınızdan, kariyerinizden, sosyal hayatınızdan ve finansal kaynaklarınızdan çalar.



Proje:
Üzerinde çalıştığınız konunun amaç ve kapsamını belirlemeye çalışın. Amaç, aydınlatmak istediğiniz soruyu ifade ederken, kapsam ise, bunu hangi çerçevede gerçekleştirmek istediğinizi belirler. Özellikle BAP ve TÜBİTAK gibi bilimsel proje başvurularında araştırmacıların kafasını çoğu kez karıştıran bu kavramlar üzerine birkaç kez kafa yormanız, proje yazma aşamasına geldiğinizde işinizi fazlasıyla kolaylaştıracaktır.

Meraklısına:
Sorunun doğru veya uygun bir şekilde sorulup sorulmadığının en büyük göstergesi, akşamları ve haftasonunda neyle uğraştığınızdır. Eğer sevdiğiniz değil de yapmak zorunda olduğunuz şeyler sosyal hayatınızdan çalıyorsa, bu durum rotanızda bir yanlışlık olduğunun göstergesi olabilir (çoğu zaman rotanızı başkası belirliyordur). Bunun üzerine yazılmış birçok yazı bulabilirsiniz.