29 Mart 2013 Cuma

Cytoscape - 2

Önceki yazımda Cytoscape ile tanışma maceramdan bahsetmiş ve bir örnekle giriş yapmıştım, daha doğrusu bu örnekle yazıyı tamamlamıştım :) Önceki yazıdaki örneği ve yaklaşımı anlamak çok kıymetli; zira, bu yazıda vereceğim diğer gerçek hayat verisi aynı yaklaşımın biraz daha iyileştirilmiş versiyonu. Bu sefer, bir mikrodizi [microarray] verisini ağ  analizlerine tabi tutuyorum. Bu örneğe geçmeden değinmek istediğim başka bir konu var.

Yazılarımı takip edenler bir uyum olayına zaman zaman vurgu yaptığımı farketmişlerdir. Farklı teknoloji veya yaklaşımları biraraya getirip tek bir uygulamaymış hissi verebilmek maharet istiyor ve bence bu kesinlikle odaklanılması gereken konulardan biri. Buna nasıl bir örnek verebilirim diye düşünürken, birkaç gündür dilimde olan bir şarkı imdadıma yetişti :) Murat Dalkılıç'tan Lüzumsuz Savaş; Zeynep Bastık kendisine eşlik ediyor şarkıda.

Dört ayrı video bulabildim Youtube'da beraber söyledikleri: ilki şarkının klibi, ikincisi bir müzik kanalında geçiyor ve izlenme sayısı 2 milyon civarında. Üçüncüsü ve dördüncüsü ise iki ayrı programda yer alıyor. İki farklı ses ve farklı enstrüman kombinasyonlarının birbiriyle ne kadar uyumlu ve uyumsuz olabileceğini bu dört videoda rahatça görebiliyorsunuz; eninde sonunda aynı şarkıyı söylüyorlar ancak bazı kısımlar kulak zevkinize hitap ederken bazılarında ise dinlemek adına dinliyorsunuz. Biyoinformatik projelerinde de aynı durum geçerli; ortaya koyduğunuz yazılım ve/veya raporların muhataplarında bıraktığı tad da aynı şekilde değişebiliyor. Bunun biyoinformatik dünyasından bir örneği Webgestalt, Babelomics ve DAVID ile gözlemlenebilir. Bu 3 web aracıyla yapabileceğiniz şeyler aşağı yukarı aynı ancak Babelomics'in kullanıcı odaklı yaklaşımını DAVID'de hissedemiyorum. Webgestalt bile göreceli az gelişmiş arayüzüne rağmen daha sıcak geliyor. Zaten bu 3 ayrı web aracını geliştiren ekiplere bir göz atınca bu farklılığın nereden geldiğini anlıyorsunuz.


Geliyoruz Cytoscape'in etkin bir şekilde kullanılabileceği ikinci gerçek hayat örneğimize. Bu analizi AG Biyoinformatik çatısı altında kıymetli bir araştırmacımız için gerçekleştirdiğim için detayları değiştirerek anlatacağım, ancak ana fikir ve yaklaşım gayet açık olacak.

Deney sistemi, iki boyutlu olarak kurulmuş. Yani, toplam 16 örnek var, bunların 8'i Uzun, 8'i Kısa. Yine bu iki grubun da yarısını 4'er Büyük ve 4'er Küçük'ten oluşan örnekler oluşturuyor. Şöyle gösterelim örneklerin dağılımını:


UzunKısa
Büyük4 örnek4 örnek
Küçük4 örnek4 örnek



Bu örnekler ışığında sorulan 3 soru var; 1) Uzun ve Kısa örnekler arasında anlatımı anlamlı olarak farklılık gösteren genler neler, 2) Büyük ve Küçük örnekler arasında anlatımı anlamlı olarak farklılık gösteren genler neler, ve son olarak 3) Uzun-Kısa olma durumuyla Büyük-Küçük olma durumu arasındaki -varsa- ilişkiyi ortaya koyabilecek genler neler? Aklınıza ilk gelen şeyin ANOVA olduğunu tahmin ediyorum, ancak dahası da var ve bu dahası Cytoscape ile mümkün olacak.

İlk aşamada yaptığım şey, ANOVA (2-way) kullanarak istatistiksel açıdan anlamlı gen listelerini bulmak; R kullanarak bunu gerçekleştirebiliyoruz. Bu tarz p-değeri listeleriyle uğraşanlar biliyorlardır ki, genelde bu listeler neredeyse hiç bir şey anlatmaz ve eğer çok şanslıysanız en düşük p-değerine sahip genler arasında dikkat çekici şeyler bulabilirsiniz; bu hakikaten çoğu zaman şansa bağlı. Bu nedenle artık bu tarz analizleri daha ileri seviyeye taşıma eğilimi var dünyada.

Bir sonraki aşama, bu anlamlı değişim gösteren genler arasındaki ilişkiyi ortaya koyacak bir ağ gösterimi tasarlamak. Ancak öncesinde bu genler arasındaki ilişkiyi ortaya koymak için korelasyon testlerine başvuruyoruz. Bu aşama zaman alabiliyor ve özellikle RAM'in etkili kullanılması gerekiyor. Standart korelasyon metotlarıyla büyük verilerin arasındaki ilişkiyi kolayca ortaya koyamıyorsunuz; ben de kendi geliştirdiğim fonksiyonlarla bu aşamayı geçtim. Aradaki ilişkiyi şu şekilde tanımlıyorum: tüm örnekler boyunca iki geni alıyorum ve her bir örnekte beraber hareket edip etmediklerini (beraber artıp artmadıklarını) test ediyorum. Belirli bir değerin üzerinde korelasyon katsayısına (r) sahip gen çiftlerini seçiyorum ve bunları Cytoscape'in sevdiği şekilde düzenliyorum. İkinci olarak, her bir gene ait ilgili bilgileri ekliyorum; bunlar her bir ANOVA sonrası elde edilen p değerleri (her bir gen için 3 p değerimiz var) ve Uzun-Kısa ile Büyük-Küçük örnekler arasındaki ifade kat değişimi [fold change]. Üçüncü dosya olan grafiksel özellik dosyasını ise bu aşamada hazırlamıyorum; bunu Cytoscape içerisindeki varsayılan özellikleri değiştirerek yapıyorum. Biraz grafik eklemenin zamanı geldi :)



Yukarıda, her bir gene ait bilgilerin tek seferde nasıl gösterildiğini görebilirsiniz. En dışta yer alan alt ve üstteki halkalar, Uzun/Kısa ve Büyük/Küçük ifade değerlerindeki artış ve azalmaları temsil ediyor; kırmızı artış, yeşil ise azalışın göstergesi. İçteki 3'e bölünmüş daireler ise aynı şekilde p değerlerini temsil ediyor; ne kadar halka varsa içeride 1/3'lük daire parçasında, o kadar anlamlı (p değeri düşüyor) bir farklılık var demek kıyaslanan iki grup arasında. Sağdaki üstüste iki dairede ise örnek iki gösterim görüyorsunuz. Bu değerler Excel dosyasında boylu boyunca uzanırken bu farklılıkları ve seviyelerini anlayabilmek ve bunu binlerce gen için yapabilmek imkansıza yakın. Yaşasın Cytoscape ve güzel hazırlanmış grafik araçları :)

Gelelim ağ gösterimine. Önce büyük resmi göstereceğim; bakar bakmaz bazı ilişkileri renklerin dağılımından kolayca farkedebileceksiniz. Bu ağ gösterimi de gerçeği yansıtan fakat kurmaca verilerle hazırlanmış bir gösterim, bunu hatırlatmak istiyorum tekrar.



Yukarıda yer alan grafiğe baktığınızda, büyük bir tek ağ olduğunu ancak sağ tarafta mavi ağırlıklı genler yer alırken solda turuncu ağırlıklı genlerin yer aldığını göreceksiniz. Mavi, Uzun-Kısa kıyaslamasındaki anlamlı sonuçları gösteriyorken, turuncu ise Büyük-Küçük kıyaslamasındaki anlamlı sonuçları ifade ediyordu. Kendi aralarındaki yüksek etkileşim ne kadar da açık bir şekilde görülüyor değil mi! Yine bunun yanısıra, beklendiği üzere artma ve azalma değerleri benzer olan genler de kendi aralarında gruplar oluşturmuş. Biraz daha detaylı bir bakış atalım.




Şu anda ağın merkezine bakıyoruz; farklı gen gruplarını birleştiren genlere dikkatinizi çekmek istiyorum; oralarda bir yerde kıymetli genler var. Büyük ihtimalle hücredeki hiyerarşide yukarılarda yer alıyor bunlar. Son olarak, her ağ analizinde karşımıza çıkan ve büyük ağın dışında kalan irili ufaklı yancı küçük ağlara bir bakalım.



Kendi aralarında benzer ifade özellikleri nedeniyle biraraya gelmiş bu gen gruplarından bu ağda onlarca var; ancak yukarıdakiler üzerine odaklanmanızı ve bu şekli incelemek için 5-10 dakikanızı  ayırmanızı öneriyorum. Çok enteresan şeyler keşfedebilirsiniz!

Önceki yazıda da belirttiğim gibi; gerçek veriyle çalışmak gayet zor ancak sonunda elinize geçen çıkarımlar hem kıymetli, hem de enteresan. Bu ağ etkileşimlerinin üzerine gidip buradan çok daha farklı çıkarımlarda bulunmak ve analizi derinleştirmek mümkün ancak bu yazının odağı Cytoscape olduğu için burada bırakıyorum. Umarım Cytoscape'den etkilenmenizi sağlayabilmişimdir :)


Sözün özü:
Cytoscape ile ifade değişimlerini içeren yüksek çıktılı genomik teknoloji (mikrodizi ve YNS) verilerine ileri seviyede biyoinformatik analizler uygulayabilirsiniz ve etkileşimler ışığında hücrenin içerisine o zamana kadar kimsenin bakmadığı şekilde bakabilirsiniz.




Proje:
Bir önceki yazımdakinden daha zor bir projeyle çıkıyorum karşınıza: IMKB 30 endeksinde yer alan hisse senetlerinin son bir aylık değişimleri üzerinden bir korelasyon analizi yapın ve beraber hareket eden hisse senedi gruplarını Cytoscape'de gösterin. Ardından, ortalama hisse senedi değerlerini renklerle temsil edin; hazırlayacağınız ağ gösterimine göz atan birisi hızlı bir şekilde hangi hisse senedi gruplarının daha değerli olduğunu anlayabilsin.

Meraklısına:
İki yazımda da yer alan gösterimleri hazırlayabilmek için Cytoscape'in fonksiyonlarına biraz doping gerekiyor: Google Charts. Adamlar çok güzel yapmış.