19 Ağustos 2015 Çarşamba

Yoğunlaştırılmış Biyoinformatik Kursu 1. Gün Özeti - 30/06/2015

Gecikme için özür dileyerek başlamak istiyorum; bu notları çok daha önce yayınlamam gerekiyordu. Aşağıda, eğitimin ilk gününde bahsedilen konulara ait ve bu seneki yaz kampı ekibimin gözünden notlar bulacaksınız. Bu notları olgunlaşmış bir eğitim materyali olarak görmek yerine bu alanda bir genel kültür edinmenize ve nereden devam etmeniz gerektiğine ilişkin bir anlayış geliştirmenize yardımcı olacak destekleyici bir döküman olarak okumanızı öneririm. Bu gönüllü organizasyonun hayat bulmasında çok büyük emekleri olan ekibime ve o gün yanımızda olarak bize destek veren ve elimizde olmayan sebeplerden ötürü karşılaştığımız sorunlara karşı hoşgörüsünü eksik etmeyen değerli katılımcılarımıza bu vesileyle tekrar teşekkür etmek istiyorum.

- Ahmet Raşit Öztürk ilk sunumunda biyoinformatiğe giriş niteliğinde bilgiler aktarmıştır. Biyoinformatik özetle, karmaşık [complex] ve yüksek çıktılı [high-throughputbiyolojik verilerin derlenmesi ve analiz edilmesi bilimidir. Diğer bir deyişle de biyolojik verilerden anlamlı hikayeler oluşturmaktır. 

- 19. yüzyılın başında genetik materyal sorgulanmaya başladı. DNA yapısının ve işlevinin anlaşılmasıyla DNA'ya olan ilgi hızla arttı ancak hâlâ bildiklerimiz oldukça az. 

- Doğada her şey bir programlama üzerine kuruludur. İnsan da genetik koduna göre çevresel şartlara tepki verir. Her şeyin arka planında bir programlamanın varlığını kavrayabilmek hücresel mekanizmaları anlamak adına önemlidir. 

- 20. yüzyılın sonlarına doğru başlayan İnsan Genom Projesi benimsediği deneysel yöntem gereği oldukça ağır ilerliyordu. Bu sırada daha hızlı ancak başlarda kabul görmeyen bir yöntemi (shotgun sequencing) benimseyen Craig Venter'in başında bulunduğu Celera şirketi kuruldu ve bu yöntemin sanıldığının aksine büyük genomlarda da kullanılabildiğinin görülmesi üzerine İnsan Genom Projesi ile yöntem ortaklığına giderek eş zamanlı olarak taslak insan genomu 2000'lerin başında açıklandı. Genom çözüldüğünde elimizdeki veri oldukça büyüktü ve dönemin bilgisayarları bu bilgiyi ileri derecede işleyecek kapasiteye sahip değildi. Bunun yanı sıra elimizdeki bu bilgi ile ne yapacağımızı ve elimizdeki verileri nasıl analiz edeceğimizi bilmiyorduk. 

- Genomda tekrarlı bölgeler, mutasyonlar, delesyonlar gibi pek çok unsur mevcuttur. Bu anlamda pek çok şey biliyorduk; ancak bu bildiklerimizle ne yapacağımızı bilmiyorduk; dolayısıyla işimize yaramıyordu. Bunlarla beraber ekson uzunluğunun üçün katları olduğunu biliyorduk ve exon ile intron bölgelerinin başladığı yerleri genellikle belirleyebiliyorduk. Öte yandan bir genin nerden başladığı bulmak nasıl devam ettiğini ve davrandığını bize söylememektedir. Alternatif kırpılmanın hücrede sandığımızdan da yaygın bir şekilde kullanıldığının anlaşılmasıyla genlerin işleyişine ilişkin bilgimiz değişmiştir. 

-Genomik bilgilerin depolanması, erişilebilir olması ve derlenmesi amacıyla biyolojik veritabanları oluşturuldu. Buralarda pek çok ham ve işlenmiş veriye yer veriliyordu. Bu alanda çalışma gerçekleştirenler araştırmacılar biyolojik verinin kendi ilgilendikleri ucundan tuttu ve kısa sürede ortam bir veri çöplüğüne döndü. GeneCards gibi projelerle veritabanlarındaki bilgiler tekrar veritabanlarında derlendi. Tüm bunların gösterdiği şey aslında hala çoğunlukla derleme aşamasında olduğumuzdur. 

- Verilerin analizi aşamasına giriş yaptığımızda santral dogma yaklaşımının sorun oluşturduğunu ve yetersiz kaldığını görüyoruz. Mesela ubiquitin gibi, doğrudan bir gen tarafından kodlanmayan ancak farklı proteinlerin kırpılmasıyla oluşan proteinler de mevcuttur. 

-Klasik bilimsel yaklaşım, yani özetle bir parametreyi değiştirip kalan tüm parameteleri sabit tutma yaklaşımı 2'den fazla unsurun etkileşimini araştırmaya başladığımızda son derece karmaşıklaşmaktadır ve yetersiz kalır. Örneğin ökaryotlarda hücresel bir fonksiyonu gerçekleştirmek üzere genellikle birden fazla protein dinamik bir kompleks oluşturur. Bu kompleksler oldukça hassas olabilmektedir; bu kompleksteki herhangi bir proteinin yapısında mutasyonların/varyasyonların sebep olduğu çok ufak değişiklikler bile ilgili hücresel aktivitenin verimliliği üzerinde bir etkiye sahip olmaktadır. Bu anlamda bir ikileme de düşmekteyiz "Proteinleri tek tek mi incelemeliyiz yoksa kompleksler halinde mi incelenmeli?". Bu anlamda yeni analiz yaklaşımlarına ve bilimsel felsefelere ihtiyaç duyulmaktadır. Örneğin, her ne kadar ilk çıktığı zamanda pek kabul görmese de Bayes'in çalışmaları bu noktada faydalı ve ilham verici olmaktadır.

- Örneğin, hayali iki farklı çalışma sonunda elde edilen ve bir genin ufak bir kısmını oluşturan ATGCTG ve ATGCTC dizilimlerinden hangisinin daha doğru olduğunu belirleme sorunu en başından beri karşımıza çıkmaktadır. Her iki dizilimde sadece son bazlar birbirinden farklıdır ancak her ikisi de doğru olabilir; burada daha esnek bir gen tanımına ihtiyacımızın olduğu söylenebilir. İnsan genomunu anlamak için on binlerce genomu analiz etmek gerekmektedir; farklılıkların anlamını ve önemini anlamak bir sonraki aşamada gerçekçi ve anlamlı analizler yapabilmek için büyük önem taşımaktadır. 

- GeneCards'ın bir "veritabanları" veritabanı olduğundan bahsetmiştik. Burada her bir gene ait bilgi kartları oluşturmak şeklinde bir yaklaşıma başvurulmuştur ve bu kartlar fikir olarak, kayıtların dijitalleşmesinden önce kütüphanelerde yer alan ve kitaplar hakkında özet bilgiler derleyen kitap kartelalarına benzemektedir. GeneCards, bir gene ait diğer isimleri, o genle ilişkilendirilmiş hastalıkları, farklı dokulardaki gen ifadesi bilgilerini, genin fonksiyonları ve ilgili protein bilgileri ve domainler gibi pek çok bilgiyi farklı ve güvenilir kaynaklardan derlemiştir. Bu farklı kaynaklar Ensembl, NCBI Entrez, OMIM, Uniport, PDB gibi bir liste şeklinde uzar. 

- GeneCards ve benzeri diğer biyolojik veritabanlarında yer alan bilgiler sürekli güncellendiğinden çalışmalarda bu veritabanlarından faydalanırken bilgilerin versiyon numarası ve veritabanına erişim tarihi mutlaka not edilmelidir. 

- Her ne kadar biyolojik veritabanlarındaki bilgiler dünyanın her tarafındaki araştırmacılar tarafından derlense de, sekanslara ilişkin doğrulanmış bilgiler NCBI'da RefSeq, Ensembl'da ise Vega veritabanlarında tutulmaktadır ve bu sekanslar güvenilir referanslar olarak düşünülebilir. 

- GeneCards'ın oluşturduğu GIFT skoru bir gen hakkında ne kadar bilgi sahibi olduğumuzu gösterir. Protein kodlayan genlerin puanı genellikle daha yüksektir. GeneCards üzerinden diğer pek çok veritabanına erişmek mümkündür. Her yıl daha da katlanarak büyüyen biyolojik veri birikimi düşünüldüğünde elimizde oldukça karmaşık bir literatür vardır. Literatür taramalarında farklı gruplar tarafından oluşturulan sözlüklerdeki anahtar kelimeler bilimsel çalışmalar ile ilişkilendirilerek kategorik olarak sorgulanması daha kolay kaynaklar oluşturulmuştur ve bunların en gelişmişi Gene Ontology veritabanıdır.
- Genomik veriler sunan iki önemli olarak NCBI Entrez ve Ensemb'dan bahsedebiliriz. Kullandıkları genomik veri aynı olmasına rağmen sunuş biçimleri ile farklılaşırlar. Ensembl özellikle primer tasarlama için daha kullanışlıdır ve genin farklı transkriptlerini NCBI'a göre daha kullanışlı bir şekilde sunmaktadır. Ayrıca Ensembl'da ekzonların yerleri, yoğunlaştıkları bölgeler ve varyasyonlar gibi bilgiler daha açık verilmiştir. 

- Bu veri tabanlarından elde edilebilecek dizi bilgilerine ait formatlardan biri FASTA'dır. FASTA metin tabanlı bir formattır ve ilk satırında gen bilgisi içerir; hemen alt satırda ise sekans bilgisi yer almaktadır. Bu format bir nükleotit veya aminoasit diziliminin elde edilebileceği en sade ve yaygın formattır. 

- Veritabanları yalnızca genomik bilgilerden oluşturulmamıştır; bunların yanısı sıra klinik, proteomik, yapısal ve fonksiyonel verilere odaklanmış veritabanları da mevcuttur. Bunlardan birkaçı şunlardır: ClinVar, klinik vakalarla ilişkilendirilmiş varyasyonları içeren veritabanıdır. KEGG, Japon bilim insanlarınca geliştirilmiş etkileşim haritası / yolak veritabanıdır. PDB, proteinlere dair bilgileri ve 3 boyutlu yapıları içeren veritabanıdır.