6 Mart 2017 Pazartesi

Yeni Nesil Sekanslama Temel Veri Analizi - 3

Geçen yazıda elimizdeki ham verilerdeki adaptörleri temizleyip gerçek okumaları elde etmeyi başarmıştık, fakat ortalığı da biraz dağıtmıştık. Sadece ara aşamalarda kullandığımız ve son aşamada artık ihtiyaç duymadığımız dosyaları ya silebiliriz, ya da bu süreçli ardarda bağlayarak her bir aşamadan elde ettiğimiz çıktıyı doğrudan sonraki aşamaya gönderebiliriz. UNIX dünyasında bu yaklaşıma Pipeline adı veriliyor, Türkçe'ye boru programlama veya boru haberleşme şeklinde çevrilmiş. Bilgisayarda kayıtlı dosyaları birer depo olarak düşünelim, depolardan sıvı çekip bu sıvıları işleyen veya diğer bir deyişle dosyalardan veri çekip bu veriler üzerinden işlem yapan programları da birer işleme tesisi olarak hayal edelim. Bu benzetme üzerinden gidelim: şimdiye kadar yaptığımız şey FASTQ depolarından bilgiyi satır satır alıp işleyen programlar kullanıp, işlenmiş verileri tekrar depolara, veya dosyalara kaydetmekti. Artık aradaki depolardan kurtulup işleme tesisleri doğrudan birbirine bağlayabiliriz: Böylece hem aradaki dosyalardan kurtulur, hem de yaptığımız işlemleri daha derli toplu olarak kaydedebiliriz.