10 Nisan 2017 Pazartesi

Yeni Nesil Sekanslama Temel Veri Analizi - 4

Yoğun geçen birkaç haftadan sonra tekrar merhaba. Son yazımızda elimizdeki veriden adaptörleri çıkarmış ve her bir okumadan kaçar tane olduğunu hesaplamıştık. Bu yazıda birkaç ufak temizliğin ardından elimizdeki okumaları nihayet kullanılabilir bir FASTA formatına dönüştüreceğiz, böylece bir sonraki yazımızda bu verileri C. elegans genomuna hizalayıp üzerinden biyolojik çıkarımlar yapabileceğimiz bir veriye sahip olabileceğiz.

Geçen yazıda bir şeyin dikkatinizi çektiğini tahmin ediyorum: ACTG istisnasız her okumanın başında yer alıyor. Yeni Nesil Sekanslama'nın en tatsız taraflarından biri, teknolojinin göreceli olarak yeniliğinden ötürü zaman içerisinde standartların birçok kez değişmesi. Bu nedenle birkaç yıl geriye gittiğinizde bile farklı uygulamalarla karşılaşabiliyorsunuz. Üzerinde çalıştığımız bu dosya, aslında ana projeye ait olan ve çok daha büyük bir dosya grubunun sadece bir parçası: Burada bahsettiğim uygulamaları kolaylıkla ve kısa sürede gerçekleştirebilmek adına ufak bir dosyayla çalışmayı tercih ettim. Bu çalışmada birden fazla örnek aynı anda sekanslandığı için her bir örnek bir barkod ile işaretlenmiş, yani her bir okumanın başına bu barkod deneysel olarak eklenerek sekanslama öyle gerçekleştirilmiş. Bu dosyada kullanılan barkod da karşımıza ACTG olarak çıkıyor. Daha güncel veya farklı konfigürasyonlarda genelde barkod FASTQ dosyasında @ ile başlayan tanımlama satırlarda yer alabiliyor, birden fazla örnek içeren çalışmalarda bu tarz farklılıklara dikkat etmek önem arzediyor.