1 Mayıs 2014 Perşembe

Yeni Nesil Dizilimleme [Next Generation Sequencing] Teknolojisine Bakış - 3 (Mevcut Teknolojiler)

Yeni Nesil Dizilimleme [Yeni Nesil Sekanslama | Next Generation Sequencing] teknolojisini aslında günümüzde ikinci ve üçüncü nesil olarak sınıflandırmak yerinde olacaktır (açıkçası sınıflandırma konusunda tam bir mutabakata da varılmış değil). İkinci nesil dizilimleme [sekanslama | sequencing] teknolojilerinin temel prensibi, DNA moleküllerinin tekrar sentezleme yoluyla dizilimlenmesi ve bunun katı bir yüzeye bu moleküllerin sabitlenerek gerçekleştirilmesi. Özetle, Sanger'de sıvı ortamın içerisinde tam olarak sabitleyemediğiniz reaksiyonları katı bir yüzeyde her bir reaksiyonu belirli bir bölgeye sabitleyerek gerçekleştirirseniz, ve bu katı yüzeyi de yeterince etkili bir şekilde kullanıp her bir ufacık bölgede bir reaksiyon yürütürseniz, o zaman paralel bir şekilde bir çok dizilimlemeyi aynı anda gerçekleştirebilirsiniz. 


Her ne kadar kimyasal süreçler açısından farklılıklar olsa da, ikinci nesil dizilimleme teknolojilerinin temel yaklaşımı yukarıda bahsettiğim prensibe dayanıyor. Örnek olarak ise Roche 454, Illumina ve Life Technogies (SOLID ve Ion Torrent) şirketlerinin cihazları verilebilir. Roche 454 bu teknolojiler arasında bir seferdeki en uzun okuma [read] uzunluğuna sahip, yani Sanger teknolojisiyle elde edilen okuma uzunluklarına en yakın değere ulaşabiliyorsunuz (bir okumada yaklaşık 1000 baz). Ancak bu uzunlukları göreceli olarak yüksek bir maliyetle elde edebiliyorsunuz, bu nedenle 454'ün üretimine birkaç sene içerisinde son verilmesi planlanıyor (tam da bu nedenle bir süredir Roche, Illumina şirketini satın almaya çalıştı ancak henüz başarılı olabilmiş değil). Illumina ise yine göreceli olarak daha kısa okuma uzunluklarına sahip (bir okumada en fazla 300 baz) ancak literatürde bu uzunlukların biyoinformatik analizler için yeterli olduğuna dair birçok araştırma mevcut (yine de bu durum gerçeği tamamen yansıtmıyor). Ion Torrent sistemini ise çok hassas bir pH metre olarak düşünebiliriz: bu teknoloji her bir baz değişimindeki pH değişikliğini algılayarak o anda hangi bazın bu değişime neden olduğunu raporlayabiliyor. SOLID cihazlarında kullanılan teknolojinin temelde Illumina'nın kullandığı teknolojiye benzemesine rağmen özellikle okuma uzunluğuna ilişkin kısıtlaması (bir okumada en fazla 75 baz) onu bu rekabette geriye atıyor. Her bir teknolojinin kendine has teknik detayları var ve bunlara Wikipedia'dan ulaşabilirsiniz; bu yazıda sadece genel prensiplerden ve teknolojilerden bahsetmekle yetineceğiz.

Üçüncü nesil olarak adlandırabileceğimiz teknolojilere de Pacific Bioscience, Complete Genomics ve Oxford Nanopore şirketlerinin geliştirdiği teknolojileri örnek verebiliriz. Bazı sınıflandırmalar Oxford Nanopore teknolojisini dördüncü nesil olarak adlandırıyor, bunu da not düşmek isterim. Bu teknolojilerin ortak özelliği ise PCR gerektirmediği için daha hızlı ve daha ucuz olmaları. Özellikle Pacific Bioscience'ın geliştirdiği SMRT yaklaşımıyla bir seferde 4 kilobaza kadar okuma uzunluklarına erişildiği rapor ediliyor ki, bu durum genomik araştırmalar açısından bir devrim niteliğinde. İnsan genomunun hatırısayılır bir bölümü, genomdaki bazı tekrar bölgelerinin 1000 bazdan daha uzun olmasından ötürü tam olarak dizilimlenemiyor; bu durumda 4 kilobazdan daha kısa olan tekrar bölgeleri bu teknolojiyle okunabilir hale geliyor. Teknolojik kısıtlardan ötürü de tekrar bölgelerinin ne anlama geldiği hakkında da henüz bilgi sahibi değiliz.

Burada dikkat edilmesi gereken bir nokta var, o da ucuzluk. Bir deneyin ne kadar ucuz olduğunu belirleyen temelde üç faktör var: 1) sarf malzemesinin fiyatı, 2) kabul edilebilir bir kaliteye ulaşabilmek için her DNA bölgesinin ortalama kaç kez okunması gerektiği, ve 3) kullanılan cihazlar için yapılan sahip olma yatırımı. Bunlar arasında en çok karıştırılan ise ikinci madde. Biraz ayrıntıya gireyim:

Yeni Nesil Dizilimleme teknolojileri, Sanger dizilimlemeye göre çok daha yüksek oranda hata içerir. Bu hataları en aza indirmek için uygulanan yaklaşım, DNA üzerindeki belli bir pozisyondaki bazı birden fazla kez okumaktır. Özetle, dizilimlediğiniz genomun her bir bazını yeterince okuduğunuzdan emin olmak için bir yerin üzerinden örneğin Illumina sistemlerinde -yaptığınız deneye de bağlı olarak- en az 20 kez geçmeniz gerekir. Bu durum 20x şeklinde ifade edilir ve her bir bazın ortalama 20 kez okunduğuna işaret eder. Şimdi ufak bir hesap yapalım: eğer sizin kullandığınız cihazın okuma kapasitesi bir seferde 6 Gigabaz (6 milyar baz) ise ve 20x çalışmayı planlıyorsanız, aslında sizin bir deneyde okuyabileceğiniz toplam uzunluk 300 milyon (6 milyar baz / 20) baz ile sınırlıdır. Bu nedenle, insan genomunu yüksek kaliteyle okuyabilmek için (3 milyar baza ulaşabilmek için) en az 10 kez cihazı çalıştırmanız gerekir (300 milyon baz x 10). Ion Torrent cihazındaki birim deney yapma maliyeti düşük olmasına rağmen Illumina MiSeq sistemindeki kaliteyi yakalayabilmek için teoride en az iki kat daha fazla okuma yapmanız gerekir (teorik olarak yaklaşık 40x), bu durumda da eğer yüksek kaliteli okuma yapmak istiyorsanız birim deney maliyeti düşük olmasına rağmen araştırmanızı gerçekte daha yüksek maliyetle tamamlarsınız. Bu nedenle mutasyon taraması gibi uygulamalarda Ion Torrent cihazı MiSeq'e göre sonuçları daha pahalı olarak üretirken, bakteride de novo (ilk/yeni baştan) genom dizileme gibi düşük kaliteli okumaların da kabul edilebildiği bir çalışma söz konusu olduğunda daha düşük maliyetli çözümler sunar. Aynı problem Pacific Bioscience sistemlerinde de mevcut: her ne kadar bir okumanın maliyeti çok daha düşük olsa da, okuma kalitesi de aynı oranda düşük olduğu için yüksek kaliteli okumalar elde edebilmek için Illumina sistemlerine göre çok daha fazla kez cihazı çalıştırıyorsunuz ve yüksek bir maliyete katlanmak zorunda kalıyorsunuz (geçenlerde istediğim bir proformada bu oran yaklaşık 15 katlık bir farka denk geliyordu ve açıkçası hayal kırıklığına uğradım: eğer 4 kilobazlık okuma uzunluğu sizin için çok önemliyse bu maliyete katlanmaya değer, aksi takdirde aradaki fark henüz ekonomik açıdan mantıklı görünmüyor).

Yeni Nesil Dizilimleme, mikrodizi teknolojisine göre daha karışık ve günümüzde geliştirilen teknolojiler de fazlasıyla çeşitli. Bu nedenle, konu hakkında daha detaylı bilgi sahibi olmak için karşılaştırma makalelerine başvurmaktan başka şansınız yok. Bunlardan en ünlüsüne (Metzker 2010, Nature) bu linkten ulaşabilirsiniz. Eski denilebilecek bir makale, ancak bu alanda okumaya başlamak için en iyilerinden biri.

Bir sonraki yazımda bu teknolojilerden elde edilen verilerin analizine ilişkin çok genel bir çerçeve çizmeyi ve temel prensipleri paylaşmayı planlıyorum. 


Sözün Özü:
Her ne kadar yüksek çıktılı [high-throughput] teknolojilerin tamamını Yeni Nesil Dizilimleme çatısı altına topluyor olsak da, her teknoloji birbirinden çok farklı ve bunları ikinci, üçüncü ve dördüncü nesil olarak daha detaylı bir şekilde sınıflandırmaya ihtiyaç var.



Proje:
RNA-Seq (Yeni Nesil Dizilimleme yöntemiyle transkriptom dizilimleme) yapabilmek için hangi teknolojinin/cihazın daha maliyet-etkin olduğunu araştırın.

Meraklısına:
Her ne kadar piyasada birçok farklı teknolojiye sahip Yeni Nesil Dizilimleme cihazı olsa da, genel olarak bir Illumina sistemine (hatta bir MiSeq'e) sahip olup bu sistemin pahalı olduğu veya yetersiz kaldığı durumlarda hizmet alımı yapmak birçok açıdan maliyet-etkin olarak kabul edilebilir. İkinci bir alternatif de, MiSeq yerine bir Illumina NextSeq 500'e sahip olmak.