Kamis, 23 Juli 2015

Sebuah Tulisan Bioinformatika – Pemodelan Statistik Urutan (Part 2)



Tulisan di dalam part 2 ini lebih merupakan transisi antara pemodelan PSSM yang telah saia jelaskan sebelumnya di dalam part 1 dengan yang akan saia jelaskan kemudian di part 3. Dengan demikian, disini saia akan meneruskan tentang aplikasi pemodelan statistik PSSM dan kemudian mengenalkan tentang Markov model sebelum kita memasuki inti cerita berikutnya yang bertemakan hidden Markov model. So? Let’s get started…

A.        Position-Specific Iterated BLAST (PSI-BLAST)
Pada tulisan sebelumnya saia telah menyinggung bahwa terdapat sebuah program atau lebih tepatnya algoritma yang didedikasikan untuk menghasilkan matriks PSSM dari sebuah jajaran urutan banyak (multiple sequence alignment). Ya, algoritma tersebut adalah PSI-BLAST yang merupakan singkatan dari position-specific iterated BLAST. PSI-BLAST merupakan salah satu dari empat algoritma BLAST protein bersama dengan BLASTP, PHI-BLAST, dan DELTA-BLAST yang dapat dilihat pada tautan berikut:


Seperti yang tersemat di dalam judulnya, PSI-BLAST mengkonstruksi matriks PSSM dari sebuah jajaran dan kemudian menggunakannya untuk pencarian similaritas database. Tahapannya terdiri atas dua jenis BLAST, yakni BLAST urutan (sequence BLAST) dan BLAST profil (profile BLAST). Keseluruhan proses PSI-BLAST dapat dilihat pada Gambar 1. Mula-mula, urutan query protein yang dimasukkan akan dicarikan urutan homolognya menggunakan BLASTP dan kemudian hasil pencarian tersebut dijajarkan bersama dengan urutan query membentuk jajaran urutan banyak. Setelah itu, jajaran ini dibuat menjadi sebuah matriks PSSM yang berisi frekuensi setiap residu asam amino pada setiap posisi. Matriks PSSM yang telah dikonstruksi kemudian digunakan dalam pencarian berikutnya yang disebut sebagai BLAST profil, yakni menyisir urutan di dalam database menggunakan profil PSSM.

Gambar 1. Skema PSI-BLAST.

Seperti yang telah kita pelajari sebelumnya, matriks PSSM lebih mewakili konsensus urutan yang ada di dalam jajaran, sehingga metode pencarian BLAST profil jauh lebih sensitif dibandingkan algoritma BLASTP. Lebih sensitif disini diartikan sebagai lebih mampu mendeteksi urutan homolog yang sinyal homologinya lemah. Urutan tambahan hasil pencarian kemudian dimasukkan ke dalam fase iterasi dimana urutan tersebut diintegrasikan ke dalam profil dan kemudian profil baru ini digunakan untuk pencarian lanjutan. Fase iterasi ini dapat diulang untuk jumlah tertentu atau terus diulang hingga tidak ada lagi urutan tambahan yang didapatkan.

Keunggulan dari PSI–BLAST ini terletak pada kemampuannya untuk menyusun profil dan terus menyempurnakannya seiring dengan setiap perulangan. Program tersebut juga dilengkapi dengan skema pembobotan untuk meningkatkan sensitivitas pencarian. Namun demikian, sensitivitas yang meningkat ini juga harus diiringi dengan penurunan spesifisitas/selektivitas. Tidak menutup kemungkinan bahwa BLAST profil ini akan memberikan urutan tambahan yang bersifat positif semu (false positif), yang artinya urutan tersebut cocok dengan profil namun tidak homolog (hayoo..ingat-ingat lagi perbedaan antara homologi dengan similaritas). Urutan positif semu ini, jika terus diintegrasikan akan berakibat pada terbentuknya matriks PSSM yang akan mengintegrasikan lebih banyak lagi urutan positif semu. Gejala ini disebut juga sebagai profile drift, sehingga pada umumnya fase iteratif PSI-BLAST dibatasi sebanyak 2-3 siklus saja dan urutan hasil pencarian juga perlu diinspeksi secara manual. Rincian mengenai PSI-BLAST dapat dibaca lebih lanjut di:


B.        Markov Model
Oke…seperti yang telah saia katakan, sebelum kita memasuki pemodelan statistik yang lebih umum yakni hidden Markov model (HMM), perkenankan saia untuk mengenalkan Markov model terlebih dahulu. Penggunaan Markov model sebagai pemodelan statistik urutan muncul karena terdapat kasus yang tidak mampu dimodelkan menggunakan PSSM. Pemodelan menggunakan PSSM tidak mampu untuk:
1.       mengenal keterkaitan antar posisi di dalam urutan,
2.       membuat pemodelan yang mengintegrasikan indel di dalamnya, atau
3.       mengenali cakupan suatu motif di dalam urutan.
Seperti yang telah kita ketahui dalam biologi molekular, terdapat kasus dimana kemunculah sebuah residu pada posisi tertentu mempengaruhi probabilitas kemunculan redisu pada posisi setelahnya. Ambil contoh pada kasus CpG island, sebuah daerah di dalam genom yang ditandai dengan perulangan dimerik C dan G. Kita dapat memancang ini sebagai sebuah Markov model, dimana adanya C pada sebuah situs akan mempengaruhi probabilitas munculnya G pada situs berikutnya. Apakah transisi semacam ini dapat ditangkap dalam pemodelan PSSM? Tentu saja tidak, karena PSSM hanya menangkap frekuensi kemunculan redisu pada setiap posisi tanpa memperdulikan probabilitas keterkaitan antara posisi satu dengan posisi berikutnya.

Oke, cerita sejarahnya selesai dan sekarang mari kita definisikan. Markov model merupakan distribusi probabilitas terkondisi untuk sebuah sistem dimana probabilitas sebuah kondisi x di waktu t hanya bergantung pada kondisi di waktu t–1  dan tidak pada kondisi di t–2 atau seterusnya. Dengan demikian, setiap kejadian menentukan probabilitas dari kejadian berikutnya yang dikuantifikasi dalam parameter probabilitas transisi. Untuk mendapatkan bayangan yang lebih jelas, lihatlah skema pada Gambar 2.

Gambar 2. Skema Markov Model.

Markov model dapat dibuat ke dalam berbagai tingkatan (orde) bergantung dari seberapa banyaknya posisi yang ingin dikaitkan. Sebagai contoh, Markov model orde nol menerangkan probabilitas kondisi saat ini tidak bergantung pada kondisi sebelumnya. Pemodelan ini umum digunakan terhadap urutan acak dimana setiap residu muncul dengan frekuensi yang setara. Markov model orde satu menerangkan probabilitas kondisi saat ini ditentukan oleh kondisi sebelumnya. Sama halnya seperti orde satu, Markov model orde dua menerangkan probabilitas kondisi saat ini ditentukan oleh dua kondisi sebelumnya. Pemodelan ini umum digunakan dalam pemodelan triplet nukleotida yang tentunya akan memiliki perbedaan pola antara urutan penyandi protein dengan urutan bukan penyandi protein.

Hingga pada saat ini mungkin ada di antara teman-teman yang bertanya, lantas apa makna dari kata “hidden” di dalam hidden Markov model. Well, dari apa yang saia jelaskan, kita mengasumsikan bahwa jajaran yang digunakan untuk pemodelan markov model merupakan sebuah jajaran yang tidak bercelah (ungapped). Padahal kenyataannya, kita sering menjumpai celah di dalam sebuah jajaran. Nah celah inilah yang dikatakan sebagai hidden states dari sebuah urutan atau dengan kata lain, kita membuat serta pemodelan probabilitas insersi dan delesi yang menyusun sebuah celah di dalam jajaran menggunakan HMM. Oke, kira-kira begitu dulu deh ceritanya. Pada cerita berikutnya, saia akan memfokuskan cerita pada hidden Markov model (HMM) yang tentunya lebih seru lagi.

Salam,
KohVic

Tidak ada komentar: