Tulisan
di dalam part 2 ini lebih merupakan transisi antara pemodelan PSSM yang telah
saia jelaskan sebelumnya di dalam part 1 dengan yang akan saia jelaskan
kemudian di part 3. Dengan demikian, disini saia akan meneruskan tentang aplikasi
pemodelan statistik PSSM dan kemudian mengenalkan tentang Markov model sebelum
kita memasuki inti cerita berikutnya yang bertemakan hidden Markov model. So?
Let’s get started…
A.
Position-Specific
Iterated BLAST (PSI-BLAST)
Pada
tulisan sebelumnya saia telah menyinggung bahwa terdapat sebuah program atau
lebih tepatnya algoritma yang didedikasikan untuk menghasilkan matriks PSSM
dari sebuah jajaran urutan banyak (multiple sequence alignment). Ya, algoritma
tersebut adalah PSI-BLAST yang merupakan singkatan dari position-specific
iterated BLAST. PSI-BLAST merupakan salah satu dari empat algoritma BLAST
protein bersama dengan BLASTP, PHI-BLAST, dan DELTA-BLAST yang dapat dilihat
pada tautan berikut:
Seperti
yang tersemat di dalam judulnya, PSI-BLAST mengkonstruksi matriks PSSM dari
sebuah jajaran dan kemudian menggunakannya untuk pencarian similaritas database.
Tahapannya terdiri atas dua jenis BLAST, yakni BLAST urutan (sequence BLAST)
dan BLAST profil (profile BLAST). Keseluruhan proses PSI-BLAST dapat dilihat
pada Gambar 1. Mula-mula, urutan query protein yang dimasukkan akan dicarikan
urutan homolognya menggunakan BLASTP dan kemudian hasil pencarian tersebut dijajarkan
bersama dengan urutan query membentuk jajaran urutan banyak. Setelah itu,
jajaran ini dibuat menjadi sebuah matriks PSSM yang berisi frekuensi setiap
residu asam amino pada setiap posisi. Matriks PSSM yang telah dikonstruksi
kemudian digunakan dalam pencarian berikutnya yang disebut sebagai BLAST
profil, yakni menyisir urutan di dalam database menggunakan profil PSSM.
Gambar 1. Skema PSI-BLAST. |
Seperti
yang telah kita pelajari sebelumnya, matriks PSSM lebih mewakili konsensus
urutan yang ada di dalam jajaran, sehingga metode pencarian BLAST profil jauh
lebih sensitif dibandingkan algoritma BLASTP. Lebih sensitif disini diartikan sebagai
lebih mampu mendeteksi urutan homolog yang sinyal homologinya lemah. Urutan
tambahan hasil pencarian kemudian dimasukkan ke dalam fase iterasi dimana
urutan tersebut diintegrasikan ke dalam profil dan kemudian profil baru ini
digunakan untuk pencarian lanjutan. Fase iterasi ini dapat diulang untuk jumlah
tertentu atau terus diulang hingga tidak ada lagi urutan tambahan yang
didapatkan.
Keunggulan
dari PSI–BLAST ini terletak pada kemampuannya untuk menyusun profil dan terus
menyempurnakannya seiring dengan setiap perulangan. Program tersebut juga
dilengkapi dengan skema pembobotan untuk meningkatkan sensitivitas pencarian.
Namun demikian, sensitivitas yang meningkat ini juga harus diiringi dengan
penurunan spesifisitas/selektivitas. Tidak menutup kemungkinan bahwa BLAST
profil ini akan memberikan urutan tambahan yang bersifat positif semu (false
positif), yang artinya urutan tersebut cocok dengan profil namun tidak homolog
(hayoo..ingat-ingat lagi perbedaan antara homologi dengan similaritas). Urutan
positif semu ini, jika terus diintegrasikan akan berakibat pada terbentuknya
matriks PSSM yang akan mengintegrasikan lebih banyak lagi urutan positif semu.
Gejala ini disebut juga sebagai profile drift, sehingga pada umumnya fase
iteratif PSI-BLAST dibatasi sebanyak 2-3 siklus saja dan urutan hasil pencarian
juga perlu diinspeksi secara manual. Rincian mengenai PSI-BLAST dapat dibaca
lebih lanjut di:
B.
Markov
Model
Oke…seperti
yang telah saia katakan, sebelum kita memasuki pemodelan statistik yang lebih
umum yakni hidden Markov model (HMM), perkenankan saia untuk mengenalkan Markov
model terlebih dahulu. Penggunaan Markov model sebagai pemodelan statistik
urutan muncul karena terdapat kasus yang tidak mampu dimodelkan menggunakan
PSSM. Pemodelan menggunakan PSSM tidak mampu untuk:
1. mengenal keterkaitan antar posisi di
dalam urutan,
2. membuat pemodelan yang mengintegrasikan
indel di dalamnya, atau
3. mengenali cakupan suatu motif di
dalam urutan.
Seperti
yang telah kita ketahui dalam biologi molekular, terdapat kasus dimana
kemunculah sebuah residu pada posisi tertentu mempengaruhi probabilitas
kemunculan redisu pada posisi setelahnya. Ambil contoh pada kasus CpG island,
sebuah daerah di dalam genom yang ditandai dengan perulangan dimerik C dan G.
Kita dapat memancang ini sebagai sebuah Markov model, dimana adanya C pada sebuah
situs akan mempengaruhi probabilitas munculnya G pada situs berikutnya. Apakah transisi
semacam ini dapat ditangkap dalam pemodelan PSSM? Tentu saja tidak, karena PSSM
hanya menangkap frekuensi kemunculan redisu pada setiap posisi tanpa
memperdulikan probabilitas keterkaitan antara posisi satu dengan posisi
berikutnya.
Oke,
cerita sejarahnya selesai dan sekarang mari kita definisikan. Markov model
merupakan distribusi probabilitas terkondisi untuk sebuah sistem dimana
probabilitas sebuah kondisi x di waktu t hanya bergantung pada kondisi di waktu
t–1 dan tidak pada kondisi di t–2 atau
seterusnya. Dengan demikian, setiap kejadian menentukan probabilitas dari
kejadian berikutnya yang dikuantifikasi dalam parameter probabilitas transisi.
Untuk mendapatkan bayangan yang lebih jelas, lihatlah skema pada Gambar 2.
Gambar 2. Skema Markov Model. |
Markov
model dapat dibuat ke dalam berbagai tingkatan (orde) bergantung dari seberapa
banyaknya posisi yang ingin dikaitkan. Sebagai contoh, Markov model orde nol
menerangkan probabilitas kondisi saat ini tidak bergantung pada kondisi
sebelumnya. Pemodelan ini umum digunakan terhadap urutan acak dimana setiap
residu muncul dengan frekuensi yang setara. Markov model orde satu menerangkan
probabilitas kondisi saat ini ditentukan oleh kondisi sebelumnya. Sama halnya
seperti orde satu, Markov model orde dua menerangkan probabilitas kondisi saat
ini ditentukan oleh dua kondisi sebelumnya. Pemodelan ini umum digunakan dalam
pemodelan triplet nukleotida yang tentunya akan memiliki perbedaan pola antara
urutan penyandi protein dengan urutan bukan penyandi protein.
Hingga
pada saat ini mungkin ada di antara teman-teman yang bertanya, lantas apa makna
dari kata “hidden” di dalam hidden Markov model. Well, dari apa yang saia
jelaskan, kita mengasumsikan bahwa jajaran yang digunakan untuk pemodelan
markov model merupakan sebuah jajaran yang tidak bercelah (ungapped). Padahal
kenyataannya, kita sering menjumpai celah di dalam sebuah jajaran. Nah celah
inilah yang dikatakan sebagai hidden states dari sebuah urutan atau dengan kata lain,
kita membuat serta pemodelan probabilitas insersi dan delesi yang menyusun
sebuah celah di dalam jajaran menggunakan HMM. Oke, kira-kira begitu dulu deh
ceritanya. Pada cerita berikutnya, saia akan memfokuskan cerita pada hidden
Markov model (HMM) yang tentunya lebih seru lagi.
Salam,
KohVic
Tidak ada komentar:
Posting Komentar