Hmm…sudah
part 3 yak. Saatnya mulai serius nih berarti. Tentang part 3 ini saia berencana
membahas tentang hidden Markov model (HMM) yang mencakup konsep dan
aplikasinya. Enaknya mulai darimana yak? Gini aja deh, karena di luar sana
banyak yang bilang HMM itu bagus, tentunya itu pernyataan yang sangat relatif
toh. Kalau bagus itu, lebih bagus dari apa? Oke, fixed!! Saia akan mulai dengan
membahas kelemahan PSSM dan kemudian membahas bagaimana pemodelan dengan HMM
dapat menanggulangi kelemahan tersebut.
A.
Kelemahan PSSM
Kita
tahu bahwa PSSM merupakan sebuah pemodelan secara sederhana dengan menyimpan
informasi frekuensi setiap residu nukleotida/asam amino pada setiap posisi di
dalam jajaran tak bercelah (ungapped alignment). Beberapa kelemahan PSSM antara
lain:
1.
Tidak
dapat menangkap sinyal keterkaitan antar posisi
PSSM hanya merangkum probabilitas untuk masing-masing posisi dan dengan
demikian mengasumsikan tidak ada kaitan (demikian juga probabilitasnya) antar
posisi. Untuk lebih jelasnya, perhatikan Gambar 1 di bawah ini:
Gambar 1. Konstruksi PSSM untuk sebuah jajaran protein. |
Jika kita menghitung probabilitas antar posisi, kita mendapatkan bahwa
P(RD) = 0,36 dan P(QH) = 0,16 karena itu yang terobservasi pada jajaran kita.
Namun perhatikan bahwa P(QD) dan P(RH) yang tidak ada pada jajaran sama-sama
bernilai 0,24; lebih tinggi dari P(QH) yang terobservasi pada jajaran. Ini
berarti motif berakhiran QD atau RH lebih mungkin untuk muncul di dalam urutan,
namun perhitungan probabilitas semacam ini tidak dilakukan di PSSM.
2.
Sulit
mengenali pola urutan yang mengandung insersi-delesi (indel)
Sebagai konsekuensi dari konstruksinya yang menggunakan jajaran tak
bercelah, pola urutan yang dibuat dengan PSSM mengandung panjang tertentu yang
sifatnya tetap. Pola demikian akan sulit digunakan untuk urutan dengan motif
yang mengandung indel (Gambar 2).
Gambar 2. Kesulitas PSSM untuk mengenali motif yang mengandung indel. |
Lebih luas lagi, konsekuensi yang diakibatkan oleh kekakuan PSSM ini
adalah bahwa pemodelan ini tidak dapat mengenali motif dengan panjang yang
bervariasi serta sulit membedakan sebuah motif di dalam urutan dari background
noise.
B.
Hidden Markov Model (HMM)
Well,
sepertinya jagoan kita dalam pemodelan statistik urutan kali ini harus bisa
menangani kedua masalah tersebut agar bisa kita katakan “lebih hebat”.
Permasalahan pertama jelas sudah ditangani dari Markov model itu sendiri yang
memang mengintegrasikan keterkaitan antara probabilitas antar posisi.
Pemasalahan kedua inilah yang menuntut pengembangan Markov model untuk dapat
mengakomodasi indel sehingga menjadi hidden Markov model. Namun sebelum kita
memasuki inti cerita, perkenankan saia untuk mengenalkan beberapa istilah
berikut:
- Probabilitas awal (initial probability; π): Probabilitas sebuah residu untuk muncul mengawali sebuah HMM.
- Probabilitas emisi (emission probability; e): Probabilitas munculnya sebuah residu pada posisi tertentu.
- Probabilitas transisi (transition probability; a): probabilitas transisi dari sebuah posisi ke posisi berikutnya (jangan dikacaukan dengan mutasi transisi & pada DNA loh).
Oke,
pertanyaannya jelas…apa bedanya Markov model dengan HMM? Pada part sebelumnya
saia menjelaskan bahwa Markov model membuat pemodelan probabilitas sebuah
posisi ditentukan dari probabilitas posisi sebelumnya. Nah terdapat dua asumsi
pada definisi tersebut. Asumsi pertama adalah bahwa jajaran yang digunakan
adalah jajaran tak bercelah sama seperti pada PSSM, yang berarti Markov model
tidak terima indel. Kedua, sifat linear (korespondensi 1-1) dari Markov model mencerminkan
bahwa satu-satunya penentu probabilitas pada sebuah posisi adalah dari
probabilitas posisi sebelumnya yang hanya satu. Kedua asumsi ini tidak membuat
Markov model lebih hebat dari PSSM, sehingga kita perlu membuat pemodelan yang
lebih umum lagi.
Saia
ingin mengingatkan lagi bahwa celah yang terdapat di dalam jajaran dan
merupakan HIPOTESIS mengenai adanya peristiwa insersi atau delesi di masa lalu.
Karena kedua fenomena ini terjadi di masa lalu, jelas kita tidak
mengobservasinya di dalam urutan (yang kita lihat di dalam jajaran itulah
HIPOTESIS-nya, bukan FAKTA nya). Nah kedua hal inilah yang disebut sebagai
hidden states di dalam HMM. Dengan tambahan ini, kita dapat memodifikasi skema
Markov model seperti pada Gambar 3.
Gambar 3. Mengkonstruksi HMM dari Markov model. I = insersi; D = delesi; M = match (cocok). |
Terdapat
tiga jenis ketegori states di dalam pemodelan statistik urutan menggunakan HMM,
yakni match/cocok (M); insersi (I) dan delesi (D). Perhatikan bahwa residu
berbeda dalam sebuah posisi juga termasuk ke dalam kategori M. Di dalam HMM,
perpindahan dari state satu ke state lainnya mengikuti probabilitas transisi (a) tertentu; dan setiap state memiliki
simbol yang memiliki probabilitas emisi (e)
nya masing-masing. Untuk lebih jelasnya, perhatikan contoh kasus pada Gambar 4.
Gambar 4. Pemodelan HMM untuk jajaran protein. Perhatikan bahwa terdapat dua alternatif model HMM yang dapat dibuat dari jajaran urutan yang sama. |
Model
HMM yang terdapat pada Gambar 4 jelas menggambarkan kondisi yang diperlukan
untuk menghasilkan seluruh urutan yang terdapat pada jajaran di sebelah kirinya.
Namun demikian, lebih dari satu model HMM dapat dikonstruksi dari jajaran
urutan yang sama. Pada akhirnya, probabilitas dari masing-masing state-lah yang
akan menentukan model mana yang akan dikonstruksi. Pada Gambar 4, model HMM
sebelah atas lebih cenderung untuk dipilih karena posisi ketiga lebih banyak
mengandung celah dibandingkan dengan residu T, yang artinya probabilitas bahwa
T merupakan residu hasil insersi lebih tinggi dibandingkan dengan probabilitas
T sudah ada disana dan urutan lainnya yang mengalami delesi T.
Terdapat tiga jenis algoritma yang digunakan
dalam ilmu ke-HMM-an ini. Algoritma pertama merupakan algoritma Baum-Welch yang
digunakan untuk mengkonstruksi model HMM dan mengestimasi setiap parameter
probabilitasnya. Setelah HMM dikonstruksi, sebuah urutan (berikut dengan
celahnya) dengan probabilitas tertinggi dapat dihasilkan dengan menghitung
produk probabilitas transisi dan emisi setiap posisinya menggunakan algoritma
Viterbi. Urutan beserta probabilitas tertinggi menurut model HMM ini kemudian
dapat digunakan untuk pencarian database menggunakan algoritma forward.
Ketiga algoritma tersebut terdapat dalam
program HMMER (dibaca hammer). Program ini tersedia dalam bentuk executable
yang dapat diunduh di:
http://hmmer.janelia.org/
atau secara online (hanya pencarian berbasis HMM) di:
Well, saia rasa segitu dulu tulisan tentang HMM
nya. Untuk berikutnya saia masih mikir-mikir apakah ingin memperdalam materi
HMM dengan detail kalkulasi probabilitas nya atau tidak. Yaa ditunggu saja deh,
kalau misalnya ada part berikutnya berarti jadi diadakan…hehehehe.
Ucapan Terima Kasih dan Referensi Lanjutan
Dalam tulisan kali ini saia ingin mengucapkan
terima kasih kepada Oom Barry Grant dari University of Michigan, Ann Harbor
atas slide kuliah Lecture 13 & 14 nya yang begitu inspiratip tentang
pemodelan statistik urutan ini (link nya dapat dikunjungi di: http://thegrantlab.org/). Teman-teman dapat
mengunduh slide PPT yang bersangkutan untuk pembelajaran lebih lanjut. Untuk teman-teman
yang tertarik untuk mempelajari lebih lanjut, saia sangat menyarankan untuk
membaca bukunya Durbin et al. (1998).
Pustaka
1.
Durbin,
R., S. Eddy, A. Krogh, & G. Mitchinson. 1998. Biological Sequence Analysis:
Probabilistic Models of Protein and Nucleic Acids. Cambridge University Press:
UK.
2.
Grant,
B. 2011. Advanced database searching: sequence patterns, profiles & hidden
Markov models; lecture 13. http://thegrantlab.org. Diakses pada 27 Juni 2015.
3.
Grant,
B. 2011. Advanced database searching: sequence patterns, profiles & hidden
Markov models; lecture 14. http://thegrantlab.org. Diakses pada 27 Juni 2015.
Salam,
KohVic
Tidak ada komentar:
Posting Komentar