Holaa…seperti yang
saia janjikan, kali ini saia kembali dengan topik baru. Well, topik ini
sebenarnya masih terkait dengan topik sebelumnya (pencarian similaritas
database) karena salah satu aplikasinya adalah untuk pencarian tersebut. Nah
pada tulisan ini saia ingin mengajak teman-teman semua untuk mengenal apa yang
dinamakan sebagai pemodelan statistik urutan, bagaimana cara membuatnya, dan
bagaimana aplikasinya. Oke, mari kita lanjutttt…
Saia akan memulai
topik ini dengan hal yang umum dijumpai di dalam bioinformatika, yakni jajaran
urutan banyak (multiple sequence alignment). Bayangkan sebuah kodisi dimana
teman-teman memiliki sebuah jajaran dari sejumlah urutan. Nah jika saia minta
untuk menjabarkan bagaimana pola yang terdapat pada jajaran tersebut, bagaimana
teman-teman menjawabnya? Untuk lebih memperjelas serta menyamakan imajinasi,
mari kita lihat pada Gambar 1. Pertanyaan yang saia ajukan barusan pasti akan
dijawab dengan mudah jika yang teman-teman miliki adalah jajaran (a). Namun
jika yang kalian miliki adalah jajaran (b), akan sedikit sulit menjawabnya.
Well, walau saia telah menuliskan polanya yang berupa urutan konsensus,
terdapat kekurangan di dalam pola yang ditulliskan tersebut. Kekurangannya
adalah, dengan hanya mengandalkan urutan konsensus tersebut, kita kehilangan
informasi mengenai frekuensi jenis residu (dalam hal ini nukleotida) pada
setiap posisi di dalam masing-masing urutan. Lalu kenapa? Tetunya hal ini akan
berakibat pada sensitivitas pencarian yang kecil sehingga berdampak pada
pencarian database yang tidak menyeluruh atau dengan kata lain menghilangkan
urutan-urutan yang berpotensi homolog dengan jajaran yang kita miliki.
Gambar 1. Pola urutan konsensus pada jajaran yang identik satu dengan lainnya (a) dan, yang lebih sering muncul pada kasus biologis, jajaran dengan mutasi pada beberapa posisinya (b). |
Untuk mengatasi
masalah di atas, sebuah cara alternatif yang disebut sebagai pemodelan statistik
urutan dapat dilakukan. Pemodelan statistik urutan merupakan sebuah cara untuk
menagkap dan mempertahankan informasi statistik yang terdapat di dalam sebuah
jajaran. Nantinya, pemodelan ini akan menghasilkan profil urutan, yang
merupakan model statitsik yang menjelaskan frekuensi residu nukelotida atau
asam amino pada setiap posisi di dalam sebuah jajaran urutan. Dua metode yang digunakan
untuk menghasilkan profil urutan ini adalah position-specific scoring matrices
(PSSM) dan hidden Markov model (HMM). Pada tulisan ini saia akan memfokuskan
pembahasan pada PSSM dan menyisakan HMM untuk part berikutnya.
Position-specific
scoring matrices atau yang disingkat dengan PSSM dapat didefinisikan sebagai
sebuah matriks berisi informasi mengenai probabilitas nukleotida atau asam
amino pada setiap posisi di dalam sebuah jajaran urutan banyak. Dalam metode
ini, kita mengkonstruksi sebuah matriks frekuensi (Ckj) yang mencatat frekuensi kemunculan setiap jenis
residu (nukleotida atau asam amino) pada setiap posisi dan kemudian mengkonversinya ke dalam matriks
log-probabilitas (Mkj) PSSM
yang berisi informasi probabilitas kemunculan residu tertentu pada posisi
tertentu (Gambar 2). Nah bermodalkan matriks PSSM ini, kita dapat menghitung
probabilitas kemunculan sebuah urutan sehingga nantinya kita dapat menentukan
apakah sebuah urutan dapat dikatakan termasuk ke dalam kelompok jajaran urutan
yang kita miliki atau tidak.
Setelah kita
mempelajari semua ini, teman-teman pasti akan bertanya, lantas apa gunanya
metode semacam ini? Well, dengan metode ini kita dapat melakukan pencarian
similaritas database (PSD) tingkat lanjut. Yaa semacam level up dari PSD yang
kemarin sudah dijelaskan lah. Pencarian similaritas semacam ini disebut juga
sebagai pencarian berdasarkan profil (profile-based search). Ya tentu saja kita
tidak harus membuat profil PSSM ini secara manual karena sudah ada program yang
didedikasikan untuk itu. Perkenalkanlah Position-Specific Iterated BLAST atau
disingkat PSI-BLAST, sebuah program persembahan NCBI GenBank yang didedikasikan
untuk pencarian berdasarkan profil PSSM semacam ini.
Ingin tahu lanjutannya
mengenai PSI-BLAST? Nantikan di part berikutnya yak. Saia rasa segini dulu,
biar ga terlalu panjang tulisannya..hehehe. Enjoy the read!!
Salam,
KohVic
Pustaka
Gribskov,
M., A. D. McLachlan, & D. Eisenberg. 1987. Profile analysis: detection of
distantly related proteins. Proceedings
of the National Academy of Sciences 84:
4355–4358.
Harbison,
C. T., D. B. Gordon, T. I. Lee et al.
2004. Transcriptional regulatory code of a eukaryotic genome. Nature 431: 99–104.
Hertz,
G. Z. & G. D. Stormo. 1999. Identifying DNA and protein patterns with
statistically significant alignments of multiple sequences. Bioinformatics 15 (7): 563–577.
Tidak ada komentar:
Posting Komentar