Melanjutkan
dari topik tulisan sebelumnya, kali ini saia ingin membahas salah satu aplikasi
pemodelan statistik urutan yang banyak dipakai dalam dunia bioinformatik. Yaa
seperti judul yang tertera, aplikasi tersebut adalah menujum atau memprediksi motif
urutan…hahaha. Jadi, setelah teman-teman membaca tulisan ini, saia berharap
setidaknya teman-teman punya gambaran tentang bagaimana menjadi seorang ahli
nujum bioinformatika itu. Yasuda, kita mulai saja yak.
Asal
muasal dari munculnya ilmu nujum motif urutan ini berawal dari dua faktor,
yakni kemelimpahan data urutan namun sedikit yang mengurus dan keterbatasan teknologi
untuk membuktikan informmasi yang terkandung di dalam urutan. Yaa seperti yang
kita tahu dalam pelajaran biologi molekular, sebuah genom pada organisme itu
mengandung seluruh informasi yang mencakup ekspresi gen, regulasi ekspresi gen,
dan juga yang tidak memiliki informasi sama sekali alias DNA sampah. Nah impian
para ahli biologi molekuler adalah mengungkap seluruh informasi tersebut di
dalam urutan DNA dan protein. Untuk apa? “Mengungkap rahasia alam”, katanya “…dan
mendapat hadiah Nobel”, sambungnya. Caranya sebenarnya mudah saja. Untuk setiap
potongan atau genom secara keseluruhan, lakukan pengujian:
- Apakah segmen ini menghasilkan protein atau tidak
- Apakah segmen itu mengatur penghasilan protein atau tidak
- Apakah segmen ini itu memiliki fungsi atau tidak
Yaa..kira-kira
begitulah. Tapi lantas kenapa kita perlu mempelajari ilmu nujum ini jikalau
solusinya begitu sederhana? Saia punya 3 kata untuk menjawab hal itu: SULIT,
MAHAL, dan LAMA. Jadi daripada kita langsung melakukan pengujian untuk seluruh
genom secara membabibuta, ada baiknya kita mencari wangsit dulu mengenai
baiknya segmen mana yang harus diuji…hehehe.
Oke,
jadi apa yang dimaksud dengan motif? Motif adalah sebuah segmen pada urutan
dengan pola tertentu pada sejumlah urutan dan biasanya mengindikasikan fungsi
tertentu. Dalam prediksi motif ini, kita memberlakukan dua asumsi untuknya: (i)
motif merupakan segmen dengan panjang tertentu yang bersifat tetap antar urutan
satu dengan lainnya dan (ii) motif terdapat di seluruh urutan yang digunakan
dalam proses prediksinya. Dengan kata lain, jika kita dapat mencari segmen
motif ini, hal tersebut dapat mengantarkan kita lebih cepat mengenai
pengungkapan fungsi suatu daerah di dalam DNA atau protein dan karena sebab
inilah prediksinya menjadi penting. Dengan semakin melimpahnya data urutan DNA
dan protein, prediksi motif menjadi semakin mungkin untuk dilakukan dan hasil
yang diberikan pun semakin akurat. Terdapat dua kelompok metode yang digunakan
untuk memprediksi motif ini. Kelompok metode pertama menggunakan pendekatan
berbasis jajaran urutan banyak sedangkan kelompok kedua menggunakan pendekatan
tanpa jajaran urutan. Hmm…mungkin jajaran urutan sudah terlalu mainstream
tampaknya.
Saia
rasa kelompok pertama mungkin akan lebih familiar dalam bayangan teman-teman.
Dua jenis metode yang menggunakan pendekatan ini adalah metode ekspresi regular
dan metode model statistik. Metode ekspresi regular memprediksi motif dengan
terlebih dahulu membuat konsensus dari segmen di dalam jajaran yang dianggap
memiliki pola tertentu (Gambar 1). Terkait dengan ekspresi regular ini terdapat
beberapa aturan penulisan yang harus dipatuhi. Setiap karakter di dalam motif
harus dipisahkan dengan tanda “–”. Sebuah posisi yang hanya ditempati oleh satu
jenis residu saja dituliskan dengan menggunakan residu yang bersangkutan.
Apabila posisi tersebut ditempati oleh lebih dari satu residu, maka redisu yang
bersangkutan dituliskan menggunakan tanda kurung kotak [ ]. Kemudian, jika
sebuah posisi memiliki seluruh kecuali satu residu saja, maka residu yang
bersangkutan dituliskan menggunakan tanda kurung kurawal { }. Posisi yang tidak
memiliki residu yang spesifik dituliskan dengan tanda N (untuk urutan DNA) atau
X (untuk asam amino). Jumlah repetisi dari sebuah pola dituliskan menggunakan
tanda kurung ( ).
Gambar 1. Contoh motif yang dihasilkan dari jajaran urutan. |
Jadi,
bermodalkan ekspresi regular ini, kita mencari motif yang direpresentasikannya
di dalam urutan lainnya. Ketemu? Bisa ya bisa tidak. Ya jika memang terdapat segmen
dengan pola serupa dengan ekspresi reguler dan tidak jika segmennya berbeda.
Pada kebanyakan kasus, ternyata motif itu agak fleksibel dan agak sulit jika
sebuah motif harus mengikuti persis seperti yang ada di ekspresi regular.
Pengembangan lebih lanjut untuk mengatasi masalah ini adalah dengan menggunakan
pemodelan statistik, yakni memodelkan jajaran segmen bukan sebagai sebuah
ekspresi reguler, namun sebagai profil urutan. Pemodelan statistik yang
digunakan bisa berupa PSSM atau HMM (baca tulisan sebelumnya), namun HMM lebih
umum digunakan.
Selesai
cerita? Tidak juga. Walaupun HMM itu hebat, namun akurasi dari metode model
statistik tersebut sangat bergantung dari kualitas jajaran urutan yang
dihasilkan. Padahal pada tulisan yang sebelum-sebelumnya kita mengetahui bahwa
sebuah jajaran urutan banyak dihasilkan menggunakan metode heuristik yang tidak
menjamin akurasinya. Selain daripada itu, seandainya jajarannya cukup akurat
sekalipun, kelompok metode berbasis jajaran ini agak sulit dalam mengakomodasi
urutan yang berkerabat jauh. Jika urutan-urutan berkerabat jauh tersebut
dimasukkan ke dalam pemodelan, maka besar kemungkinan prediksi motif yang
dihasilkan akan banyak mengandung hasil positif semu, yakni urutan yang
dianggap sebagai motif padahal sebenarnya tidak.
Jika
memang begitu keadaannya, berarti apakah ada metode prediksi motif yang tidak
mengandalkan jajaran urutan banyak sebagai masukan datanya? Untungnya di jaman
serba ada ini, jawabannya ya ada (kalau ngga ya bubar deh, ga jadi posting
tulisan ini). Oke, sekarang kita memasuki pendekatan kedua, yakni kelompok
metode prediksi motif tanpa jajaran urutan. Konon katanya, metode dalam
kelompok ini diilhami oleh permainan dadu loh. Ada tiga metode yang tergolong
ke dalam kelompok ini, yakni randomized
algorithm, expectation maximization
(EM), dan Gibbs sampling. Pendekatan
yang dilakukan ketiga metode ini sebenarnya mirip satu dengan lainnya, yakni
pendekatan berbasis perulangan (iterasi) dengan perbaikan dari fase satu ke
fase berikutnnya. Inspirasi dari kelompok metode ini adalah, jika iterasinya
dilakukan cukup banyak, mungkin jutaan kali, yaaa mungkin saja motif umum antar
urutan bisa ditemukan. Cukup…optimistis kan? Heheheh. Nah coba lihat Gambar 2
dulu deh.
Gambar 2. Skema proses algoritma expectation maximization (EM). |
Saia
tidak ingin membahas detil prosesnya yang cukup panjang, namun saia ingin fokus
kepada optimisme yang saia sebutkan barusan. Well, mengapa si pembuat algoritma
tersebut bisa begitu optimis bisa menemukan motif umum antar urutan hanya
dengan mengulang-ulang pencarian? Kita melihat proses yang tampaknya sia-sia
ini karena kita memiliki asumsi bahwa keteracakan posisi antar urutan satu
dengan lainnya. Agak mustahil sepertinya untuk mencari pola umum tanpa
menjajarkan posisi antar urutan terlebih dahulu. Namun demikian, satu hal yang
perlu kita yakini dalam al inni adalah, pola umum yang tersemat sebenarnya
membuat seluruh urutan tersebut menjadi tidak acak seluruhnya. Hal ini akan
tergambarkan dalam statistik frekuensi posisi jika kita membuat profil dari segmen
yang diambil dari masing-masing urutan, sekalipun jika segmen-segmen tersebut
dicuplik secara acak. Atas dasar inilah, jika diberikan cukup perulangan maka
terdapat kemungkinan bahwa pola umum antar urutan tersebut dapat ditemukan. So,
pesan moral dari algoritma ini adalah never
give up trying...hohoho.
Hmm…kalau
untuk algoritma penujumannya saia rasa segini saja dulu deh. Pada tulisan
berikutnya saia ingin memperkenalkan beberapa database yang menggunakan motif
dalam pencariannya.
Salam,
KohVic
Tidak ada komentar:
Posting Komentar