Kamis, 30 Juli 2015

Sebuah Tulisan Bioinformatika – Menujum Motif Urutan

Melanjutkan dari topik tulisan sebelumnya, kali ini saia ingin membahas salah satu aplikasi pemodelan statistik urutan yang banyak dipakai dalam dunia bioinformatik. Yaa seperti judul yang tertera, aplikasi tersebut adalah menujum atau memprediksi motif urutan…hahaha. Jadi, setelah teman-teman membaca tulisan ini, saia berharap setidaknya teman-teman punya gambaran tentang bagaimana menjadi seorang ahli nujum bioinformatika itu. Yasuda, kita mulai saja yak.

Asal muasal dari munculnya ilmu nujum motif urutan ini berawal dari dua faktor, yakni kemelimpahan data urutan namun sedikit yang mengurus dan keterbatasan teknologi untuk membuktikan informmasi yang terkandung di dalam urutan. Yaa seperti yang kita tahu dalam pelajaran biologi molekular, sebuah genom pada organisme itu mengandung seluruh informasi yang mencakup ekspresi gen, regulasi ekspresi gen, dan juga yang tidak memiliki informasi sama sekali alias DNA sampah. Nah impian para ahli biologi molekuler adalah mengungkap seluruh informasi tersebut di dalam urutan DNA dan protein. Untuk apa? “Mengungkap rahasia alam”, katanya “…dan mendapat hadiah Nobel”, sambungnya. Caranya sebenarnya mudah saja. Untuk setiap potongan atau genom secara keseluruhan, lakukan pengujian:
  • Apakah segmen ini menghasilkan protein atau tidak
  •  Apakah segmen itu mengatur penghasilan protein atau tidak
  • Apakah segmen ini itu memiliki fungsi atau tidak
Yaa..kira-kira begitulah. Tapi lantas kenapa kita perlu mempelajari ilmu nujum ini jikalau solusinya begitu sederhana? Saia punya 3 kata untuk menjawab hal itu: SULIT, MAHAL, dan LAMA. Jadi daripada kita langsung melakukan pengujian untuk seluruh genom secara membabibuta, ada baiknya kita mencari wangsit dulu mengenai baiknya segmen mana yang harus diuji…hehehe.

Oke, jadi apa yang dimaksud dengan motif? Motif adalah sebuah segmen pada urutan dengan pola tertentu pada sejumlah urutan dan biasanya mengindikasikan fungsi tertentu. Dalam prediksi motif ini, kita memberlakukan dua asumsi untuknya: (i) motif merupakan segmen dengan panjang tertentu yang bersifat tetap antar urutan satu dengan lainnya dan (ii) motif terdapat di seluruh urutan yang digunakan dalam proses prediksinya. Dengan kata lain, jika kita dapat mencari segmen motif ini, hal tersebut dapat mengantarkan kita lebih cepat mengenai pengungkapan fungsi suatu daerah di dalam DNA atau protein dan karena sebab inilah prediksinya menjadi penting. Dengan semakin melimpahnya data urutan DNA dan protein, prediksi motif menjadi semakin mungkin untuk dilakukan dan hasil yang diberikan pun semakin akurat. Terdapat dua kelompok metode yang digunakan untuk memprediksi motif ini. Kelompok metode pertama menggunakan pendekatan berbasis jajaran urutan banyak sedangkan kelompok kedua menggunakan pendekatan tanpa jajaran urutan. Hmm…mungkin jajaran urutan sudah terlalu mainstream tampaknya.

Saia rasa kelompok pertama mungkin akan lebih familiar dalam bayangan teman-teman. Dua jenis metode yang menggunakan pendekatan ini adalah metode ekspresi regular dan metode model statistik. Metode ekspresi regular memprediksi motif dengan terlebih dahulu membuat konsensus dari segmen di dalam jajaran yang dianggap memiliki pola tertentu (Gambar 1). Terkait dengan ekspresi regular ini terdapat beberapa aturan penulisan yang harus dipatuhi. Setiap karakter di dalam motif harus dipisahkan dengan tanda “–”. Sebuah posisi yang hanya ditempati oleh satu jenis residu saja dituliskan dengan menggunakan residu yang bersangkutan. Apabila posisi tersebut ditempati oleh lebih dari satu residu, maka redisu yang bersangkutan dituliskan menggunakan tanda kurung kotak [ ]. Kemudian, jika sebuah posisi memiliki seluruh kecuali satu residu saja, maka residu yang bersangkutan dituliskan menggunakan tanda kurung kurawal { }. Posisi yang tidak memiliki residu yang spesifik dituliskan dengan tanda N (untuk urutan DNA) atau X (untuk asam amino). Jumlah repetisi dari sebuah pola dituliskan menggunakan tanda kurung ( ).
Gambar 1. Contoh motif yang dihasilkan dari jajaran urutan.

Jadi, bermodalkan ekspresi regular ini, kita mencari motif yang direpresentasikannya di dalam urutan lainnya. Ketemu? Bisa ya bisa tidak. Ya jika memang terdapat segmen dengan pola serupa dengan ekspresi reguler dan tidak jika segmennya berbeda. Pada kebanyakan kasus, ternyata motif itu agak fleksibel dan agak sulit jika sebuah motif harus mengikuti persis seperti yang ada di ekspresi regular. Pengembangan lebih lanjut untuk mengatasi masalah ini adalah dengan menggunakan pemodelan statistik, yakni memodelkan jajaran segmen bukan sebagai sebuah ekspresi reguler, namun sebagai profil urutan. Pemodelan statistik yang digunakan bisa berupa PSSM atau HMM (baca tulisan sebelumnya), namun HMM lebih umum digunakan.

Selesai cerita? Tidak juga. Walaupun HMM itu hebat, namun akurasi dari metode model statistik tersebut sangat bergantung dari kualitas jajaran urutan yang dihasilkan. Padahal pada tulisan yang sebelum-sebelumnya kita mengetahui bahwa sebuah jajaran urutan banyak dihasilkan menggunakan metode heuristik yang tidak menjamin akurasinya. Selain daripada itu, seandainya jajarannya cukup akurat sekalipun, kelompok metode berbasis jajaran ini agak sulit dalam mengakomodasi urutan yang berkerabat jauh. Jika urutan-urutan berkerabat jauh tersebut dimasukkan ke dalam pemodelan, maka besar kemungkinan prediksi motif yang dihasilkan akan banyak mengandung hasil positif semu, yakni urutan yang dianggap sebagai motif padahal sebenarnya tidak.

Jika memang begitu keadaannya, berarti apakah ada metode prediksi motif yang tidak mengandalkan jajaran urutan banyak sebagai masukan datanya? Untungnya di jaman serba ada ini, jawabannya ya ada (kalau ngga ya bubar deh, ga jadi posting tulisan ini). Oke, sekarang kita memasuki pendekatan kedua, yakni kelompok metode prediksi motif tanpa jajaran urutan. Konon katanya, metode dalam kelompok ini diilhami oleh permainan dadu loh. Ada tiga metode yang tergolong ke dalam kelompok ini, yakni randomized algorithm, expectation maximization (EM), dan Gibbs sampling. Pendekatan yang dilakukan ketiga metode ini sebenarnya mirip satu dengan lainnya, yakni pendekatan berbasis perulangan (iterasi) dengan perbaikan dari fase satu ke fase berikutnnya. Inspirasi dari kelompok metode ini adalah, jika iterasinya dilakukan cukup banyak, mungkin jutaan kali, yaaa mungkin saja motif umum antar urutan bisa ditemukan. Cukup…optimistis kan? Heheheh. Nah coba lihat Gambar 2 dulu deh.

Gambar 2. Skema proses algoritma expectation maximization (EM).

Saia tidak ingin membahas detil prosesnya yang cukup panjang, namun saia ingin fokus kepada optimisme yang saia sebutkan barusan. Well, mengapa si pembuat algoritma tersebut bisa begitu optimis bisa menemukan motif umum antar urutan hanya dengan mengulang-ulang pencarian? Kita melihat proses yang tampaknya sia-sia ini karena kita memiliki asumsi bahwa keteracakan posisi antar urutan satu dengan lainnya. Agak mustahil sepertinya untuk mencari pola umum tanpa menjajarkan posisi antar urutan terlebih dahulu. Namun demikian, satu hal yang perlu kita yakini dalam al inni adalah, pola umum yang tersemat sebenarnya membuat seluruh urutan tersebut menjadi tidak acak seluruhnya. Hal ini akan tergambarkan dalam statistik frekuensi posisi jika kita membuat profil dari segmen yang diambil dari masing-masing urutan, sekalipun jika segmen-segmen tersebut dicuplik secara acak. Atas dasar inilah, jika diberikan cukup perulangan maka terdapat kemungkinan bahwa pola umum antar urutan tersebut dapat ditemukan. So, pesan moral dari algoritma ini adalah never give up trying...hohoho.

Hmm…kalau untuk algoritma penujumannya saia rasa segini saja dulu deh. Pada tulisan berikutnya saia ingin memperkenalkan beberapa database yang menggunakan motif dalam pencariannya.

Salam,
KohVic

Tidak ada komentar: