Sabtu, 12 Mei 2012

Sebuah Tulisan Evolusi dan Filogeni: Memilih Model Evolusi

Hasil perbandingan model untuk data gen 16S rRNA dengan program MEGA 5.0

Hohohoh....jumpa lagi bersama saia Chef Victor dalam serial Sebuah Tulisan Evolusi dan Filogeni. Bagaimana rekonstruksi pohon filogenetik nya? lancar-lancar semua tah? Kalo ga lancar....ya diulang lagi, lagi dan lagi. Practice make perfect gan!! Dalam tulisan kali ini saia ingin memperkenalkan yang namanya Phylogenetic Model Test. Sepertinya agak aneh yak, kenapa juga tulisan mengenai ini justru ditampilkan setelah tulisan Phylogenetic Inference. Tapi ya ga apa-apa, toh akan lebih baik kita mengenal semua modelnya dulu sebelum mulai memilih dan memilahnya.

Teman-teman tentunya masih ingat kan mengenai beberapa model evolusi di tulisan sebelumnya? Disana saia menuliskan beberapa model seperti JC69, K80, F81, HKY, dan juga GTR untuk nukleotida serta BLOSUM62, Dayhoff, JTT dan lainnya untuk asam amino. Nah dari sekian banyak model tersebut saia rasa beberapa dari kita pastinya bingung mengenai model filogenetik apa yang akan kita pilih dalam proses rekonstruksi pohon?

Beberapa dari kita (termasuk saia) pastinya akan menjawab pertnayaan tersebut dengan "pilih saja model yang paling kompleks yang pernah dibuat". Semakin kompleks suatu model artinya semakin banyak pula parameter yang perlu dihitung (coba tinjau lagi gambar Q-Matrix di tulisan sebelumnya). Nah pada kenyataannya evolusi suatu urutan DNA (atau protein) bisa kompleks dan juga bisa sederhana, alias tidak dapat dipukul rata dengan mengasumsikan 1 model untuk semua.

Kita coba memulainya dari sebuah definisi. Model evolusi merupakan serangkaian asumsi mengenai proses substitusi DNA/asam amino. Model ini berfungsi dalam menjelaskan perbedaan probabilitas pergantian satu karakter ke karakter lainnya. Kehebatan suatu model tidak terletak pada kompleksitasnya, namun ketika model tersebut cocok dengan data yang ada dan dapat menghasilkan prediksi akurat terkait permasalahan. Umumnya model yang kompleks cenderung cocok dengan data yang ada karena memiliki lebih banyak variabel dibandingkan model yang sederhana. Penggunaan model yang kompleks juga memiliki kekurangan, yakni waktu komputasi yang jauh lebih lama dan juga kemungkinan bias yang meningkat karena banyaknya parameter yang harus dihitung. Jadi, pilihan bijaknya adalah pilihlah model dengan kompleksitas yang sesuai kebutuhan.

Ada beberapa teknik dalam menentukan model yang cocok (model fit) untuk data kita, diantaranya hierarchical likelihood ratio test (hLRT), Akaike information criterion (AIC), Bayesian information criterion (BIC), dan Decision Theoretic (DT). Mari kita lihat satu per satu...
1. Hierarchical Likelihood Ratio Test (hLRT)
Metode ini didasarkan pada pengukuran nilai log MLE (Maximum Likelihood Estimate) dari setiap model yang dipakai untuk menganalisis data yang sama. Setelah itu nilai MLE ini dibandingkan antar satu model dengan yang lain dengan rumus LRT = 2(L1 - L0), dimana L1 merupakan nilai log MLE dari model yang lebih kompleks dan L0 untuk model yang lebih sederhana. Nah dengan demikian, nilainya pasti akan sama atau lebih besar dari nol. Hal ini disebabkan karena log MLE untuk model kompleks pasti lebih besar daripada model sederhana. Penilaian yang dilakukan disini adalah signifikansi dari nilai nol. Apabila nilai LRT secara signifikan lebih besar dari nol, maka artinya ada parameter tambahan yang memang dapat menjelaskan data dengan lebih baik. Itu artinya model yang lebih kompleks lebih baik dalam analisis data. Perbandignan ini dilakukan antar satu model dengan yang lainnya secara bertahap (hierarchical) menurut bertambahnya jumlah parameter.

2. Information Criteria (Akaike Information Criterion; AIC dan Bayesian Information Criterionl; BIC)
Saia dapat mengartikan keduanya ini adalah indeks perbandingan antar model yang disesuaikan dengan jumlah parameter (K) yang dimiliki oleh masing-masing model. Indeks AIC dihitung berdasarkan rumus AIC = -2L + 2K, dimana L merupakan nilai log MLE dan K adalah jumlah parameter suatu model. Dengan demikian, nilai log MLE yang lebih besar tidak menjamin bahwa model tersebut lebih bagus seperti halnya pada hLRT dikarenakan adanya faktor 2K pada perhitungan AIC tersebut. Indeks BIC juga serupa dengan AIC hanya saja rumus yang digunakan berupa BIC = -2L + K log n, dimana n adalah perkiraan jumlah karakter dalam alignment. Dalam perhitungan indeks Information Criteria ini, model dengan indeks AIC dan BIC terkecil merupakan model yang paling bagus untuk digunakan dalam analisis data.

3. Decision Theoretic (DT)
Tidak ada jaminan bahwa model terbaik akan dapat memberikan estimasi filogeni terbaik. Oleh karena itu metode DT melihat model versinya dengan estimasi error dalam perhitungan branch length dari setiap model. Perlu saia ingatkan lagi bahwa branch length merupakan fungsi dari suatu model terhadap data. Nah model dengan nilai error terendah merupakan model yang "terbaik" menurut versi DT.

Program yang disarankan untuk menganalisis perbandingan antar model adalah MODEL TEST (untuk DNA) dan PROT TEST (untuk protein). Program MODEL TEST dapat di-download di http://darwin.uvigo.es/software/modeltest.html, sementara PROT TEST dapat di-download di http://darwin.uvigo.es/software/prottest.html. Analisis yang sama juga dapat (dan yang saia lakukan) di program MEGA 5. Gambar di atas menampilkan hasil perbandingan model menggunakan data berupa gen 16S rRNA.

Regards,
Victor Apriel

2 komentar:

D mengatakan...

sebuah tulisan yang bagus,bapak, saya didik wahyudi,,saya mau tanya untuk program analisis model tes apakah hanya compatible dengan komputer mac, karena setelah saya downlload tidak bisa dijalankan di windows...terimakasih...
didik_abd2yahoo.co.id

Da Owl mengatakan...

Pak Didik,
Untuk program-program tersebut umumnya dibuat dengan format UNIX. Namun yang saya masukan dalam seluruh tulisan saya ini semuanya kompatibel dengan OS Windows. Bapak bisa mengunjungi website penyedia program yang besangkutan dan biasanya mereka menyediakan program tersebut untuk tiga jenis OS.