It's Everything About Biology: Sebuah Tulisan Evolusi dan Filogeni: Phylogenetic Inference (Part II)

Phylogenetic Tree of Life based on sequence of 16S and 18S rRNA gene

Ehem ehem...saia pun kembali dengan membawa kegilaan-kegilaan baru. So siapkan kepala kalian biar gak meledak yah...hahaha. Oke kali ini saia berniat ingin melanjutkan serial Tulisan Evolusi dan Filogeni yang masih terkait dengan Phylogenetic Inferences (Part I). Yaa apalagi kalau bukan Phylogenetic Inferences (Part II)...*err this is part two haa (singlish accent)*

Kalau di Part I sebelumnya itu saia menekankan mengenai perhitungan branch length yang didasarkan pada model-model evolusi, maka kali ini saia akan bercerita mengenai cara mendapatkan topologi pohon yang sesuai. Em "mendapatkan" disini bisa diartikan sebagai membuat ataupun memilih satu dari sekian banyak pohon. So, lebih baik membuat atau memilih? Yaa itu tergantung algoritme yang digunakan. Oke sebelum memulai, terlebih dahulu saia ingin menjelaskan istilah yang sering saia pakai disini, yakni istilah "organisme". Nah pada tulisan sebelumnya saia menggunakan istilah "organisme" untuk menekankan unit/satuan yang saia perbandingkan selama rekonstruksi pohon. Istilah tersebut kadang bisa saia sebut sebagai "OTU" (operational taxonomical unit) atau "taxon/taxa (jamak)" agar tidak membingungkan beberapa pembaca yang mungkin tidak mau rekonstruksi pohon gen ini dikatakan sebagai rekonstruksi pohon organisme. Oke? Sepakat? Mari kita mulai.....

Metode rekonstruksi pohon yang sudah dikenal hingga sekarang ini umumnya dikelompokan menjadi 2, yakni metode "distance-matrix" dan metode "character-based". Nah apalagi tuh? Sabar..sabar..jangan panik dulu. Untuk memudahkan pembacaan, saia coba pisahkan kedua kelompok metode dibawah ini.

1. Metode Distance Matrix
Tentunya masih ingat dengan kata "observed distance" di tulisan sebelumnya toh? nah istilah yang sering disebut sebagai "pairwise distance" atau "p-distance" ini merupakan dasar dari rekonstruksi pohon filogeni menggunakan metode distance matrix. Jadi, berbekal indeks p-distance antar pasangan organisme tersebut, kelompok metode ini memberikan ukuran dekat/jauhnya kekerabatan antar organisme pada pohon. Semakin besar nilai p-distance maka semakin jauh kekerabatan antar organisme dan begitu juga sebaliknya.

Metode distance matrix yang dikenal umumnya meliputi: Unweighted-Pair Group Method with Arithmetic Means (UPGMA), Minimum Evolution (ME), dan Neighbor-Joining (NJ). Metode UPGMA merupakan metode tertua dan pertama kali digunakan dalam rekonstruksi pohon filogeni. Konsepnya adalah indeks p-distance terkecil antar pasangan organisme akan digunakan untuk menggabungkan kedua organisme tersebut dalam 1 kelompok filogenetik (disebut juga "clade"). Metode ini dikenal bagus di awalnya karena menghasilkan pohon ultrametrik, yakni pohon yang semua organismenya memiliki jarak/branch length yang sejajar satu sama lain jika ditelusur dari akar/root. Ultrametrisitas akan berlaku dengan 1 asumsi, yakni jika laju evolusi antar organisme yang dibandingkan adalah sama. Namun demikian, fakta pun berkata lain karena laju evolusi antar organisme bahkan untuk gen yang sama itu tidaklah sama.

Metode lainnya seperti metode ME dan NJ pun dikembangkan untuk mengakomodasi perbedaan ini. Kedua metode tersebut tidak mengakui ultrametrisitas karena laju evolusi yang tidak sama antar organisme. Sebagai gantinya, kedua metode tersebut mengembangkan metode aditifitas (additivity), yakni kekerabatan antar 2 organisme pada suatu pohon adalah sebesar total branch length yang menhubungkan keduanya. Konsep ini membolehkan panjang branch length yang tidak ekuivalen/sejajar antar organisme, suatu hal yang tidak dapat dilakukan dengan metode UPGMA. Nah metode ME disini adalah mencari pohon yang memiliki nilai tree length terkecil. Sekedar info, tree length artinya panjang total pohon yang merupakan jumlah total dari semua branch length. Salah satu kekurangan metode ME adalah dalam hal pencarian pohon karena metode ini harus menghitung nilai tree length setiap pohon satu per satu. Itu artinya, ada 2.027.025 pohon unrooted dan 34.459.425 pohon rooted yang harus dihitung tree length-nya apabila hanya menggunakan 10 organisme.

Metode NJ mencoba menggunakan pendekatan serupa UPGMA namun dengan sedikit modifikasi yang menghilangkan ultrametrisitas dan mengutamakan aditifitas. Metode ini juga mengadopsi konsep metode ME, yakni mencari tree length terkecil. Namun dalam prosesnya metode NJ tidak sekeras metode ME yang mencari satu diantara jutaan pohon dengan nilai tree length terkecil. Metode NJ berasumsi bahwa tree length terkecil dari suatu pohon dapat dicapai dengan pendekatan branch length terkecil. Buat saja pohon dengan masing-masing branch length terkecil dan kita akan mendapatkan pohon dengan tree length terkecil bukan? Pendekatan ini memiliki keuntungan dari segi komputasi sehingga metode ini dapat digunakan untuk rekonstruksi pohon filogeni dengan jumlah organisme yang banyak dan juga dataset yang besar dalam waktu relatif cepat.

2. Metode Character-Based
Kalau sebelumnya metode Distance-Matrix menggunakan indeks p-distance sebagai panduan dalam merekonstruksi pohon, nah kali ini metode Character-Based menggunakan urutan nukleotida/asam amino secara langsung dalam rekonstruksi pohonnya. Kelompok metode ini mencakup metode Maximum-Parsimony (MP), Maximum-Likelihood (ML), dan Bayesian Inference (singkat saja BI). Konsep ketiga metode tersebut cukup bervariasi karena menggunakan data yang begitu mendasar.

Konsep metode MP didasarkan pada evolusi yang berjalan efisien, sehingga apabila ada sejumlah cara untuk menghasilkan keadaan seperti sekarang ini maka cara yang paling singkatlah yang akan dipilih Kalimat tersebut seringkali dikatakan sebagai klausa "Ockham's Razor" yang berbunyi "shave away all the unnecessaries". Berbeda dengan MP, konsep metode ML adalah pencarian pola evolusi seperti apa yang paling mungkin untuk menghasilkan keadaan seperti sekarang ini. Konsep ML nampak terbalik dibandingkan konsep metode lainnya yang lebih menekankan bagaimana menghasilkan pohon dengan menggunakan informasi berpa keadaan yang sekarang ini. Lain lagi dengan metode BI yang menekankan pada probabilitas suatu pohon evolusi diantara jutaan pohon evolusi untuk didukung oleh data yang dipakai dalam analisisnya (disebut juga sebagai "priors").

Kelemahan dari kelompok metode ini adalah sama seperti metode ME, yakni pencarian satu atau sekelompok pohon terbaik (optimal/best tree) diantara jutaan pohon lainnya. Ijinkan saia menyadur satu kalimat yang menggambarkan kesulitan pencarian ini:

"Already at nine taxa, you are more likely to be hit by lightning (odds 3:100 000) than to find the best tree by picking one randomly (odds 1:135, 135). At slightly more than 50 taxa, the number of topologies outnumber the number of atoms in the known universe – and this is still considered a small phylogenetic problem".

Bayangkan ketika kita menyuruh komputer/laptop tersayang kita untuk membuat pohon filogeni dari 50 organisme/OTU/taxa dengan kelompok metode ini. Jadi tidaklah heran apabila rekonstruksi dengan kelompok metode ini jauh lebih sulit dan memakan waktu dari segi komputasi dibanding metode Distance-Matrix. Akan tetapi, tentu saja kita tidak akan sesulit ini di jaman sekarang. Para perancang program telah menambahkan metode yang diharapkan mampu mempercepat pencarian pohon terbaik. Metode pencarian tersebut dibagi menjadi 4, yakni Exhaustive Search Method, Branch and Bound Method, Heuristic Approach, dan Markov Chain Monte Carlo Metropolis Coupling atau MC3 (terus terang untuk metode terakhir ini saia tidak tahu harus dimasukan ke golongan mana, jadi saia pisah saja).

Oke sepertinya sampai disini dulu tulisan untuk part II ini. Sebenarnya masih banyak hal yang ingin disampaikan khususnya terkait aspek yang lebih mendalam dari setiap metode/algoritme. Namun saia khawatir nanti tulisan ini akan menjadi terlalu panjang dan terkesan membosankan. So I think I'll save those for later. Berikutnya, dalam tulisan Phylogenetic Inference (Part III) saia akan menerangkan mengenai mengenai program-program yang dipakai untuk menghasilkan pohon. Ditunggu yaa ^^/

Regards,
Victor Apriel

It's Everything About Biology

Senin, 07 Mei 2012

Sebuah Tulisan Evolusi dan Filogeni: Phylogenetic Inference (Part II)

Tidak ada komentar: