Minggu, 06 Mei 2012

Sebuah Tulisan Evolusi dan Filogeni: Phylogenetic Inference (Part I)

Instantaneous rate Matrix or oftenly said as Q-Matrix
Kembali lagi bersama saia dalam artikel Bukan Tulisan Ilmiah. Masih terkait dengan tema Sebuah Tulisan Evolusi dan Filogeni, kali ini saia akan bercerita mengenai hal paling menarik dalam mempelajari evolusi dan filogeni. Yup, apalagi kalau bukan rekonstruksi pohon filogeni itu sendiri...horeeee...woow...woow...

Ehem....yasuda kita mulai sajah. Rekonstruksi pohon filogeni/filogenetik sepertinya memang menjadi tujuan utama setiap orang yang bermain di bidang evolusi dan filogeni. Ketika pohon tersebut selesai direkonstruksi, rasanya kita menjadi seperti penguasa dunia yang dapat menjawab segalanya dari masa lalu, masa kini, hingga masa depan. Memang tidak menutup kemungkinan untuk melakukan hal-hal itu, namun dengan asumsi bahwa pohon kita memang merupakan pohon sejarah evolusi yang benar. Lantas apakah mendapatkan pohon yang benar itu susah? Yaa susah-susah-gampang sih, lebih banyak susah ketimbang gampangnya. Ada dua faktor yang harus diperhatikan dalam proses rekonstruksi pohon, yakni topologi pohon dan branch length (sebenarnya mau saia artikan sebagai "panjang dahan" tapi kok rasanya aneh yah...).

1. Topologi Pohon
Topologi pohon itu sebenarnya menekankan pada bentukan pohon yang menghubungkan kekerabatan organisme yang kita bandingkan. Ada 2 jenis pohon filogeni, yakni rooted (berakar) dan unrooted (tidak berakar). Pohon rooted menggambarkan awal mula proses evolusi hingga menghasilkan keanekaragaman di waktu sekarang ini, sedangkan pohon unrooted hanya menggambarkan hubungan kekerabatan tanpa menyatakan awal mula proses evolusinya. Nah dalam upaya kita mencari topologi pohon yang benar, kita akan bermain dengan kemungkinan. Permasalahnnya disini terletak pada jumlah topologi pohon yang mungkin dapat dibuat seiring dengan meningkatnya jumlah organisme yang kita bandingkan. Pada tingkatan 3 organisme, maka akan terdapat 3 kemungkinan pohon rooted dan 1 pohon unrooted. Meningkat pada pembandingan 10 organisme, maka akan terdapat 34.459.425 pohon rooted dan 2.027.025 pohon unrooted yang mungkin direkonstruksi!!! Suatu hal yang sulit dari segi komputasi, namun merupakan suatu permasalahan yang dianggap kecil dalam konteks filogenetik.

2. Branch Length
Branch length menggambarkan seberapa jauh/dekat kekerabatan antar organisme dalam pohon filogeni. Semakin panjang branch length-nya berarti kekerabatan antar mereka semakin jauh. Nah seperti dimensi panjang fisik yang memiliki satuan meter, kilometer atau sentimeter serta dimensi berat yang memiliki satuan gram atau kilogram, lantas apa satuan untuk branch length ini? Branch length memiliki satuan panjang berupa observed distance (p) yang didefinisikan sebagai besarnya indeks total perbedaan nukleotida/asam amino antar 2 urutan DNA/protein yang telah di-aligned.

Nah dalam kesempatan ini ijinkan saia untuk menjelaskan mengenai branch length terlebih dahulu sebelum kita memasuki proses pemilihan topologi pohon. Perhitungan branch length dilakukan dengan bantuan model evolusi dan model tersebut berbeda dalam perhitungan branch length DNA dengan protein. Pada urutan DNA kita mengenal adanya 4 jenis nukleotida, yakni A, T, G, dan C. Nah perhitungan observed distance (p) dalam suatu model evolusi ini mempertimbangkan kemungkinan substitusi dari satu jenis nukleotida ke nukleotida lainnya. Saia tidak akan menjelaskan persamaan matematik-statistik nya disini karena suatu alasan yang mudah...saia pun kesulitan memahaminya...hahaha.

Ada berbagai macam model evolusi yang dikenal dalam perhitungan indeks p untuk urutan DNA. Dimulai dari yang paling sederhana, yakni Jukes-Cantor one-parameter model (disingkat juga sebagai JC69), kemudian Kimura 2-parameter model (K80), Felsenstein model (F81 & F84), Hasegawa-Kishino-Yano (HKY85), Tamura-Nei (TN93), dan terakhir adalah General Time Reversible (GTR). Lalu apa bedanya antar satu model dengan yang lain? Perbedaannya terletak pada 3 hal, yakni frekuensi setiap jenis nukleotida (phi), laju rerata substitusi dari 1 jenis nukleotida ke nukleotida lainnya (miu), dan indeks perubahan relatif yang berarti seberapa sering perubahan dari nukleotida satu ke lainnya jika dibandingkan dengan perubahan yang lainnya (a-l).

Nah model kita yang paling sederhana, yakni JC69 mengasumsikan semua laju perubahan rerata yang sama terhadap semua jenis nukleotida. Itu artinya model JC69 memasukkan nilai yang sama untuk parameter indeks perubahan relatif (1/4 untuk setiap jenis nukleotida), kemudian memberikan nilai yang sama pada parameter 'miu'. Nilai 'phi' tidak diperhitungkan dalam model karena parameter tersebut bergantung pada urutan DNA yang akan diperbandingkan. Selanjutnya Oom Kimura mengembangkan model ini lebih lanjut berdasarkan kenyataan bahwa laju transversi (A<->T dan C<->G) lebih rendah dibandingkan laju transisi (A<->G dan C<->T). Dengan demikian model evolusi Oom Kimura menekankan perbedaan nilai 'miu' dan indeks perubahan relatif antara jenis substitusi yang berupa transversi dan transisi (untuk yang bingung mengenai istilahnya bisa dicari di Wikipedia yah).

Model selanjutnya mempertimbangkan adanya perbedaan laju antar transisi dan antar transversi. Seperti yang kita ketahui terdapat 2 macam transisi (A<->G dan C<->T) serta 2 macam transversi (A<->T dan C<->G). Perbedaan antar laju dari setiap jenis transisi dan transversi inilah yang menjadi dasar model evolusi Tamura-Nei (TN93). Pada akhirnya apabila pertimbangan mengenai adanya perbedaan dalam setiap jenis perubahan nukleotida baik dalam hal laju rerata dan perubahan relatif, itulah yang mendasari lahirnya model evolusi yang terkenal sekarang ini, yakni General Time Reversible (GTR).

Nah indeks p yang dihasilkan menggunakan model-model evolusi diatas menjadi dasar dalam algoritme rekonstruksi pohon filogenetik. Namun demikian ada juga algoritme rekosntruksi pohon yang menggunakan atau juga tidak menggunakan indeks p ini untuk menghasilkan pohonnya. Ingin tahu lebih lanjut? Tunggu tulisan berikutnya yah.....

Regards,
Victor Apriel

Tidak ada komentar: