Sekedar menyelesaikan sharing-sharing ria bersama mengenai proses inferensi filogenetik, kali ini saia mencoba membawakan satu lagi konsep yang melatarbelakangi algoritme Maximum Parsimony (MP). Yah sekian saja deh kata sambutan dari saia dan selamat membaca ^^/
A. Pengantar
Konsep parsimony dapat dikatakan merupakan konsep pertama yang mengawali analisis kekerabatan antar organisme. Konsep ini dikemukakan oleh Willi Henning, seorang entomolog Jerman, yang berpendapat bahwa hubungan kekerabatan antar organisme hanya dapat ditarik dari kemiripan/similaritas yang diturunkan dari nenek moyangnya. Hal ini tentu saja berbeda dengan pandangan fenetik pada saat itu yang menganggap kemiripan secara keseluruhan (overall similarity) harus dikaitkan semuanya dalam mengevaluasi suatu kekerabatan diantara organisme. Kemiripan karakter yang diturunkan dari nenek moyang tersebut diistilahkan sebagai "symplesiomorphy", sementara kemiripan yang didapatkan dari proses adaptasi diistilahkan sebagai "synapomorphy". Kedua kata tersebut secara berturut-turut diturunkan dari kata "plesiomorph" yang berarti karakter nenek moyang (ancient) dan "apomorph" yang berarti karakter yang didapatkan (derived).
Konsep parsimony berlaku hingga kini dan juga telah diterapkan untuk sequence molekular. Intinya adalah mencari pohon filogenetik yang memerlukan asumsi paling sedikit dalam menghubungakan semua organisme/taksa yang dikaji. Asumsi yang dimaksud dalam hal ini adalah proses substitusi nukleotida. Konsep yang sama juga berlaku ketika menggunakan sequence asam amino. Substitusi yang semakin sedikit juga berarti meminimalisir panjang branch length, sehingga pohon Maximum Parsimony (MP) adalah pohon yang dapat menghasilkan tree length (total branch length) minimum.
B. Situs Informatif (Parsimony Informative Sites)
Dalam algoritme Maximum Parsimony tidak semua situs dalam sequence menyediakan informasi mengenai jejak-jejak plesiomorph molekular. Gambar 1 dapat membantu menjelaskan perbedaan antara situs informatif, variabel, singleton (situs dimana hanya ada 1 taksa yang berbeda), dan invariabel. Situs variabel merupakan situs yang mengandung keempat jenis nukleotida (A, T, G, dan C). Situs ini tidak informatif karena tidak ada pohon parsimonius yang lebih mampu menjelaskan substitusi mana yang lebih sedikit dibandingkan yang lain. Situs singleton dan juga situs invariabel juga sama-sama tidak dapat memberikan informasi mengenai pohon mana yang bersifat parsimonius.
A. Pengantar
Konsep parsimony dapat dikatakan merupakan konsep pertama yang mengawali analisis kekerabatan antar organisme. Konsep ini dikemukakan oleh Willi Henning, seorang entomolog Jerman, yang berpendapat bahwa hubungan kekerabatan antar organisme hanya dapat ditarik dari kemiripan/similaritas yang diturunkan dari nenek moyangnya. Hal ini tentu saja berbeda dengan pandangan fenetik pada saat itu yang menganggap kemiripan secara keseluruhan (overall similarity) harus dikaitkan semuanya dalam mengevaluasi suatu kekerabatan diantara organisme. Kemiripan karakter yang diturunkan dari nenek moyang tersebut diistilahkan sebagai "symplesiomorphy", sementara kemiripan yang didapatkan dari proses adaptasi diistilahkan sebagai "synapomorphy". Kedua kata tersebut secara berturut-turut diturunkan dari kata "plesiomorph" yang berarti karakter nenek moyang (ancient) dan "apomorph" yang berarti karakter yang didapatkan (derived).
Konsep parsimony berlaku hingga kini dan juga telah diterapkan untuk sequence molekular. Intinya adalah mencari pohon filogenetik yang memerlukan asumsi paling sedikit dalam menghubungakan semua organisme/taksa yang dikaji. Asumsi yang dimaksud dalam hal ini adalah proses substitusi nukleotida. Konsep yang sama juga berlaku ketika menggunakan sequence asam amino. Substitusi yang semakin sedikit juga berarti meminimalisir panjang branch length, sehingga pohon Maximum Parsimony (MP) adalah pohon yang dapat menghasilkan tree length (total branch length) minimum.
B. Situs Informatif (Parsimony Informative Sites)
Dalam algoritme Maximum Parsimony tidak semua situs dalam sequence menyediakan informasi mengenai jejak-jejak plesiomorph molekular. Gambar 1 dapat membantu menjelaskan perbedaan antara situs informatif, variabel, singleton (situs dimana hanya ada 1 taksa yang berbeda), dan invariabel. Situs variabel merupakan situs yang mengandung keempat jenis nukleotida (A, T, G, dan C). Situs ini tidak informatif karena tidak ada pohon parsimonius yang lebih mampu menjelaskan substitusi mana yang lebih sedikit dibandingkan yang lain. Situs singleton dan juga situs invariabel juga sama-sama tidak dapat memberikan informasi mengenai pohon mana yang bersifat parsimonius.
Gambar 1. Perbandingan antara situs informatif, variabel, singleton, dan invariabel. |
Dengan demikian, syarat sebuh situs agar bersifat informatif adalah situs tersebut harus memungkinkan adanya perbedaan perhitungan jumlah substitusi antar topologi untuk menjelaskan variasi yang terdapat pada situs tersebut. Hal ini berarti bahwa sebuah situs informatif setidaknya harus memiliki dua jenis nukleotida dan keduanya harus muncul setidaknya dua kali pada situs tersebut. Gambar 1 memperlihatkan bahwa sebuah situs untuk 4 taksa yang mengandung A, A, G, G merupakan situs informatif. Hal ini dapat terlihat dari 3 jenis kandidat pohon yang dibuat bahwa pohon 1 merupakan pohon yang paling parsimonius (mengandung substitusi paling sedikit).
C. Tahap Rekonstruksi Pohon MP
Kita akan mencoba merekonstruksi pohon MP untuk 4 taksa terlebih dahulu. Jika diberikan 4 taksa dengan sequence alignment n, maka algoritme MP hanya akan menggunakan situs-situs informatif dari n-situs tersebut untuk rekonstruksi pohonnya. Nah tahapannya dapat saia simpulkan seperti ini:
1. Tentukan kemungkinan pohon yang dapat direkonstruksi dari sejumlah taksa yang diuji. Dalam contoh kali ini ada 4 taksa, sehingga terdapat 3 kandidat pohon.
2. Tentukan kombinasi nukleotida untuk penentuan character state pada nodus internal. Jumlah nodus internal untuk pohon dengan n-taksa adalah n-2. Dalam contoh kasus 4 taksa kita, maka ada 2 nodus internal. Nah karena ada 4 jenis nukleotida yang mungkin menempati nodus internal tersebut, maka kombinasi total kemungkinan nukleotida dirumuskan dengan 4^i dengan i sebagai jumlah nodus internal. Dengan demikian akan ada 16 kombinasi nukleotida pada nodus internal untuk kasus 4 taksa kita (Gambar 2). Kemudian dari 16 kombinasi tersebut, tentukan kombinasi nukleotida nodus internal dengan jumlah substitusi paling sedikit (Gambar 2, kotak).
C. Tahap Rekonstruksi Pohon MP
Kita akan mencoba merekonstruksi pohon MP untuk 4 taksa terlebih dahulu. Jika diberikan 4 taksa dengan sequence alignment n, maka algoritme MP hanya akan menggunakan situs-situs informatif dari n-situs tersebut untuk rekonstruksi pohonnya. Nah tahapannya dapat saia simpulkan seperti ini:
1. Tentukan kemungkinan pohon yang dapat direkonstruksi dari sejumlah taksa yang diuji. Dalam contoh kali ini ada 4 taksa, sehingga terdapat 3 kandidat pohon.
2. Tentukan kombinasi nukleotida untuk penentuan character state pada nodus internal. Jumlah nodus internal untuk pohon dengan n-taksa adalah n-2. Dalam contoh kasus 4 taksa kita, maka ada 2 nodus internal. Nah karena ada 4 jenis nukleotida yang mungkin menempati nodus internal tersebut, maka kombinasi total kemungkinan nukleotida dirumuskan dengan 4^i dengan i sebagai jumlah nodus internal. Dengan demikian akan ada 16 kombinasi nukleotida pada nodus internal untuk kasus 4 taksa kita (Gambar 2). Kemudian dari 16 kombinasi tersebut, tentukan kombinasi nukleotida nodus internal dengan jumlah substitusi paling sedikit (Gambar 2, kotak).
Gambar 2. Kombinasi jenis nukleotida untuk dua nodus internal pada kasus filogeni 4 taksa. |
3. Dengan menggunakan SETIAP situs informatif yang tersedia, tentukan pohon yang memberikan jumlah total substitusi paling sedikit.
Nah pohon dari seluruh kandidat pohon yang memberikan jumlah substitusi paling sedikit merupakan pohon terbaik menurut algoritme MP atau dapat disebut juga sebagai pohon MP. Dari tulisan sebelumnya kita mengetahui bahwa jumlah substitusi mencerminkan branch length, maka pohon MP merupakan pohon filogenetik yang meminimalisir branch length. Hal ini sesuai dengan filosofi Ockham Razor, "shave away all that is unnecessary". Petuah ini bermakna bahwa evolusi merupakan proses yang efisien, sehingga apabila terdapat lebih dari satu jalur untuk mengarah pada satu hasil maka jalu terpendek-lah yang akan dipilih.
Seiring dengan semakin banyaknya taksa yang ingin diselidiki hubungan kekerabatannya, jumlah kandidat pohon tentu saja meroket dengan cepat. Untuk itu, algoritme MP menggunakan beberapa metode pencarian pohon yang telah dijelaskan sebelumnya, yakni mulai dari Branch & Bound untuk 25 taksa dan Heuristic Approach untuk taksa lebih dari 25 (lihat pada artikel Sebuah Tulisan Evolusi dan Filogeni: Phylogenetic Inference by Maximum Likelihood Method (In Depth)).
D. Keuntungan dan Kerugian Algoritme Maximum Parsimony
Sebagai sebuah algoritme, tentu saja Maximum Parsimony memiliki aspek positif dan negatif. Berikut saia berikan daftarnya:
- Keuntungan
1. Pohon MP yang direkonstruksi pada umumnya terbebas dari asumsi-asumsi model substitusi nukelotida yang diterapkan pada algoritme lainnya seperti algoritme distance-matrix atau maximum likelihood. Dengan kebebasan asumsi model substitusi ini, pohon MP dinilai lebih dapat menggambarkan hubungan kekerabatan yang sebenarnya ketika divergensi antar sequence cukup rendah.
2. Maximum Parsimony merupakan algoritme character-based yang cukup akurat dengan waktu komputasi yang relatif lebih cepat dari algoritme character-based lainnya seperti maximum likelihood.
- Kerugian
1. Pohon MP dikatakan cukup akurat atau mendekati pohon sebenarnya (true tree) apabila diterapkan dengan serangkaian syarat, yakni: (i) tidak ada back mutation atau parallelism; (ii) laju substitusi antar taksa relatif rendah; dan (iii) jumlah nukleotida dalam sequence sangat banyak. Pada kenyataanya ketiga syarat tersebut sulit untuk terpenuhi oleh dataset yang ada.
2. Adanya tendensi algoritme MP untuk menggabungkan 2 taksa yang memiliki kemiripan sequence nukleotida akibat proses back mutation, parallelism, dan konvergensi. Hal ini dapat terjadi juga akibat ketidaksetaraan laju evolusi antar taksa. Kedua faktor tersebut dapat berakibat pada efek "long branch attraction", yakni penggabungan dua taksa yang berbeda nenek moyang akibat kesamaan laju substitusi nukleotida (Gambar 3). Berdasarkan Gambar 3 tersebut, takson A dan C yang berbeda nenek moyang dalam hal ini bergabung pada nodus internal (nenek moyang) yang sama oleh algoritme MP. Hal ini disebabkan oleh karena perbedaan laju substitusi nukleotida antara takson A yang lebih mirip dengan takson C dibandingkan dengan takson B yang merupakan kerabat takson A yang sebenarnya.
Nah pohon dari seluruh kandidat pohon yang memberikan jumlah substitusi paling sedikit merupakan pohon terbaik menurut algoritme MP atau dapat disebut juga sebagai pohon MP. Dari tulisan sebelumnya kita mengetahui bahwa jumlah substitusi mencerminkan branch length, maka pohon MP merupakan pohon filogenetik yang meminimalisir branch length. Hal ini sesuai dengan filosofi Ockham Razor, "shave away all that is unnecessary". Petuah ini bermakna bahwa evolusi merupakan proses yang efisien, sehingga apabila terdapat lebih dari satu jalur untuk mengarah pada satu hasil maka jalu terpendek-lah yang akan dipilih.
Seiring dengan semakin banyaknya taksa yang ingin diselidiki hubungan kekerabatannya, jumlah kandidat pohon tentu saja meroket dengan cepat. Untuk itu, algoritme MP menggunakan beberapa metode pencarian pohon yang telah dijelaskan sebelumnya, yakni mulai dari Branch & Bound untuk 25 taksa dan Heuristic Approach untuk taksa lebih dari 25 (lihat pada artikel Sebuah Tulisan Evolusi dan Filogeni: Phylogenetic Inference by Maximum Likelihood Method (In Depth)).
D. Keuntungan dan Kerugian Algoritme Maximum Parsimony
Sebagai sebuah algoritme, tentu saja Maximum Parsimony memiliki aspek positif dan negatif. Berikut saia berikan daftarnya:
- Keuntungan
1. Pohon MP yang direkonstruksi pada umumnya terbebas dari asumsi-asumsi model substitusi nukelotida yang diterapkan pada algoritme lainnya seperti algoritme distance-matrix atau maximum likelihood. Dengan kebebasan asumsi model substitusi ini, pohon MP dinilai lebih dapat menggambarkan hubungan kekerabatan yang sebenarnya ketika divergensi antar sequence cukup rendah.
2. Maximum Parsimony merupakan algoritme character-based yang cukup akurat dengan waktu komputasi yang relatif lebih cepat dari algoritme character-based lainnya seperti maximum likelihood.
- Kerugian
1. Pohon MP dikatakan cukup akurat atau mendekati pohon sebenarnya (true tree) apabila diterapkan dengan serangkaian syarat, yakni: (i) tidak ada back mutation atau parallelism; (ii) laju substitusi antar taksa relatif rendah; dan (iii) jumlah nukleotida dalam sequence sangat banyak. Pada kenyataanya ketiga syarat tersebut sulit untuk terpenuhi oleh dataset yang ada.
2. Adanya tendensi algoritme MP untuk menggabungkan 2 taksa yang memiliki kemiripan sequence nukleotida akibat proses back mutation, parallelism, dan konvergensi. Hal ini dapat terjadi juga akibat ketidaksetaraan laju evolusi antar taksa. Kedua faktor tersebut dapat berakibat pada efek "long branch attraction", yakni penggabungan dua taksa yang berbeda nenek moyang akibat kesamaan laju substitusi nukleotida (Gambar 3). Berdasarkan Gambar 3 tersebut, takson A dan C yang berbeda nenek moyang dalam hal ini bergabung pada nodus internal (nenek moyang) yang sama oleh algoritme MP. Hal ini disebabkan oleh karena perbedaan laju substitusi nukleotida antara takson A yang lebih mirip dengan takson C dibandingkan dengan takson B yang merupakan kerabat takson A yang sebenarnya.
Gambar 3. Long-Branch Attraction. |
E. Kesimpulan
Algoritme MP dapat dikatakan sebagai algoritme tertua yang dikembangkan untuk mempelajari hubungan kekerabatan antar mahluk hidup. Seperti hal-nya algoritme lainnya, penerapan konsep parsimony dalam algoritme sequence molekular (DNA/protein) tentunya memiliki serangkaian asumsi sehingga mengakibatkan adanya keuntungan dan kerugian tersendiri dari algoritme ini. Sebagai algoritme character-based, Maximum Parsimony cukup cepat dan akurat dalam merekonstruksi hubungan kekerabatan antar taksa jika menggunakan sequence yang memiliki kekonstanan laju evolusi dan sedikit homoplasi.
Regards,
KohVic
Algoritme MP dapat dikatakan sebagai algoritme tertua yang dikembangkan untuk mempelajari hubungan kekerabatan antar mahluk hidup. Seperti hal-nya algoritme lainnya, penerapan konsep parsimony dalam algoritme sequence molekular (DNA/protein) tentunya memiliki serangkaian asumsi sehingga mengakibatkan adanya keuntungan dan kerugian tersendiri dari algoritme ini. Sebagai algoritme character-based, Maximum Parsimony cukup cepat dan akurat dalam merekonstruksi hubungan kekerabatan antar taksa jika menggunakan sequence yang memiliki kekonstanan laju evolusi dan sedikit homoplasi.
Regards,
KohVic