Rabu, 09 Mei 2012

Sebuah Tulisan Evolusi dan Filogeni: Tali Sepatu dan Pisau Si Jack

Skema Analisis Bootstrap. Majority concensus rule (1; kanan bawah) dan Superimpose Rule (2; kanan atas)
klik...klik...klik.......buff...horeeee akhirnya pohonnya jadi!!! Yap setelah sekian lama menunggu, komputer tersayang kita akhirnya menemukan sebuah pohon diantara jutaan atau bahkan miliaran pohon yang ada. Eh tapi terkadang kita pun bertanya, apakan memang pohon ini yang benar? Setelah mempertanyakan itu dalam pikiran, kita pun mencurigai si komputer. Eits komputer pun kemudian berkata, "kalau gak percaya ya silahkan saja cari sendiri!!". Ingat lho, ada 34.499.425 pohon rooted dan 2.027.025 pohon unrooted untuk rekonstruksi 10 taxa dan kita mencar 1 dari jutaan pohon itu? Secara manual? Err...sepertinya saia masih belom siap untuk hidup dalam kebosanan.

Ya sudah, anggap saja kita menaruh percaya pada komputer kita dan program-programnya. Eh tapi paling tidak tambahkan sesuatu yang bisa lebih meyakinkan donk. Nah untuk mewujudkan hal itu, maka ada 2 hal yang bisa dilakukan yakni dengan melakukan analisis bootstrap atau analisis jackknife. Oke mari kita terjemahkan secara harfiah. Bootstrap dapat diartikan sebagai "tali sepatu" (boot = sepatu; strap = tali) dan Jackknife dapat diartikan sebagai "pisau si Jack" (Jack = Si Jack; knife = pisau). Nah lantas apa hubungannya tali dan pisau dengan meyakinkan kita akan poon filogeni? Saia juga tidak tahu tentang itu. Sungguh suatu penerjemahan yang menyesatkan. Yaa yang penting maknanya saja deh.

1. Analisis Bootstrap

Oke, jadi prinsip dari analisis bootstrap adalah dengan penghasilan dataset semu (pseudo-dataset) yang setara dengan dataset awal kita. Dataset yang dimaksud adalah total nukleotida hasil alignment yang menjadi dasar untuk rekonstruksi pohon. Nah tahapan awal dari bootstrap ini adalah penghasilan dataset sejumlah replikasi yang kita inginkan (umumnya antara 200 hingga 2000 replikasi). Pseudo-dataset yang dihasilkan dari proses bootstrap sama dalam hal jumlah nukleotida, namun berbeda dalam komposisi nukleotidanya. Jadi ada daerah/situs dalam alignment tersebut yang di-sampel lebih dari satu kali, namun juga ada daerah yang tidak di-sampel sama sekali dalam penghasilan replikasinya. Sebagai contoh perhatikan dibawah ini:

Sequence Original     : ...ATCACGATCATCGCAC...
Bootstrap rep 1        : ...ATTACCCTCATCGCAC...
Bootstrap rep 2        : ...ATCACGGGGATCCCC... dst

Nah dari sana dapat kita lihat bahwa nukleotida T pada "sequence original" telah disampel dua kali namun nukleotida C tidak disampel sama sekali  pada "bootstrap rep 1". Nah setelah sejumlah replikasi dataset dihasilkan, maka masing-masing dataset tersebut direkonstruksi menjadi pohon. Dengan demikian akan terdapat 1 pohon original dan sejumlah pohon bootstrap.

2. Analisis Jackknife

Analisis ini sebenarnya mirip dengan analisis bootstrap. Perbedaannya terletak pada penghasilan pseudo-dataset yang digunakan untuk merekonstruksi pohon. Jika pada analisis bootstrap pseudo-dataset dihasilkan dengan proses sampling ulang yang dimodifikasi (modified re-sampling), maka dalam analisis Jackknife ini hanya menggunakan 50% dari total nukleotida dataset untuk merekonstruksi sebuah pohon. Trik analisis disini adalah bahwa daerah yang mengandung 50% dari total nukleotida itu bisa ditempatkan dimana saja dan jumlah replikasinya bisa disesuaikan dengan keinginan kita (umumnya 200 hingga 2000 replikasi).

Jika dicontohkan kita memakai 1000 replikasi baik untuk analisis bootstrap maupun Jackknife, maka kita akan memiliki 1001 pohon yang terdiri atas 1 pohon original dan 1000 pohon bootstrap/Jackknife. Nah dari sinilah analisis berlangsung. Umumnya ada 2 aturan yang ditetapkan untuk menghasilkan nilai bootstrap (bootstrap value) pada setiap percabangan di pohon.

Aturan pertama disebut sebagai "Majority Concensus Rule", yakni menghitung persentase kemiripan percabangan (branch pattern) antara pohon bootstrap satu dengan lainnya. Nilai persentase yang terbesar/dominan untuk setiap pola percabangan kemudian dimasukan sebagai angka dalam setiap titik percabangan pada pohon. Aturan kedua adalah "Superimpose Rule", yakni dengan membandingkan setiap pohon bootstrap dengan pohon originalnya dan kemudian menghitung persentase kecocokan setiap pola percabangan yang dibandingkan. Nilai ini juga kemudian ditampilkan pada setiap titik percabangan pada pohon.

Perlu diketahui bahwa analisis bootstrap maupun Jackknife ini sebenarnya lebih merupakan analisis statistik ketimbang analisis filogenetik. Perhitungan ini tidak memperdulikan daerah mana yang merupakan daerah conserved maupun variable. Dengan demikian kedua analisis ini lebih ditujukan untuk pengujian tingkat presisi dan sama sekali tidak berhubungan dengan akurasi alias tingkat kebenaran suatu pohon. Pohon yang memiliki nilai bootstrap/Jackknife >98% di semua titik percabangannya memang merupakan pohon yang meyakinkan dan layak untuk dipercaya, tapi belum tentu merupakan pohon yang benar. Terkadang kita suka mempercayai hal yang salah juga bukan?

Analisis bootstrap/Jackknife ini memang umum dan sepertinya menjadi hal wajib sekarang ini mengingat kemajuan teknologi komputer. Perlu diingat juga bahwa menambahkan analisis bootstrap berarti juga menambah proses komputasi. Jadi jangan heran apabila komputer kita menjadi semakin lama dalam merekonstruksi pohon dan semakin panas juga tentunya...hehehe.

Regards,
Victor Apriel

Tidak ada komentar: