Kamis, 31 Mei 2012

Sebuah Tulisan Evolusi dan Filogeni: Red Chop and Bayesian Inference (In Depth) Part II

Oke setelah teman-teman membaca Part I, kita akan melanjutkan dengan Part II nya. Hmm..disini saia akan mencoba melanjutkan ke tahapan burn-in, mixing, dan chainswap. Tapi sebelumnya mari kita sedikit me-refresh khususnya mengenai konsep MCMC pada pencarian pohon filogenetik.

A. The Real Case
Inti dari penggunaan Markov Chain Monte Carlo (MCMC) dalam pencarian pohon diantara jutaan pohon lainnya adalah mencari sebuah konvergensi, yakni pencarian menuju kumpulan pohon yang dipandu oleh data yang ada. Dalam prosesnya MCMC meletakan banyak titik secara acak dalam ruang berdimensi-3 dan kemudian menghitung probabilitas masing-masing titik hingga pad akhirnya titik-titik tersebut akan menuju ke satu arah yang sama. Nah proses ini apabila digambarkan dalam grafik akan membentuk seperti kurva hiperbolik.

Kemudian, apakah itu burn-in, mixing dan swapping? Mari kita saksikan pengertian ketiganya.

1. Burn-in
Pada dasarnya proses MCMC menggunakan nilai likelihood (L) untuk membandingkan antara titik satu dengan yang lain. Apabila proses generasi titik berikutnya memiliki nilai (L) lebih besar dari titik awal, maka titik baru tersebut menjadi titik awalnya. Nah dengan cara seperti itu, maka titik-titik yang awalnya memiliki nilai L rendah akan bergerak naik dan pada akhirnya mengumpul pada satu tempat dengan masing-masing memiliki nilai L yang tinggi. Pada kenyataannya nilai L melesat begitu cepat sehingga pengukurannya perlu dilakukan menggunakan skala logaritmik (lnL). Dalam hal ini, hanya titik-titik dengan nilai lnL yang tinggi yang kita perlukan karena hal tersebut mencerminkan kita sudah mendapatkan pohon yang benar. Nah proses burn-in ini membuang titik-titik yang memiliki nilai lnL rendah yang terdapat di awal fase MCMC. Perlu diingat bahwa masing-masing titik tersebut mencerminkan pohon dengan topologi dan branch length-nya.

2. Mixing
Kita mungkin sudah senang karena ternyata proses MCMC menghasilkan konvergensi titik-titik tersebut ke arah yang sama, masing-masing dengan nilai lnL yang serupa tingginya. Eits tapi tunggu dulu, karena perkaranya terdapat lebih dari satu titik/pohon yang berkonvergensi di daerah tersebut. Dalam hal ini, analisis Bayesian menyarankan bahwa poin penting dalam penentuan konvergensi tidak semata hanya melihat daerah dimana titik-titik berkonvergensi namun juga apakah daerah konvergensi tersebut tercakup seluruhnya oleh titik-titik tersebut. Nah maka dari itu kita perlu memperhatikan mixing.

Saia dapat menganalogikan mixing itu sebagai sebuah kurva normal untuk katakanlah distribusi tinggi badan murid-murid dalam satu kelas. Apabila ada suatu kompetisi olahraga yang mengharuskan para pesertanya memiliki tinggi badan 175-185 cm, maka suatu seleksi diperlukan untuk menyaring para murid sehingga didapatkan konvergensi, yakni murid-murid dengan tinggi badan antara 175-185 cm. Muridnya dalam hal ini pasti lebih dari satu dan mixing yang bagus adalah distribusi murid yang dapat mencakup seluruh kisaran tinggi yang dipersyaratkan tersebut. Distribusi murid yang seluruhnya di 185 cm atau seluruhnya di 175 cm (konvergensi satu titik) menandakan mixing yang tidak bagus.

Lantas apa tujuan dari mixing? Well, bagus atau tidaknya mixing menandakan apakah proses MCMC tersebut mendapatkan sampel yang representatif untuk menggambarkan distribusi posteriornya. Dalam hal ini distribusi posterior yang dimaksud adalah pohon filogenetik yang paling menggambarkan filogeni antar taxa.

3. Chainswaps
Lagi-lagi, proses MCMC mungkin tidak berjalan semulus yang diperkirakan. Apabila kita membayangkan sebuah bentang lahan yang berisi barisan pegunungan, lembah dan bahkan jurang; kita akan berharap proses MCMC mengumpulkan titik-titik acak ke satu gunung yang tertinggi pada bentang lahan tersebut. Namun pada kenyataanya ada satu atau beberapa titik yang terjebak pada salah satu gunung yang tinggi (nilai lnL yang tinggi) namun bukan gunung yang optimal. Nah apabila hal ini terjadi pada banyak titik dan titik-titik tersebut terjebak pada banyak gunung yang berbeda, maka dapat dibayangkan betapa kita akan dipusingkan dengan distribusi posterior yang diberikan oleh titik-titik tersebut. Untuk mengatasi hal ini, proses chainswaps diperlukan untuk "memindahkan" satu atau sekelompok titik antar gunung sehingga pada akhirnya titik-titik tersebut dapat berkonvergensi seluruhnya dan memberikan distribusi posterior yang representatif.

B. Sebuah Analogi Poseterior
Oke, mungkin hal-hal seperti itu yang menjadi pelengkap dalam optimasi analisis Bayesian dalam filogenetik menggunakan program MrBayes. Sebagai penutup, ijinkan saia bercerita mengenai sebuah analogi yang lagi-lagi tentang.....cewe itu.

Kembali kepada saia, sang cewe dan amplas; namun kali ini kondisinya dibuat agak lebih sulit dan tentu saja merupakan sebuah rekaan. Anggap saja saia sudah punya banyak data mengenai deskripsi si cewe yang ingin saia pedekate itu. Datanya apa? mau tau ajah. Berbekal data tersebut saia akan mampu mengenali si cewe pada tempat dan waktu tertentu apabila kami bertemu. Nah celakanya, ketika di amplaz ternyata saia menemukan anggap saja 100 cewe yang mirip dengan cewe yang saia maksud. Masing-masing dari mereka memiliki sebagian deskripsi yang cocok dengan data saia. Dengan asumsi bahwa cewe yang tepat ada diantara 100 cewe itu, lantas bagaimana saia menemukannya?

Nah pada kasus ini saia mencoba menggunakan jurus MCMC, yakni mengincar beberapa cewe dari total 100 cewe tersebut secara acak dan mulai dibandingkan setiap deskripsinya dengan data yang saia miliki. Pada kasus awal kemungkinannya adalah cewe-cewe tersebut memiliki kecocokan deskripsi (nilai lnL) yang rencah satu dengan lainnya, dan saia menggunakan hikmah tersebut untuk mencari yang lebih cocok deskripsinya. Pada akhirnya proses MCMC tersebut akan menyeleksi 100 cewe tersebut sampai menyisakan katakanlah 5 cewe yang sama-sama memiliki deskripsi setara (anggap saja masing-masing dari mereka memiliki 90% kecocokan deskripsi dengan data yang saia miliki).

Saia coba telaah lagi satu-per satu deskripsi mereka dan menemukan bahwa cewe yang satu memiliki kemiripan tinggi kecuali rambutnya. Cewe yang lain juga setara kemiripannya kecuali dia berkacamata, dan seterusnya. Nah dalam hal ini saia memperoleh mixing yang bagus terhadap 5 kandidat cewe tersebut. Dalam cerita rekaan ini saia buat sedikit mudah sehingga tidak perlu proses chainswap.

Nah sekarang dapat dilihat perbedaan distribusinya. Pada awalnya ketika memulai dari 100 cewe, masing-masing dari mereka memiliki peluang 1% untuk menjadi target cewe yang ingin saia pedekate. Pada kondisi ini kita mengatakan sebagai distribusi probabilitas prior = 1%. Nah berpandu dengan data, proses MCMC, dan mixing sekarang saia mendapatkan bahwa dari 100 cewe tersebut data deskripsi saia berkonvergensi ke arah 5 kandidat cewe. Itu artinya bahwa masing-masing cewe itu sekarang memiliki peluang 20% untuk menjadi kandidat yang tepat. Nah sekarang kita dapat mengatakan bahwa distribusi probabilitas posterior, yakni distribusi  probabilitas setelah berpandu pada data, adalah sebesar 20% untuk setiap cewe.

Pada akhirnya kita (termasuk saia) pun bertanya, lantas yang manakah cewe itu sebenarnya? Well, untuk itu saia hanya bisa menyerahkan jawabannya kepada masa lalu. Kita tidak pernah mengetahui kepastian mutlaknya, kita hanya mengetahui kemungkinan besarnya. Maka dari itu ijinkan saia untuk berpuas diri dengan menerima bahwa saia telah menemukan cewe tersebut, walau probabilitas bahwa itu merupakan cewe yang saia maksud.....hanyalah 20% :)

Regards,
Victor Apriel

Tidak ada komentar: