Minggu, 02 September 2012

Sebuah Tulisan Evolusi dan Filogeni: Estimating Selection Pressures on Molecular Sequences (In Depth) Part II

Terjebak di warnet yang ramai dan tidak sejuk memang menghambat proses pembuatan tulisan secara signifikan, apalagi kalau itu adalah tulisan-tulisan untuk artikel Bukan Tulisan Ilmiah. Yasudah, toh kenyataannya saia sidah terlanjur terjebak disini, jadi saia paksakan untuk menulis saja deh. Pada tulisan sebelumnya kita telah mengenal model evolusi/substitusi kodon, estimasi laju substitusi synonimous dan non-synonimous. Rasio antara kedua laju substitusi tersebut akan menggambarkan jenis seleksi yang berperan terhadap target gen yang dianalisis. Pada tulisan kali ini sai akan menyinggung mengenai estimasi variasi laju tekanan seleksi antar branch dan antar site pada pohon filogenetik.

Mengapa ada variasi laju tekanan seleksi antar branch (organisme/kelompok organisme) dan antar site (kodon pada alignment sequence)? Ya hal itu saia rasa memang wajib ada mengingat beberapa sebab yang telah dikemukakan pada tulisan sebelumnya:
1. Laju evolusi terbukti berbeda antar organisme seperti yang tergambarkan dari perbedaan branch length yang menghubungkan antar organisme/OTU. Hal ini dapat dipandang sebagai ada perbedaan dalam tekanan seleksi terhadap setiap organisme/branch yang mungkin terekam dalam sequence-nya.
2. Mutasi merupakan salah satu faktor utama dalam evolusi, maka perbedaan laju mutasi pada tingkat nukleotida merupakan penyebab utama perbedaan laju evolusi dan pada akhirnya tekanan seleksi baik pada tingkat sequence DNA maupun tingkat organisme.

Diangkatnya tema ini bermula dari sebuah pertanyaan apakah ada perbedaan tekanan seleksi antar organisme atau antar kodon dalam sebuah sequence dalam sebuah pohon filogenetik. Solusi atas pertanyaan tersebut dapat dijawab dengan tahapan berikut: pengasumsian model sebagai hipotesis dan pengujian hipotesis. Pada paragraf ini, saia akan mencoba membahas variasi tekanan seleksi antar branch terlebih dahulu. Analisis tekanan seleksi antar brach dapat digambarkan dalam 3 model/hipotesis, yakni:
1. Local/Free Ratio Model, mengasumsikan nilai omega (beta/alfa) berbeda pada semua branch. Oleh karena itu, model ini mengestimasi nilai omega untuk masing-masing branch.
2. Global/Single Ratio Model, mengasumsikan satu nilai omega untuk semua branch sehingga model ini hanya perlu mengestimasi satu nilai omega rerata dari seluruh branch.
3. Intermediate Complexity Model, mengasumsikan adanya kesamaan nilai omega antar branch dalam clade yang sama. Model ini dapat dikatakan sebagai pertengahan antara local dengan global model, karena hanya mengestimasi omega per sejumlah clade.

Berdasarkan ketiga model ini, kita kemudian melakukan uji signifikansi. Global ratio model yang tidak mengasumsikan adanya perbedaan laju tekanan seleksi merupakan model yang cocok untuk dijadikan sebagai hipotesis awal (H0) dan local atau intermediate model merupakan hipotesis alternatifnya (HA). Uji signifikansi kedua hipotesis ini dilakukan dengan metode Likelihood Ratio Test (LRT) yang didasarkan pada nilai likelihood atas kedua model yang diperbandingkan. Sebagai pengingat, nilai likelihood mencerminkan besarnya kemungkinan suatu model menghasilkan data yang dimiliki. Model yang semakin cocok terhadap data akan memiliki nilai likelihood (L) yang semakin tinggi. Bab Memilih Model Evolusi pada Serial Tulisan Evolusi dan Filogeni dapat memberikan gambaran yang lebih rinci mengenai LRT ini. Apabila dalam pengujian signifikansi tersebut HA > H0, maka H0 ditolak atas HA. Perlu diingat juga bahwa hal ini tidak berarti HA merupakan jawaban terbaik, namun bahwa data yang dimiliki tidak cocok untuk dapat diterangkan oleh H0 jika dibandingkan dengan HA.

Kelemahan uji LRT ini adalah bahwa pengujian ini dapat memberikan kesimpulan yang salah apabila heterogenitas laju tekanan seleksi sangat kuat antar branch. Kesimpulan mengenai adanya variasi laju tekanan seleksi mungkin tidak akan tercapai apabila hanya sedikit branch yang mengalami tekanan seleksi yang sangat kuat akibat tertutup oleh branch lainnya (background) yang tidak mengalami tekanan seleksi yang kuat. Kedua, kesimpulan yang ditarik dari uji signifikansi ini adalah jawaban atas pertanyaan "apakah ada variasi laju tekanan seleksi antar branch?" dan bukan "dimanakah variasi laju tekanan seleksi itu terjadi antar branch?". Namun demikian, seringkali justru kita menginginkan jawaban atas pertanyaan kedua daripada pertama. Hal tersebut dapat dicapai dengan estimasi nilai omega pada setiap branch (terminal dan internal) dan kemudian melakukan uji signifikansi pada setiap kombinasi pasangan branch yang ada dalam suatu pohon (sebagai gambaran, sebuah pohon dengan 10 OTU memiliki 10 branch terminal dan 8 branch internal). Pengujian LRT secara lokal ini pun memiliki kelemahan karena pembandingannya yang bersifat pasangan (pairwise) dan tidak mempertimbangkan branch lainnya, sehingga mungkin sekali untuk menyimpulkan hal yang salah.

Setelah membanding-bandingkan antar model dan melakukan uji LRT, sekarang mari kita mencoba melirik hal lainnya yang terkait dengan intermediate complexity model. Pada intermediate complexity model, pengujian seluruh branch (B) seperti halnya pada local model direduksi menjadi hanya beberapa branch saja (F), dimana F < B. Namun demikian, branch manakah yang harus dipilih untuk pengujian ini? Pada umumnya ada dua pendekatan yang dilakukan oleh orang-orang yang mengkaji hal ini, yakni pemilihan secara a priori dan pemilihan berdasarkan hasil uji sebelumnya.

Pemilihan branch secara a priori dapat dilakukan berdasarkan informasi-informasi yang terkait dengan data. Salah satu contohnya apabila kita ingin membandingkan adanya perbedan laju tekanan seleksi pada virus HIV yang menginfeksi berbagai mamalia, maka kita dapat berinisiatif bahwa tekanan seleksi pada sequence HIV manusia kemungkinan lebih besar dibandingkan dengan mamalia lainnya seperti kera atau babi. Hal ini dapat disebabkan oleh penggunaan obat anti-retroviral yang dalam hal ini berperan sebagai agensia penyeleksi pada strain virus HIV manusia. Dengan latar belakang tersebut kita dapat memilih dan memilah setiap branch yang ada menjadi kelompok branch tertentu, menghitung nilai omega (branch omega), dan kemudian menguji signifikansi nilai-nilai omega kelompok branch tersebut dengan LRT. Hasil yang signifikan menyimpulkan adanya perbedaan tekanan seleksi yang terjadi antar dua branch yang dibandingkan.

Pemilihan branch berdasarkan hasil pengujian sebelumnya disebut juga dengan data-driven branch selection atau data dredging. Ini berarti bahwa pemilihan branch dilakukan setelah dilakukan estimasi nilai omega terlebih dahulu pada setiap branch dan berdasarkan hasil tersebut baru dipilih kelompok omega yang berbeda secara signifikan untuk kemudian diujikan kembali. Perlu diketahui bahwa teknik seperti ini sebaiknya dihindari karena hipotesis yang disusun berdasarkan dataset dan kemudian diujikan kembali menggunakan dataset yang sama akan selalu menghasilkan bias (terlihat signifikan padahal sebenarnya tidak demikian).

Salah satu cara yang cukup objektif untuk branch (B) ke dalam kelompok jenis model (C) dapat dilakukan dengan metode Stirling Numbers S(C; B), yakni jumlah cara untuk memasukan branch B ke dalam salah satu model C. Nilai Stirling Numbers meningkat dengan cepat, sehingga pengujian LRT yang membandingkan per dua buah model (nested model) H0 dan HA kurang dapat diandalkan. Sebagai alternatif, pembandingan model dilakukan dengan metode teknik skoring menggunakan Small Sample Akaike Information Criterion (AICc). Teknik ini memperhitungkan nilai likelihood, jumlah site alignment, dan model parameter. Skor tinggi, yang berarti modelnya cocok, direpresentasikan dengan nilai likelihood sebesar mungkin namun dengan jumlah parameter yang sekecil mungkin.

Oke, akhir dari cerita. Cukup panjang juga yak. Dari tulisan ini saia dapat menyimpulkan bahwa pengujian mengenai ada atau tidaknya perbedaan laju tekanan seleksi antar branch dilakukan secara statistik menggunakan LRT. Namun demikian, pengujian ini harus didukung  pemilihan hipotesis serta branch/kelompok branch dengan dasar yang jelas. Pemilihan model atau branch yang salah dapat mengakibatkan konstruksi simpulan yang salah juga mengenai ada/tidaknya perbedaan laju tekanan seleksi tersebut. Next time, masih dengan judul yang sama, saia akan coba membahas lebih mendalam lagi hingga pada estimasi perbedaan laju tekanan seleksi antar situs dalam sequence alignment. Ditunggu yax ^^

Regards,

Victor Apriel

Tidak ada komentar: