Kamis, 06 September 2012

Sebuah Tulisan Evolusi dan Filogeni: Estimating Selection Pressures on Molecular Sequences (In Depth) Part III

Menikmati kesendirian di kamar kost tanpa tau harus ngapain, jadi begini deh pelariannya. Ehem....tulisan ini merupakan sambungan dari part II kemarin yang dengan sangat terpaksa harus saia batasi hingga estimasi laju tekanan seleksi antar branch karena akan terlalu panjang bila dilanjutkan. Nah dalam part III ini saia akan meneruskannya dengan estimasi laju tekanan seleksi antar site dalam sequence alignment. Selamat menikmati ^^/

Estimasi laju tekanan seleksi pada sequence molekular dapat dipandang sebagai usaha untuk menjawab apakah biomolekul pembawa informasi genetik, yang dalam hal ini adalah DNA, mengalami evolusi secara netral? Kata "netral" yang dimaksud disini adalah tanpa dipengaruhi oleh proses adaptasi terhadap seleksi alam. Teman-teman semua tentunya masih ingat dengan empat pertanyaan yang diajukan pada part I bukan. Nah hingga sekarang ini kita telah menjawab pertanyaan ke-1 dan 2. Pada tulisan ini, saia akan mencoba mengajak teman-teman pembaca untuk menjawab pertanyaan ke-3, yakni estimasi jenis dan laju substitusi antar kodon dalam suatu alignment untuk mencari kodon target manakah yang mengalami proses seleksi. Sebelum kita memasuki inti cerita, saia ingin mengingatkan kembali bahwa kata 'seleksi' ditujukan pada kodon yang mengalami substitusi non-synonimous (beta). Hal ini didasarkan pada pandangan bahwa perubahan suatu asam amino yang disandi oleh kodon yang bersangkutan merupakan bentuk adaptasi organisme untuk menghadapi seleksi alam.

Berdasarkan definisi 'seleksi' di atas, seringkali kita berusaha mencari jenis seleksi yang mengarah pada keberagaman. Hal demikian disebut postitive selection atau diversifying selection; dan diindikasikan dengan nilai omega >1.  Dengan asumsi bahwa organisme (OTU) yang diperbandingkan memiliki keseragaman laju substitusi synonimous antar branch (alfa[b] =1) dan antar site (alfa[s] = 1), maka seleksi positif dapat langsung tergambarkan oleh nilai beta[b] > 1 dan beta[s] > 1.  Secara umum, pengujian bahwa beta[b] > 1 lebih ditujukan untuk mendeteksi ada/tidaknya perbedaan nilai beta pada setiap branch, sedangkan pengujian beta[s] > 1 ditujukan untuk mencari kodon target yang diseleksi.

Beberapa metode telah dikembangkan untuk pengujian ini. Metode-metode tersebut didasarkan pada uji signifikansi dua hipotesis (H0 dan HA) terhadap nilai beta[s] pada masing-masing kodon dalam sequence alignment. Metode-metode tersebut meliputi:
1. Random Effect Likelihood (REL)
2. Fixed Effect Likelihood (FEL)
3. Single Likelihood Ancestor Counting (SLAC) atau Counting Heuristics

1. Metode Random Effect Likelihood (REL)
Metode ini didasarkan pada asumsi bahwa distribusi alfa[s] dan beta[s] dapat di representasikan pada suatu fungsi f. Berdasarkan parameter-parameter yang terdapat dalam fungsi f tersebut, maka seseorang dapat menghitung nilai likelihood setiap fungsi f yang diajukan terhadap data kodon yang dimiliki. Nilai likelihood ini kemudian digunakan dalam uji signifikansi mengenai ada/tidaknya variasi laju tekan seleksi terhadap kodon serta memperkirakan kodon mana yang diseleksi tersebut.

Bayangkan ada sebuah sequence alignment dengan kodon C = 1....s yang masing-masing kodon memiliki nilai alfa[s] dan beta[s]. Metode REL ini akan menekankan bahwa alfa[s] dan beta[s] mengikuti distribusi D yang memiliki sejumlah kategori laju d. Setiap kategori laju d memiliki nilai alfa[d] dan beta [d] yang sudah ditentukan dan probabilitas bahwa alfa[s] = alfa[d] serta beta[s] = beta[d] ditentukan oleh nilai pd, dimana total nilai pd untuk seluruh kategori d adalah 1.

Salah satu contoh aplikasi REL misalnya model M8 pada program Phylogenetic Analysis Using Maximum Likelihood (PAML) buatan Oom Ziheng Yang. Model M8 memiliki D dengan 10 kategori d. Kesepuluh kategori ini masing-masing memiliki nilai alfa[d] = 1 dan sepuluh varian nilai beta[d] yang menghasilkan omega[d] > 1. Dengan demikian, seluruh varian nilai beta[d] haruslah >1. Selanjutnya, model M8 ini diujikan terhadap setiap codon site c pada dataset alignment. Perhitungan ini akan menghasilkan site-by-site likelihood (L) untuk setiap kodon c sehingga kita dapat melihat nilai omega dan nilai likelihood (L)untuk setiap site kodon. Setelah itu, nilai-nilai L ini diuji signifikansinya dengan LRT dan signifikansi suatu site di dalam suatu kodon menandakan bahwa site tersebut diseleksi.

Metode REL ini cukup sensitif dalam penelusuran proses seleksi. REL dapat mendeteksi sebuah diversifying selection hingga tingkat omega = 1,1; suatu hal yang tidak dapat dilakukan oleh metode fixed effect likelihood (FEL; akan dijelaskan kemudian). Namun demikian, metode REL juga memiliki kelemahan. Kelemahan pertama adalah pemilihan kategori d dilakukan secara subjektif (a priori), sehingga sangat mungkin untuk suatu nilai alfa[s] dan beta[s] tidak tercakup dalam kategori alfa[d] dan beta[d] yang ditentukan.

2. Metode Fixed Effect Likelihood (FEL)
Metode FEL menggunakan estimasi langsung nilai alfa[s] dan beta[s] dari dataset dan tidak melakukan estimasi distribusi kedua nilai dalam alfa[d] dan beta[d] seperti halnya pada metode REL. Metode FEL dijabarkan dalam dua tahap. Tahap pertama adalah metode ini mengestimasi parameter-parameter substitusi berdasarkan dataset alignment yang ada, seperti nucleotide substitution bias, codon frequency, dan branch length. Kemudian pada tahap kedua, metode FEL menganggap bahwa setiap site pada kodon (ingat ada 3 site dalam 1 kodon) merupakan hasil substitusi yang independen antar satu dengan lainnya. Dengan demikian, setiap substitusi pada situs di dalam suatu kodon tersebut akan menghasilkan nilai alfa dan beta yang ditulis sebagai alfa[c] dan beta[c].

Selanjutnya, uji signifikansi dilakukan dengan menguji dua buah hipotesis terhadap setiap nilai alfa[c] dan beta[c] pada masing-masing kodon, dimana H0: alfa[c] = beta[c] dan HA: tidak demikian. Hipotesis H0 dan HA pada setiap kodon kemudian diuji dengan LRT satu per satu untuk dilihat signifikansinya. Kodon yang memiliki nilai LRT yang signifikan disimpulkan sebagai kodon yang terseleksi dan situs yang terseleksi dalam kodon pun dapat ditentukan.

Metode FEL memiliki keunggulan bahwa distribusi laju substitusi (alfa[c] dan beta[c]) ditentukan berdasarkan data dan tidak secara a priori seperti halnya pada REL. Kelemahan metode FEL adalah bahwa metode ini hanya dapat diterapkan pada alignment dengan minimal 30 sequence di dalamnya. Selain itu, metode FEL juga hanya dapat diterapkan pada filogeni organisme yang hubungan kekerabatannya relatif dekat atau dengan kata lain yang proses evolusinya belum cukup lama.

3. Metode Single Likelihood Ancestor Counting (SLAC) atau Counting Heuristics
Metode SLAC dilakukan dalam empat tahapan, yakni (i) rekonstruksi ancestral kodon sequences (sequence yang berada pada internal branch) menggunakan parsimony; (ii) penentuan alfa[c] dan beta[c] dengan mengacu pada ancestral sequence terhadap sequence-sequence yang terhubung dengannya; (iii) penentuan nilai substitusi (alfa/beta) rerata yang nantinya akan dijadikan sebagai nilai expected substitution rate under neutral model; dan (iv) uji signifikansi antara nilai alfa[c] dan beta[c] yang teramati (observed) terhadap nilai substitusi rerata (expected). Jika expected > observed, maka dapat dikatakan ada seleksi positif.

Estimasi variasi laju tekanan seleksi menggunakan metode SLAC sangat cepat bahkan dengan dataset yang besar. Namun demikian metode SLAC memiliki banyak asumsi yang diterapkan. Pertama, ancestral codon sequences (tahap i) dianggap merupakan data yang sebenarnya, padahal hal tersebut merupakan hasil proses rekonstruksi yang mungkin mengandung error. Kedua, proses penghasilkan ancestral codon sequence menggunakan teknik parsimony yang mengabaikan adanya multiple base substitution.

Selanjutnya, metode mana yang akan kita pilih untuk estimasi variasi laju tekanan seleksi pada sequence molekular? Well, Oom Kosakovsky Pond dan Oom Frost telah membuktikan bahwa ketiga metode menghasilkan estimasi yang mirip satu sama lain jika analisisnya dilakukan terhadap dataset yang besar. Masalah kemudian muncul ketika kita hanya memiliki dataset yang sedikit, baik dari segi jumlah sequence maupun panjang alignment. Pada kondisi tersebut disarankan bahwa melakukan ketiga metode dan kemudian mencari kongruensinya adalah cara yang tepat.

Oke, kira-kira demikianlah apa yang dapat saia ceritakan. Pada part selanjutnya, yang juga akan menjadi part terakhir judul ini, saia akan menceritakan mengenai perbandingan analisis tekanan seleksi pada dua gen. Ditunggu yax..heheh

Regards,
Victor Apriel

Minggu, 02 September 2012

Sebuah Tulisan Evolusi dan Filogeni: Estimating Selection Pressures on Molecular Sequences (In Depth) Part II

Terjebak di warnet yang ramai dan tidak sejuk memang menghambat proses pembuatan tulisan secara signifikan, apalagi kalau itu adalah tulisan-tulisan untuk artikel Bukan Tulisan Ilmiah. Yasudah, toh kenyataannya saia sidah terlanjur terjebak disini, jadi saia paksakan untuk menulis saja deh. Pada tulisan sebelumnya kita telah mengenal model evolusi/substitusi kodon, estimasi laju substitusi synonimous dan non-synonimous. Rasio antara kedua laju substitusi tersebut akan menggambarkan jenis seleksi yang berperan terhadap target gen yang dianalisis. Pada tulisan kali ini sai akan menyinggung mengenai estimasi variasi laju tekanan seleksi antar branch dan antar site pada pohon filogenetik.

Mengapa ada variasi laju tekanan seleksi antar branch (organisme/kelompok organisme) dan antar site (kodon pada alignment sequence)? Ya hal itu saia rasa memang wajib ada mengingat beberapa sebab yang telah dikemukakan pada tulisan sebelumnya:
1. Laju evolusi terbukti berbeda antar organisme seperti yang tergambarkan dari perbedaan branch length yang menghubungkan antar organisme/OTU. Hal ini dapat dipandang sebagai ada perbedaan dalam tekanan seleksi terhadap setiap organisme/branch yang mungkin terekam dalam sequence-nya.
2. Mutasi merupakan salah satu faktor utama dalam evolusi, maka perbedaan laju mutasi pada tingkat nukleotida merupakan penyebab utama perbedaan laju evolusi dan pada akhirnya tekanan seleksi baik pada tingkat sequence DNA maupun tingkat organisme.

Diangkatnya tema ini bermula dari sebuah pertanyaan apakah ada perbedaan tekanan seleksi antar organisme atau antar kodon dalam sebuah sequence dalam sebuah pohon filogenetik. Solusi atas pertanyaan tersebut dapat dijawab dengan tahapan berikut: pengasumsian model sebagai hipotesis dan pengujian hipotesis. Pada paragraf ini, saia akan mencoba membahas variasi tekanan seleksi antar branch terlebih dahulu. Analisis tekanan seleksi antar brach dapat digambarkan dalam 3 model/hipotesis, yakni:
1. Local/Free Ratio Model, mengasumsikan nilai omega (beta/alfa) berbeda pada semua branch. Oleh karena itu, model ini mengestimasi nilai omega untuk masing-masing branch.
2. Global/Single Ratio Model, mengasumsikan satu nilai omega untuk semua branch sehingga model ini hanya perlu mengestimasi satu nilai omega rerata dari seluruh branch.
3. Intermediate Complexity Model, mengasumsikan adanya kesamaan nilai omega antar branch dalam clade yang sama. Model ini dapat dikatakan sebagai pertengahan antara local dengan global model, karena hanya mengestimasi omega per sejumlah clade.

Berdasarkan ketiga model ini, kita kemudian melakukan uji signifikansi. Global ratio model yang tidak mengasumsikan adanya perbedaan laju tekanan seleksi merupakan model yang cocok untuk dijadikan sebagai hipotesis awal (H0) dan local atau intermediate model merupakan hipotesis alternatifnya (HA). Uji signifikansi kedua hipotesis ini dilakukan dengan metode Likelihood Ratio Test (LRT) yang didasarkan pada nilai likelihood atas kedua model yang diperbandingkan. Sebagai pengingat, nilai likelihood mencerminkan besarnya kemungkinan suatu model menghasilkan data yang dimiliki. Model yang semakin cocok terhadap data akan memiliki nilai likelihood (L) yang semakin tinggi. Bab Memilih Model Evolusi pada Serial Tulisan Evolusi dan Filogeni dapat memberikan gambaran yang lebih rinci mengenai LRT ini. Apabila dalam pengujian signifikansi tersebut HA > H0, maka H0 ditolak atas HA. Perlu diingat juga bahwa hal ini tidak berarti HA merupakan jawaban terbaik, namun bahwa data yang dimiliki tidak cocok untuk dapat diterangkan oleh H0 jika dibandingkan dengan HA.

Kelemahan uji LRT ini adalah bahwa pengujian ini dapat memberikan kesimpulan yang salah apabila heterogenitas laju tekanan seleksi sangat kuat antar branch. Kesimpulan mengenai adanya variasi laju tekanan seleksi mungkin tidak akan tercapai apabila hanya sedikit branch yang mengalami tekanan seleksi yang sangat kuat akibat tertutup oleh branch lainnya (background) yang tidak mengalami tekanan seleksi yang kuat. Kedua, kesimpulan yang ditarik dari uji signifikansi ini adalah jawaban atas pertanyaan "apakah ada variasi laju tekanan seleksi antar branch?" dan bukan "dimanakah variasi laju tekanan seleksi itu terjadi antar branch?". Namun demikian, seringkali justru kita menginginkan jawaban atas pertanyaan kedua daripada pertama. Hal tersebut dapat dicapai dengan estimasi nilai omega pada setiap branch (terminal dan internal) dan kemudian melakukan uji signifikansi pada setiap kombinasi pasangan branch yang ada dalam suatu pohon (sebagai gambaran, sebuah pohon dengan 10 OTU memiliki 10 branch terminal dan 8 branch internal). Pengujian LRT secara lokal ini pun memiliki kelemahan karena pembandingannya yang bersifat pasangan (pairwise) dan tidak mempertimbangkan branch lainnya, sehingga mungkin sekali untuk menyimpulkan hal yang salah.

Setelah membanding-bandingkan antar model dan melakukan uji LRT, sekarang mari kita mencoba melirik hal lainnya yang terkait dengan intermediate complexity model. Pada intermediate complexity model, pengujian seluruh branch (B) seperti halnya pada local model direduksi menjadi hanya beberapa branch saja (F), dimana F < B. Namun demikian, branch manakah yang harus dipilih untuk pengujian ini? Pada umumnya ada dua pendekatan yang dilakukan oleh orang-orang yang mengkaji hal ini, yakni pemilihan secara a priori dan pemilihan berdasarkan hasil uji sebelumnya.

Pemilihan branch secara a priori dapat dilakukan berdasarkan informasi-informasi yang terkait dengan data. Salah satu contohnya apabila kita ingin membandingkan adanya perbedan laju tekanan seleksi pada virus HIV yang menginfeksi berbagai mamalia, maka kita dapat berinisiatif bahwa tekanan seleksi pada sequence HIV manusia kemungkinan lebih besar dibandingkan dengan mamalia lainnya seperti kera atau babi. Hal ini dapat disebabkan oleh penggunaan obat anti-retroviral yang dalam hal ini berperan sebagai agensia penyeleksi pada strain virus HIV manusia. Dengan latar belakang tersebut kita dapat memilih dan memilah setiap branch yang ada menjadi kelompok branch tertentu, menghitung nilai omega (branch omega), dan kemudian menguji signifikansi nilai-nilai omega kelompok branch tersebut dengan LRT. Hasil yang signifikan menyimpulkan adanya perbedaan tekanan seleksi yang terjadi antar dua branch yang dibandingkan.

Pemilihan branch berdasarkan hasil pengujian sebelumnya disebut juga dengan data-driven branch selection atau data dredging. Ini berarti bahwa pemilihan branch dilakukan setelah dilakukan estimasi nilai omega terlebih dahulu pada setiap branch dan berdasarkan hasil tersebut baru dipilih kelompok omega yang berbeda secara signifikan untuk kemudian diujikan kembali. Perlu diketahui bahwa teknik seperti ini sebaiknya dihindari karena hipotesis yang disusun berdasarkan dataset dan kemudian diujikan kembali menggunakan dataset yang sama akan selalu menghasilkan bias (terlihat signifikan padahal sebenarnya tidak demikian).

Salah satu cara yang cukup objektif untuk branch (B) ke dalam kelompok jenis model (C) dapat dilakukan dengan metode Stirling Numbers S(C; B), yakni jumlah cara untuk memasukan branch B ke dalam salah satu model C. Nilai Stirling Numbers meningkat dengan cepat, sehingga pengujian LRT yang membandingkan per dua buah model (nested model) H0 dan HA kurang dapat diandalkan. Sebagai alternatif, pembandingan model dilakukan dengan metode teknik skoring menggunakan Small Sample Akaike Information Criterion (AICc). Teknik ini memperhitungkan nilai likelihood, jumlah site alignment, dan model parameter. Skor tinggi, yang berarti modelnya cocok, direpresentasikan dengan nilai likelihood sebesar mungkin namun dengan jumlah parameter yang sekecil mungkin.

Oke, akhir dari cerita. Cukup panjang juga yak. Dari tulisan ini saia dapat menyimpulkan bahwa pengujian mengenai ada atau tidaknya perbedaan laju tekanan seleksi antar branch dilakukan secara statistik menggunakan LRT. Namun demikian, pengujian ini harus didukung  pemilihan hipotesis serta branch/kelompok branch dengan dasar yang jelas. Pemilihan model atau branch yang salah dapat mengakibatkan konstruksi simpulan yang salah juga mengenai ada/tidaknya perbedaan laju tekanan seleksi tersebut. Next time, masih dengan judul yang sama, saia akan coba membahas lebih mendalam lagi hingga pada estimasi perbedaan laju tekanan seleksi antar situs dalam sequence alignment. Ditunggu yax ^^

Regards,

Victor Apriel