Kamis, 06 September 2012

Sebuah Tulisan Evolusi dan Filogeni: Estimating Selection Pressures on Molecular Sequences (In Depth) Part III

Menikmati kesendirian di kamar kost tanpa tau harus ngapain, jadi begini deh pelariannya. Ehem....tulisan ini merupakan sambungan dari part II kemarin yang dengan sangat terpaksa harus saia batasi hingga estimasi laju tekanan seleksi antar branch karena akan terlalu panjang bila dilanjutkan. Nah dalam part III ini saia akan meneruskannya dengan estimasi laju tekanan seleksi antar site dalam sequence alignment. Selamat menikmati ^^/

Estimasi laju tekanan seleksi pada sequence molekular dapat dipandang sebagai usaha untuk menjawab apakah biomolekul pembawa informasi genetik, yang dalam hal ini adalah DNA, mengalami evolusi secara netral? Kata "netral" yang dimaksud disini adalah tanpa dipengaruhi oleh proses adaptasi terhadap seleksi alam. Teman-teman semua tentunya masih ingat dengan empat pertanyaan yang diajukan pada part I bukan. Nah hingga sekarang ini kita telah menjawab pertanyaan ke-1 dan 2. Pada tulisan ini, saia akan mencoba mengajak teman-teman pembaca untuk menjawab pertanyaan ke-3, yakni estimasi jenis dan laju substitusi antar kodon dalam suatu alignment untuk mencari kodon target manakah yang mengalami proses seleksi. Sebelum kita memasuki inti cerita, saia ingin mengingatkan kembali bahwa kata 'seleksi' ditujukan pada kodon yang mengalami substitusi non-synonimous (beta). Hal ini didasarkan pada pandangan bahwa perubahan suatu asam amino yang disandi oleh kodon yang bersangkutan merupakan bentuk adaptasi organisme untuk menghadapi seleksi alam.

Berdasarkan definisi 'seleksi' di atas, seringkali kita berusaha mencari jenis seleksi yang mengarah pada keberagaman. Hal demikian disebut postitive selection atau diversifying selection; dan diindikasikan dengan nilai omega >1.  Dengan asumsi bahwa organisme (OTU) yang diperbandingkan memiliki keseragaman laju substitusi synonimous antar branch (alfa[b] =1) dan antar site (alfa[s] = 1), maka seleksi positif dapat langsung tergambarkan oleh nilai beta[b] > 1 dan beta[s] > 1.  Secara umum, pengujian bahwa beta[b] > 1 lebih ditujukan untuk mendeteksi ada/tidaknya perbedaan nilai beta pada setiap branch, sedangkan pengujian beta[s] > 1 ditujukan untuk mencari kodon target yang diseleksi.

Beberapa metode telah dikembangkan untuk pengujian ini. Metode-metode tersebut didasarkan pada uji signifikansi dua hipotesis (H0 dan HA) terhadap nilai beta[s] pada masing-masing kodon dalam sequence alignment. Metode-metode tersebut meliputi:
1. Random Effect Likelihood (REL)
2. Fixed Effect Likelihood (FEL)
3. Single Likelihood Ancestor Counting (SLAC) atau Counting Heuristics

1. Metode Random Effect Likelihood (REL)
Metode ini didasarkan pada asumsi bahwa distribusi alfa[s] dan beta[s] dapat di representasikan pada suatu fungsi f. Berdasarkan parameter-parameter yang terdapat dalam fungsi f tersebut, maka seseorang dapat menghitung nilai likelihood setiap fungsi f yang diajukan terhadap data kodon yang dimiliki. Nilai likelihood ini kemudian digunakan dalam uji signifikansi mengenai ada/tidaknya variasi laju tekan seleksi terhadap kodon serta memperkirakan kodon mana yang diseleksi tersebut.

Bayangkan ada sebuah sequence alignment dengan kodon C = 1....s yang masing-masing kodon memiliki nilai alfa[s] dan beta[s]. Metode REL ini akan menekankan bahwa alfa[s] dan beta[s] mengikuti distribusi D yang memiliki sejumlah kategori laju d. Setiap kategori laju d memiliki nilai alfa[d] dan beta [d] yang sudah ditentukan dan probabilitas bahwa alfa[s] = alfa[d] serta beta[s] = beta[d] ditentukan oleh nilai pd, dimana total nilai pd untuk seluruh kategori d adalah 1.

Salah satu contoh aplikasi REL misalnya model M8 pada program Phylogenetic Analysis Using Maximum Likelihood (PAML) buatan Oom Ziheng Yang. Model M8 memiliki D dengan 10 kategori d. Kesepuluh kategori ini masing-masing memiliki nilai alfa[d] = 1 dan sepuluh varian nilai beta[d] yang menghasilkan omega[d] > 1. Dengan demikian, seluruh varian nilai beta[d] haruslah >1. Selanjutnya, model M8 ini diujikan terhadap setiap codon site c pada dataset alignment. Perhitungan ini akan menghasilkan site-by-site likelihood (L) untuk setiap kodon c sehingga kita dapat melihat nilai omega dan nilai likelihood (L)untuk setiap site kodon. Setelah itu, nilai-nilai L ini diuji signifikansinya dengan LRT dan signifikansi suatu site di dalam suatu kodon menandakan bahwa site tersebut diseleksi.

Metode REL ini cukup sensitif dalam penelusuran proses seleksi. REL dapat mendeteksi sebuah diversifying selection hingga tingkat omega = 1,1; suatu hal yang tidak dapat dilakukan oleh metode fixed effect likelihood (FEL; akan dijelaskan kemudian). Namun demikian, metode REL juga memiliki kelemahan. Kelemahan pertama adalah pemilihan kategori d dilakukan secara subjektif (a priori), sehingga sangat mungkin untuk suatu nilai alfa[s] dan beta[s] tidak tercakup dalam kategori alfa[d] dan beta[d] yang ditentukan.

2. Metode Fixed Effect Likelihood (FEL)
Metode FEL menggunakan estimasi langsung nilai alfa[s] dan beta[s] dari dataset dan tidak melakukan estimasi distribusi kedua nilai dalam alfa[d] dan beta[d] seperti halnya pada metode REL. Metode FEL dijabarkan dalam dua tahap. Tahap pertama adalah metode ini mengestimasi parameter-parameter substitusi berdasarkan dataset alignment yang ada, seperti nucleotide substitution bias, codon frequency, dan branch length. Kemudian pada tahap kedua, metode FEL menganggap bahwa setiap site pada kodon (ingat ada 3 site dalam 1 kodon) merupakan hasil substitusi yang independen antar satu dengan lainnya. Dengan demikian, setiap substitusi pada situs di dalam suatu kodon tersebut akan menghasilkan nilai alfa dan beta yang ditulis sebagai alfa[c] dan beta[c].

Selanjutnya, uji signifikansi dilakukan dengan menguji dua buah hipotesis terhadap setiap nilai alfa[c] dan beta[c] pada masing-masing kodon, dimana H0: alfa[c] = beta[c] dan HA: tidak demikian. Hipotesis H0 dan HA pada setiap kodon kemudian diuji dengan LRT satu per satu untuk dilihat signifikansinya. Kodon yang memiliki nilai LRT yang signifikan disimpulkan sebagai kodon yang terseleksi dan situs yang terseleksi dalam kodon pun dapat ditentukan.

Metode FEL memiliki keunggulan bahwa distribusi laju substitusi (alfa[c] dan beta[c]) ditentukan berdasarkan data dan tidak secara a priori seperti halnya pada REL. Kelemahan metode FEL adalah bahwa metode ini hanya dapat diterapkan pada alignment dengan minimal 30 sequence di dalamnya. Selain itu, metode FEL juga hanya dapat diterapkan pada filogeni organisme yang hubungan kekerabatannya relatif dekat atau dengan kata lain yang proses evolusinya belum cukup lama.

3. Metode Single Likelihood Ancestor Counting (SLAC) atau Counting Heuristics
Metode SLAC dilakukan dalam empat tahapan, yakni (i) rekonstruksi ancestral kodon sequences (sequence yang berada pada internal branch) menggunakan parsimony; (ii) penentuan alfa[c] dan beta[c] dengan mengacu pada ancestral sequence terhadap sequence-sequence yang terhubung dengannya; (iii) penentuan nilai substitusi (alfa/beta) rerata yang nantinya akan dijadikan sebagai nilai expected substitution rate under neutral model; dan (iv) uji signifikansi antara nilai alfa[c] dan beta[c] yang teramati (observed) terhadap nilai substitusi rerata (expected). Jika expected > observed, maka dapat dikatakan ada seleksi positif.

Estimasi variasi laju tekanan seleksi menggunakan metode SLAC sangat cepat bahkan dengan dataset yang besar. Namun demikian metode SLAC memiliki banyak asumsi yang diterapkan. Pertama, ancestral codon sequences (tahap i) dianggap merupakan data yang sebenarnya, padahal hal tersebut merupakan hasil proses rekonstruksi yang mungkin mengandung error. Kedua, proses penghasilkan ancestral codon sequence menggunakan teknik parsimony yang mengabaikan adanya multiple base substitution.

Selanjutnya, metode mana yang akan kita pilih untuk estimasi variasi laju tekanan seleksi pada sequence molekular? Well, Oom Kosakovsky Pond dan Oom Frost telah membuktikan bahwa ketiga metode menghasilkan estimasi yang mirip satu sama lain jika analisisnya dilakukan terhadap dataset yang besar. Masalah kemudian muncul ketika kita hanya memiliki dataset yang sedikit, baik dari segi jumlah sequence maupun panjang alignment. Pada kondisi tersebut disarankan bahwa melakukan ketiga metode dan kemudian mencari kongruensinya adalah cara yang tepat.

Oke, kira-kira demikianlah apa yang dapat saia ceritakan. Pada part selanjutnya, yang juga akan menjadi part terakhir judul ini, saia akan menceritakan mengenai perbandingan analisis tekanan seleksi pada dua gen. Ditunggu yax..heheh

Regards,
Victor Apriel

2 komentar:

De_JavaNese_Boy mengatakan...

ada papernya kah?.. tolong di attach dong papernya.. thengkyu before.. he..

Victor Aprilyanto mengatakan...

Ane rangkum dari sini gan ~

Kosakovsky Pond, S. L., A. F. Y. Poon, & S. D. W. Frost. 2009. Estimating selection pressures on alignments of coding sequences. In The Phylogenetic Handbook: A Practical Approach to Phylogenetic Analysis and Hypothesis Testing 2nd Edition (P. Lemey, M. Salemi, & A-M. Vandamme eds.). Cambridge University Press: UK.