It's Everything About Biology: Sebuah Tulisan Bioinformatika – Pencarian Similaritas Database (Part 4)

Kembali bersama KohVic di Bukan Tulisan Ilmiah dalam seri barunya yaitu Sebuah Tulisan Bioinformatika. Oke, kali ini saia berjanji akan menceritakan part terakhir dari judul Pencarian Similaritas Database (PSD) dan kemudian bersiap move on ke topik selanjutnya. Pada part ini saia akan bercerita tentang analisis lanjutan yang dilakukan setelah mendapatkan urutan hasil PSD. Mari kita ikuti tulisan berikut yak…hohoho

Pada umumnya hasil PSD akan ditampilkan sebagai sejumlah daftar urutan yang dianggap berhubungan dengna urutan query yang kita masukan di awal. Apa yang lantas kita lakukan setelah itu? Well kembali kepada tujuan awal, untuk apa kita melakukan PSD? Beragam jawaban yang muncul berkisar dari mencari urutan di dalam database yang mirip dengan urutan query kita (horeee urutan saia ada temennya), mencari informasi urutan query (anotasi), atau sekedar mengumpulkan urutan yang mirip untuk dilakukan analisis lebih lanjut. Apapun jawabanmu, semuanya menuntut pada satu hal yaitu pilihlah urutan yang “benar”.

Pada tulisan ini saia akan coba mengambil jalan tengah, yakni menjelaskan dari pihak user dan juga dari pihak database. Sebagai user, pilihan ini cukup mudah untuk diputuskan karena semua database telah dirancang untuk menampilkan urutan paling relevan di urutan teratas dalam daftar. Jadi pilihlah urutan pertama yang ditampilkan dalam daftar atau kumpulkan, katakanlah, 20 urutan pertama dari daftar. Well, gampang toh.

Di sisi lain, jika kita berada di pihak database, maka kita harus memastikan pihak user terfasilitasi seperti yang saia ceritakan di paragraf sebelumnya. Disini saia berbicara mengenai kualitas sebuah urutan hasil PSD. Hal yang ditanyakan disini adalah seberapa signifikankah kecocokan sebuah urutan hasil PSD terhadap urutan query? Kita dapat mendefinisikan kecocokan ini dalam dua pandangan, yakni tingkat similaritas urutan hasil PSD terhadap query dan probabilitas bahwa urutan hasil PSD tersebut tidak didapatkan secara kebetulan semata. Pandangan pertama dapat dijawab dengan mudah, yakni dengan parameter persentase similaritas/identitas pasangan urutan. Semakin tinggi similaritas/identitas antara urutan query dengan urutan hasil PSD artinya semakin cocok. Pandangan kedua ini yang lebih sulit untuk dijawab dan umumnya disediakan tiga jenis parameter statistik untuk menjawabnya, yakni E-value, bit score, dan Z-value.

Parameter statistik yang pertama adalah E-value (expectation value). Parameter ini mengindikasikan probabilitas jajaran antara query dengan urutan database merupakan hasil dari kejadian acak. Nilai E-value dihitung menggunakan rumus

, dimana m merupakan total residu di dalam database, n merupakan jumlah residu dalam urutan query, dan P merupakan probabilitas bahwa jajaran yang dihasilkan antara urutan query dengan database adalah hasil kejadian acak. Nilai E-value memberikan gambaran kemungkinan bahwa pasangan urutan diperoleh secara kebetulan. Dengan demikian, semakin rendah nilai E-value, maka semakin kecil kemungkinan bahwa pasangan urutan diperoleh secara kebetulan dan hal itu berarti kecocokan antar keduanya semakin signifikan. Berdasarkan rumus di atas, besaran nilai E-value sangat dipengaruhi oleh ukuran sebuah database. Seiring dengan pertumbuhan sebuah database nilai E-value akan mengalami peningkatan, sementara similaritas antar pasagan urutan tetap konstan. Hal ini akan menjadi masalah karena seiring dengan pertumbuhan sebuah database, maka pasangan urutan yang disimpulkan homolog akan "hilang" akibat peningkatan nilai E-value ini.

Sebuah alternatif lain parameter statistik kualitas pasangan urutan adalah bit score yang biasanya ditampilkan bersama dengan E-value. Pengukuran similaritas pasangan urutan menggunakan bit score tidak bergantung baik pada panjang urutan query atau ukuran sebuah database. Bit score merupakan normalisasi skor yang diekspresikan dalam bentuk bits (log basis 2) terhadap sebuah urutan hasil pencarian yang mendefinisikan besaran pencarian yang perlu dilakukan untuk mendapatkan sebuah urutan dengan skor yang sama baiknya. Sebagai contoh, jika bit score yang tertera adalah 30 maka hal ini berarti dibuatuhkan pencarian sebanyak 2³⁰ pasangan untuk mendapatkan urutan dengan skor yang sama secara kebetulan. Dengan demikian, semakin tinggi nilai bit score, maka kecocokan antar pasangan urutan semakin signifikan.

Selain E-value dan bit score, terdapat juga parameter statistik lainnya yang bernama Z-score. Parameter Z-score ini hanya terdapat pada Fasta dan menggambarkan kisaran standar deviasi dari distribusi skor similaritas hasil pencarian database. Dikarenakan sebagian besar jajaran antara urutan database tidak berhubungan dengan query, tingginya nilai similaritas antar pasangan urutan akan memberikan standar deviasi yang besar terhadap distribusi skor similaritas. Hal tersebut berarti bahwa semakin tinggi Z-score maka signifikansi homologi dari pasangan urutan yang bersangkutan juga semakin tinggi.

Well, demikianlah penjelasan mengenai ketiga parameter tersebut. Penjelasan matematis ketiga parameter akan saia sertakan dalam link berikut:

http://homepages.ulb.ac.be/~dgonze/TEACHING/stat_scores.pdf

Akhir kata, saia rasa ini adalah akhir dari tulisan dengan judul Pencarian Similaritas Database. Saia harap penjelasan ini bermanfaat baik untuk menghadapi kuliah, tugas akhir ataupun hanya sekedar ingin tahu saja. Berikutnya, saia akan kembali dengan topik lainnya, so ditunggu yak.

Salam,

KohVic

It's Everything About Biology

Selasa, 21 Juli 2015

Sebuah Tulisan Bioinformatika – Pencarian Similaritas Database (Part 4)

1 komentar: