Kembali bersama KohVic di Bukan Tulisan Ilmiah dalam
seri barunya yaitu Sebuah Tulisan Bioinformatika. Oke, kali ini saia berjanji
akan menceritakan part terakhir dari judul Pencarian Similaritas Database (PSD)
dan kemudian bersiap move on ke topik selanjutnya. Pada part ini saia akan
bercerita tentang analisis lanjutan yang dilakukan setelah mendapatkan urutan
hasil PSD. Mari kita ikuti tulisan berikut yak…hohoho
Pada umumnya hasil PSD akan ditampilkan sebagai
sejumlah daftar urutan yang dianggap berhubungan dengna urutan query yang kita
masukan di awal. Apa yang lantas kita lakukan setelah itu? Well kembali kepada
tujuan awal, untuk apa kita melakukan PSD? Beragam jawaban yang muncul berkisar
dari mencari urutan di dalam database yang mirip dengan urutan query kita
(horeee urutan saia ada temennya), mencari informasi urutan query (anotasi),
atau sekedar mengumpulkan urutan yang mirip untuk dilakukan analisis lebih
lanjut. Apapun jawabanmu, semuanya menuntut pada satu hal yaitu pilihlah urutan
yang “benar”.
Pada tulisan ini saia akan coba mengambil jalan
tengah, yakni menjelaskan dari pihak user dan juga dari pihak database. Sebagai
user, pilihan ini cukup mudah untuk diputuskan karena semua database telah
dirancang untuk menampilkan urutan paling relevan di urutan teratas dalam
daftar. Jadi pilihlah urutan pertama yang ditampilkan dalam daftar atau
kumpulkan, katakanlah, 20 urutan pertama dari daftar. Well, gampang toh.
Di sisi lain, jika kita berada di pihak database, maka
kita harus memastikan pihak user terfasilitasi seperti yang saia ceritakan di
paragraf sebelumnya. Disini saia berbicara mengenai kualitas sebuah urutan
hasil PSD. Hal yang ditanyakan disini adalah seberapa signifikankah kecocokan
sebuah urutan hasil PSD terhadap urutan query? Kita dapat mendefinisikan
kecocokan ini dalam dua pandangan, yakni tingkat similaritas urutan hasil PSD
terhadap query dan probabilitas bahwa urutan hasil PSD tersebut tidak didapatkan
secara kebetulan semata. Pandangan pertama dapat dijawab dengan mudah, yakni dengan parameter persentase
similaritas/identitas pasangan urutan. Semakin tinggi similaritas/identitas
antara urutan query dengan urutan hasil PSD artinya semakin cocok. Pandangan
kedua ini yang lebih sulit untuk dijawab dan umumnya disediakan tiga jenis
parameter statistik untuk menjawabnya, yakni E-value, bit score, dan Z-value.
Parameter
statistik yang pertama adalah E-value
(expectation value). Parameter ini
mengindikasikan probabilitas jajaran antara query
dengan urutan database merupakan hasil dari kejadian acak. Nilai E-value dihitung menggunakan rumus ,
dimana m merupakan total residu di
dalam database, n merupakan jumlah
residu dalam urutan query, dan P merupakan probabilitas bahwa jajaran
yang dihasilkan antara urutan query dengan database adalah hasil kejadian acak.
Nilai E-value
memberikan gambaran kemungkinan bahwa pasangan urutan diperoleh secara
kebetulan. Dengan demikian, semakin rendah nilai E-value, maka semakin kecil kemungkinan bahwa pasangan urutan
diperoleh secara kebetulan dan hal itu berarti kecocokan antar keduanya semakin
signifikan. Berdasarkan rumus di atas, besaran nilai E-value sangat dipengaruhi oleh ukuran sebuah database. Seiring dengan
pertumbuhan sebuah database nilai E-value
akan mengalami peningkatan, sementara similaritas antar pasagan urutan tetap
konstan. Hal ini akan menjadi masalah karena seiring dengan pertumbuhan sebuah
database, maka pasangan urutan yang disimpulkan homolog akan "hilang"
akibat peningkatan nilai E-value ini.
Sebuah
alternatif lain parameter statistik kualitas pasangan urutan adalah bit score yang biasanya ditampilkan
bersama dengan E-value. Pengukuran
similaritas pasangan urutan menggunakan bit
score tidak bergantung baik pada panjang urutan query atau ukuran sebuah database. Bit score merupakan normalisasi skor yang diekspresikan dalam
bentuk bits (log basis 2) terhadap sebuah urutan hasil pencarian yang
mendefinisikan besaran pencarian yang perlu dilakukan untuk mendapatkan sebuah
urutan dengan skor yang sama baiknya. Sebagai contoh, jika bit score yang tertera adalah 30 maka hal ini berarti dibuatuhkan
pencarian sebanyak 230 pasangan untuk mendapatkan urutan dengan skor
yang sama secara kebetulan. Dengan
demikian, semakin tinggi nilai bit score,
maka kecocokan antar pasangan urutan semakin signifikan.
Selain E-value dan bit score, terdapat juga parameter statistik lainnya yang bernama Z-score. Parameter Z-score ini hanya terdapat pada Fasta dan
menggambarkan kisaran standar deviasi dari distribusi skor similaritas hasil
pencarian database. Dikarenakan sebagian besar jajaran antara urutan database
tidak berhubungan dengan query,
tingginya nilai similaritas antar pasangan urutan akan memberikan standar
deviasi yang besar terhadap distribusi skor similaritas. Hal tersebut berarti
bahwa semakin tinggi Z-score maka
signifikansi homologi dari pasangan urutan yang bersangkutan juga semakin
tinggi.
Well,
demikianlah penjelasan mengenai ketiga parameter tersebut. Penjelasan matematis
ketiga parameter akan saia sertakan dalam link berikut:
Akhir kata, saia rasa ini adalah akhir dari tulisan
dengan judul Pencarian Similaritas Database. Saia harap penjelasan ini
bermanfaat baik untuk menghadapi kuliah, tugas akhir ataupun hanya sekedar
ingin tahu saja. Berikutnya, saia akan kembali dengan topik lainnya, so
ditunggu yak.
Salam,
KohVic
1 komentar:
Nilai E-value dihitung menggunakan rumus? gambarnya nggak kelihatan mas
Posting Komentar