Bog'liq Biologik ketma-ketliklarni ma’lumotlar bazalari bo‘yicha kuplik
2.2 Biologik ketma,ketliklarning yakka va ko‘plik taqqoslanishi. BLAST algoritmi. BLAST turlari. NCBI da BLAST. Biologik ketma ketliklarni juft va ko‘plik taqqoslashlarni solishtirish. BLAST bioinformasion dasturi
BLAST (ingl. Basic Local Alignment Search Tool) – birlamchi strukturasi (ketma-ketliklari) ma'lum bo‘lgan nuklein kislotalar yoki oqsillarning gomologlarini izlash uchun zarur bo‘lgan komp'yuter dasturlari oilasidir. BLAST ni qo‘llagan holda tadqiqotchi o‘zida mavjud ketma – ketliklarni ma'lumotlar bazasidagi ketma – ketliklar bilan solishtirgan holda uning taxmin qilinayotgan gomologlarini izlashi va ularni taqqoslashi mumkin. Bu dastur molekulyar biologiya, bioinformatika va sistematika fanlari bilan shug‘ullanuvchi mutaxassislar uchun muhim vosita hisoblanadi.
BLAST dasturlar oilasi 5 ta asosiy guruhga ajratiladi:
nukleotidlar uchun
oqsillar uchun
translyasiyalanuvchi
genomlar uchun
maxsus amaliy dasturlar
Nukleotidlarni tadqiq etish uchun mo‘ljallangan guruh o‘rganilayotgan nukleotidlar ketma – ketliklarini ma'lumotlar bazasidagi mavjud boshqa nukleotidlar ketma – ketliklari va ularning uchastkalari bilan taqqoslaydi va quyidagi dasturlarni o‘z ichiga oladi:
megablast — yuqori o‘xshashlikka ega ketma-ketliklarni tez solishtirishga mo‘ljallangan
dmegablast — bir – biriga uncha o‘xshash bo‘lmagan ketma – ketliklarni solishtirishga mo‘ljallangan blastn — barcha o‘xshash ketma – ketliklarni aniqlash asosida sekin taqqoslashga mo‘ljallangan Oqsillarni tadqiq etuvchi guruh o‘rganilayotgan oqsilning aminokislotalar ketma – ketliklarini ma'lumotlar bazasida mavjud bo‘lgan boshqa oqsillarning aminokislota ketma – ketliklari va ularning uchastkalari bilan taqqoslashni amalga oshiradi va quyidagi dasturlarni o‘z ichiga oladi:
blastp — barcha o‘xshash ketma –ketliklarni izlash maqsadidagi sekin solishtirish
cdart — domen arxitekturasiga binoan o‘xshash bo‘lgan gomologik oqsillarni izlashga mo‘ljallangan
rpsblast — konservativ domenlar ma'lumotlar bazalari ma'lumotlari bilan solishtirish
Translyasiyalovchi dasturlar yordamida nukleotidlar ketma – ketliklari ko‘rinishida berilgan axborotni aminokislotalar ketma – ketliklari ko‘rinishiga o‘tkazish va ularni boshqa ketma –ketliklar bilan taqqoslash uchun qo‘llaniladi va quyidagi dasturlarni o‘z ichiga oladi:
blastx — o‘rganilayotgan nukleotidlar ketma – ketligini kodlovchi aminokislotalar ko‘rinishiga o‘tkazadi, keyin ma'lumotlar bazasida mavjud oqsillarning aminokislotalar ketma – ketliklari bilan taqqoslaydi.
tblastn — o‘rganilayotgan aminokislotalar ketma – ketliklari ma'lumotlar bazasidagi translyasiyalangan nuklein kislotalar ketma – ketliklari bilan solishtiriladi.
tblastx — o‘rganilayotgan nukleotidlar ketma – ketliklarini aminokislotalar ko‘rinishiga o‘tkazadi va uni ma'lumotlar bazasidagi sekvinirlangan nuklein kislotalarning translyasiyalangan ketma – ketliklari bilan solishtiradi.
Genomlar uchun mo‘ljallangan dasturlar o‘rganilayotgan nukleotidlar ketma – ketliklarini ma'lumotlar bazasidagi mavjud sekvinirlangan biror organiz genomi bilan taqqoslaydi (odam, sichqon va boshqalar).
BLAST ni qo‘llovchi boshqa maxsus amaliy dasturlar:
bl2seq — ikki xil ketma – ketliklarning lokal taqqoslash prinsipi bo‘yicha solishtirilishi
VecScreen — nuklein kislotalar tarkibidagi vektorli kelib chiqish xarakteriga ega nukleotidlar ketma – ketliklarining segmentlarini aniqlashni amalga oshiradi.
Bioinformatikada, BLAST (Asosiy Lokal Taqqoslash Qidiruv Uskunasi) – boshlang‘ich biologik informasiyalar, ya'ni turli xil oqsillardagi aminokislotalar yoki DNK dagi nukleotidlar ketma-ketligini taqqoslovchi algoritmdir. BLAST programmasi tadqiqotchiga kutubxonadagi yoki ma'lumotlar bazasi bilan o‘zi so‘ragan ketma-ketliklarni solishtirishiga va ma'lumotlar bazasidagi ketma-ketlik bilan so‘ralgan ketma-ketlik orasidagi o‘xshashliklarni aniqlashiga imkon beradi. BLAST programmasi Milliy Sog‘liq Institutida Eugene Mers, Stephen Alschul, Warren Gish, David J. Lipman, va Webb Miller tomonidan yaratilgan bo‘lib, 1990 yilda Molekulyar Biologiya Jurnalida chop etilgan.
BLAST bioinformatik programmalar orasida eng keng foydalaniladiganlaridan biridir, chunki u fundamental muammolarni hal qiladi va algoritm sezuvchanlik ustidan tezlikni ta'minlaydi. Tezlikni ta'minlash ulkan genom ma'lumotlar bazasida amaliy algoritm tuzishda juda muhim hisoblanadi.
Tezkor algoritmlar, ya'ni BLAST yoki FASTA ni yaratilishidan oldin, oqsil yoki nukleotid ketma-ketliklarini aniqlashda Smit-Vatermen metodiga o‘xshash to‘liq taqqoslash jarayonidan foydalanish ancha vaqt talab qilar edi. Xaqiqatan ham, Smit-Vatermandan ko‘ra tezroqdir, ammo BLAST Smit-Vaterman “aniqlik va eng takomil natijalar ijrosini ta'minlash” kabi “so‘ralgan va ma'lumotlar bazasidagi ketma-ketliklarni optimal taqqoslashga kafolat” bera olmaydi.
BLAST gomolog ketma-ketliklarni topadi, u nafaqat ketma-ketliklarni to‘laligicha solishtiradi, balki ikki berilgan ketma-ketliklarda joylashish bo‘yicha uchrovchi kalta o‘xshashliklarni ham topadi. Boshlang‘ich so‘zlarni topuvchi bu jarayon ekish deb ataladi. BLAST lokal taqqoslashlarni yaratishni boshlashi birinchi o‘xshashlik bo‘ladi. Ketma-ketliklar ichidan gomologlarni qidirishga harakat boshlanganda, oddiy harflarni to‘plami – so‘zlar juda ham muhimdir. Masalan, ketma-ketlik quyidagi tartibsiz harflar yig‘indisidan iborat deylik: GLKFA. Agar BLASTp (BLASToqsil) tartibsiz holatlar ostida boshqarilib turgan bo‘lsa, unda so‘zning hajmi 3 ta harfdan iborat bo‘lishi lozim. Ushbu holatda, berilgan uzun harflardan foydalanib, qidiraloytgan so‘zlar quyidagicha bo‘ladi: GLK, LKF, KFA. BLAST ning heuristic algoritm programmasi aniqlanishi kerak bo‘lgan oddiy uch-harfli so‘zlar bilan ma'lumotlar bazasidagi aniqlangan ketma-ketliklar o‘rtasida joylashgan. Bu natijalar keyinchalik taqqoslashni yaratish uchun foydalaniladi. Qidirilayotgan ketma-ketlikni so‘zlarini tuzib olinganidan keyin, yondosh so‘zlar ham jamlanadi.
Ma'lumotlarni qidirish. BLASTda ishlash uchun, avvalo, qidirilishi kerak bo‘lgan so‘rovni va unga monand ketma-ketlikni yozish kerak bo‘ladi yoki ma'lumotlar bazasidagi ketma-ketliklar soni ko‘p bo‘lishi mumkin. BLAST ma'lumotlar bazasidan so‘ralgan ketma-ketliklarga o‘xshash bo‘lgan ketma-ketliklarni qidiradi. Oddiy holatlarda, so‘ralgan ketma-ketlik ma'lumotlar bazasidagi ketma-ketliklardan anchagina kichik bo‘ladi, masalan, so‘ralgan ketma-ketlikda nukleotidlar soni 1000 ni tashkil qilsa, ma'lumotlar bazasida ushbu ketma-ketlikka oid nukleotidlar soni bir necha milliard bo‘lishi mumkin.
BLAST ning asosiy g‘oyasi shundaki statistikaviy muhim taqqoslashlarda ko‘p hollarda yuqori-hisoblovchi segment juftlari (HSP) to‘planadi. BLAST so‘ralgan ketma-ketlik bilan ma'lumotlar bazasidagi ketma-ketliklar orasidan heuristic algortimdan foydalanib xuddi Smit-Votermen algoritmi darajasiga yetadigan yuqori hisoblovchi taqqoslashlar uchun qidiradi. Smit-Vaterman mukammal yo‘li GenBank singari katta genom ma'lumotlar bazasini qidirishda juda sekin ishlaydi.
Clustal dasturi va unda ishlash tartibi
Ko‘p miqdordagi ketma – ketliklarni taqqoslash uchun Clustal dasturi keng qo‘llaniladi. Clustal tipidagi birinchi dastur seriyasi 1988 yilda D.Xiggins tomonidan ishlab chiqilgan. Keyinchalik D.Feng, R.Dullitl va V.Teylorlar tomonidan takomillashtirilgan. 1992 yilda Clustal dasturining ikkinchi avlodi Clustal V paydo bo‘ldi va 1994 yilda ishlab chiqilgan uchinchi avlod Clustal W dasturi takomillashtirilgan algoritmlarning hisobiga juda ham qulay ishlash interfeysiga ega bo‘ldi. Aytish lozimki, bu avlod dasturining qulayligi taqqoslanuvi ketma – ketliklarning FASTA formati ko‘rinishida berilishi bilan belgilanadi. Clustal dasturining uchinchi avlodi ko‘plab serverlar orqali (www.pbil.ibcp.fr, http://www.ebi.ac.uk) ikki xil ko‘rinishda, interfaol va pochta tartibida beriladi. Interfaol ko‘rinishda foydalanuvchi natijalarni kutish orqali qabul qiladi. Pochta tartibida ishlanganda esa natijalar foydalanuvchining elektron manziliga (ketma – ketliklar soni ko‘p miqdorda bo‘lganda) jo‘natiladi. Clustal dasturida ishlash uchun birinchi navbatda o‘rganilayotgan aminokislotalar yoki nukleotidlarning ketma – ketliklarini mumkin bo‘lgan mavjud 7 ta serverlarning biridan (NBRF/PIR, EMBL/SWISS-PROT, Pearson/FASTA, Clustal(*aln), GCG/MSF(Pileup), GCG9/RSF, GDE) olish kerak. Bu holatlarda ko‘proq FASTA formatidan foydalaniladi. Kiritilayotgan ketma –ketliklarning umumiy uzunligi www uchun 40000, e-mail serverlari uchun esa 60000 dan ortmasligi talab etiladi. Juftlik taqqoslanishlarida o‘rganilayotgan ketma – ketliklarning barcha juftliklari taqqoslanadi. Bundan tashqari Clustal dasturi taqqoslanayotgan ketma – ketliklarning filogenetik munosabatlarini ko‘rsatuvchi dendrogrammalarni tuzish uchun ham qo‘llaniladi.