BLAST nukleotidlarining ketma-ketligi dasturi Belgilanmaganga o'xshash oqsillarni kodlovchi genlarning aniqlanmagan genomlarini qidiring
E. coli GlmS ga o'xshash oqsillarni kodlovchi genlarni qidirish amalga oshirildi. Qidiruv quyidagi organizmlarning aniqlanmagan genomlari bo'yicha olib borildi: Pseudomonas aeruginosa, Pasteurella multocida va Vibrio vabo. NCBI Entrez taksonomiyasining ma'lumotlariga ko'ra, bu organizmlarning barchasi E. colining juda yaqin qarindoshlari bo'lib, ular bir xil Gammaproteobakteriyalar sinfiga kiradi.
Formatb dasturi yordamida qidiruvni amalga oshirishdan oldin har bir genom uchun indeksli fayllar, shuningdek uchta genom uchun indeksli fayllar alohida yaratildi. Ikkala holatda ham dastur nhr, nin va nsq kengaytmali uchta faylni yaratdi. Nsq kengaytmali fayl (nukleotidlar ketma-ketligi) 4 marta siqilgan nukleotidlar ketma-ketligi to'g'risidagi ma'lumotlarni o'z ichiga oladi. Ushbu fayl boshqa ikkalasiga qaraganda ancha katta. Nhr va ninali fayllar (nukleotid indekslari) yordamchi bo'lib, mos ravishda to'liq genomni tashkil etuvchi yozuvlar sarlavhalarini va indekslarning ro'yxatini o'z ichiga oladi (formatdb dasturi uchun hujjatlarni ko'ring).
Qidiruvni amalga oshirish uchun BLAST to'plamidagi TBLASTN dasturidan foydalanildi, u oltita freymdagi tarjima mahsuloti kirish oqsillari ketma-ketligiga o'xshash nukleotidlar ketma-ketliklarini aniqlash uchun ishlab chiqilgan. Elektron qiymatning chegaraviy qiymati 0,01 ga teng tanlangan. Qidiruv natijalari jadvalda keltirilgan.
Nukleotidning ketma-ketligini taqqoslaganda (2) formula bilan aniqlanadi. Uzunligi m o'rganilgan ketma-ketlikni ko'plab ma'lumotlar bazalari ketma-ketligi bilan taqqoslash ikki nuqtaga asoslanishi mumkin. Birinchi nuqta, ma'lumotlar bazasining barcha ketma-ketliklari o'rganilayotganga o'xshashdir. Bu ma'lumotlar bazasida mavjud bo'lgan qisqa ketma-ketlik bilan hizalanish uchun E qiymatini uzun ketma-ketlik bilan tekislash uchun E qiymatiga tenglashtirish kerakligini anglatadi. Ma'lumotlar bazasidan E qiymatini hisoblash uchun olingan E qiymatini undagi ketma-ketliklar soniga juft-juft taqqoslash orqali ko'paytirish kerak. Ikkinchi nuqta, o'rganilgan ketma-ketlik uzoq ketma-ketliklarga qaraganda qisqaroqroqqa o'xshaydi, chunki ikkinchisi ko'pincha turli qismlardan iborat (ko'p oqsillar domenlardan iborat). Agar o'xshashlik ehtimolligi ketma-ketlik uzunligiga mutanosib deb hisoblasak, n uzunlikdagi ma'lumotlar bazasi uchun E ning juft qiymatini N / n ga ko'paytirish kerak, bu erda N - bazadagi aminokislotalar yoki nukleotidlarning umumiy uzunligi. BLAST dasturlari asosan ushbu yondashuvdan ma'lumotlar bazasidan E qiymatlarini hisoblashda foydalanadilar.
Nazariy jihatdan, mahalliy hizalanish har qanday nukleotid yoki aminokislotalarning hizalanadigan ketma-ketligidan boshlanishi mumkin. Biroq, GES, qoida tariqasida, ketma-ketlikning chetiga (boshiga yoki oxiriga) yaqin boshlamaydi. Bunday chekka effektni tuzatish uchun ketma-ketlikning samarali uzunligini hisoblash kerak. 200 dan ortiq qoldiq bo'lsa, chekka effekti neytrallanadi.
BLASTN AC-ni chiqarishda bu yozuv AE004967. AE004967 yozuvi 2006 yil 12 iyulda AE004091 bilan almashtirildi. Shubhasiz, P. aeruginosa genom yozuvlari EMBL-ning oldingi versiyalaridan olingan. EMBL-ning SRS-qidiruvi EMBL-ning 87-versiyasida AE004967-ni topdi. CDS koordinata qiymatlari topilgan yozuvdan olinadi.
Pseudomonas aeruginosa, Pasteurella multocida va Vibrio xolera genomlari bo'yicha. hakl 1. E. coli glmS genlar ketma-ketligi va E. coli GlmS ortologini kodlovchi V. vabera genlari ketma-ketligi bo'yicha mintaqalarni tekislash. Tizimlar BLASTN dasturi tomonidan qurilgan.
Genlarning to'liq bo'linishini bir necha qismlarga bo'lishining sababi bu genetik kodning nasli. Ko'pgina aminokislotalar qoldiqlari uchun kodonning uchinchi pozitsiyasi ahamiyatga ega emas (ya'ni har xil uchinchi pozitsiyaga ega kodonlar odatda bir xil aminokislotani kodlaydi). Shunday qilib, genning deyarli har uchinchi nukleotidi selektsiya bosimi bilan topilmaydi. Bu, uchinchi bir-biriga yaqin bo'lgan organizmlar (E. coli va V. chorarae) genlarining ayrim qismlarining har uchinchi qoldiq uchun farq qilishi mumkinligiga olib keladi, bu ham rasmda ko'rsatilgan izalanishlar bilan tasdiqlanadi.
Agar kamida har uchinchi kodonning uchinchi nukleotidi homolog genlar ketma-ketligining etarlicha uzun qismida farq qiladigan bo'lsa, unda BLASTN dasturi ushbu bo'limlarning hizalanishini qura olmaydi (mutlaqo bir xil bo'lgan ketma-ketliklarning minimal uzunligi - armatura uzunligi - kamida 11 np) bo'lishi kerak. Shuning uchun BLASTN ba'zi genlar ketma-ketliklari o'rtasidagi o'xshashlikni aniqlay olmaydi va to'liq hizalanish qisqa qismlarga bo'linadi. Bundan tashqari, juda qisqa bo'laklarning hizalanishining elektron qiymati chegaraviy qiymatdan oshib ketishi mumkin, bu dasturning chiqishida bunday hizalanish yo'qligiga olib keladi.
Eng yaxshi BLASTN topilmalarining elektron qiymati eng yaxshi TBLASTN topilgan ma'lumotlarning elektron qiymatidan ancha yuqori (V. xolerae genomida, mos ravishda 9x10-17 va 0). Buning uchta sababi bo'lishi mumkin: bankning kattalashishi (har bir aminokislota uch n.p. bilan kodlangan), hizalanish uzunligining pasayishi va nukleotidlarning aminokislotalarga nisbatan besh baravar kamligi. 0,01 ostonasida, BLASTN har bir genomdan E. coli GlmS ortologlarining genlarini aniqlashga imkon berdi, ammo TBLASTN dan farqli o'laroq, E. coli GlmS paraloglari aniqlanmadi (E. coli glmS genlarining ketma-ketligi va 21 sekundli EMBL AE004776 ro'yxatga olish bo'limining aniqlangan qismi aniqlandi). .p. tasodifiy nukleotid tasodifining natijasi bo'lishi mumkin).
Shunday qilib, BLASTN dasturi TBLASTN-ga qaraganda kamroq sezgir qidiruv vositasi bo'lib, kirish ketma-ketligi mahsulotining eng yaqin ortologlarini kodlash uchun faqat genlarni aniqlashga imkon beradi. Shu munosabat bilan, TBLASTN dasturi ma'lum bir genning homologlarini qidirish yoki yangi genlarni izohlash uchun ko'proq mos keladi.