To'g'ri nukleotidga lokalizatsiya
Kutilganidek, uchta dastur tomonidan bildirilgan lokalizatsiya natijalarining eng katta o'zgarishi nukleotid darajasida ( 1C -rasm ). SSAHA va MegaBLAST uchun eslab qolish kamayadi, lekin BLAT uchun yuqoriligicha qolmoqda. SSAHA gen so'rovlari uchun nazorat nukleotidlarining 77% va ketma-ketlik yorlig'i so'rovlari uchun 7%, MegaBLAST gen so'rovlari uchun nazorat nukleotidlarining 89% va ketma-ketlik yorlig'i so'rovlari uchun 9% va BLAT lokalizatsiyasi gen so'rovlari va 9 uchun nazorat nukleotidlarining 93% ni aniqlaydi. ketma-ketlik yorlig'i so'rovlari uchun % ( 1C -rasm ). Shunga qaramay, ketma-ketlik teglarini eslab qolish juda past, chunki ular genlarning qisqa qismlarini ifodalaydi va shuning uchun qarindosh genlarni o'z ichiga olgan nukleotidlarning katta qismini moslashtirish uchun etarli ma'lumotni o'z ichiga olmaydi.
Alohida nukleotidlar darajasida eslab qolishning pasayishi bir necha turdagi muammolarni, jumladan, juda qisqa ekzonlarga mos kelmaslik, bo'shliqlar ustida noto'g'ri moslashish va so'rov yoki genom ketma-ketligidagi xatolarni aks ettiradi. Biroq, asosiy sabab, genlar yoki ketma-ketlik teglarini so'rovlar sifatida eksonlarning chekkasida qo'llashda ketma-ketlikni tekislashda qiyinchilik. So'rovni ekzonlar chetidagi genomik ketma-ketlikka to'g'ri moslashtirmaslik har bir dastur uchun eslab qolish darajasini biroz pasaytirsa-da, ushbu tadqiqotda taqqoslangan uchta algoritmning har biri 3C -rasmda ko'rsatilganidek, ekzonlarning chekkalarida lokalizatsiya qilishda xarakterli muammolarni ko'rsatadi. . 4 -rasmda har bir algoritmning to'liq mos keladigan ekson chegaralaridagi ishlashi haqida qisqacha ma'lumot berilgan.
4-rasm. Har bir dastur bo'yicha eksonlarning chetlariga moslashtirishning qisqacha mazmuni . Yuqorida eksonning tasviri ko'rsatilgan bo'lib, quyida uchta mumkin bo'lgan moslik natijasi ko'rsatilgan, ya'ni ekzon chegarasiga aniq moslik, ekzon chegarasidan oldin tugaydigan moslik va ekzon chegarasidan tashqariga cho'zilgan moslik. Ushbu toifalarga kiradigan har bir dastur bo'yicha barcha mosliklarning foizi shtrixli grafiklar sifatida tasvirlangan. Chapda: har bir ekson chegarasiga toʻgʻri moslashtirilgan mosliklar foizi. Oʻrta va oʻng: Ekson chegarasiga notoʻgʻri moslashtirilgan, mos ravishda chegara oldidan yoki chegaradan tashqariga choʻzilgan oʻyinlar foizi.
SSAHA ekson chegaralarining atigi 6 foiziga to'g'ri keladi va eksonlarning atigi 0,5 foizi (21 464 umumiy eksondan 98 tasi) har ikkala ekzon chetida ham mukammal tarzda mos keladi. Buning sababi shundaki, algoritm genomni ekzon chegaralari bilan mos keladigan yoki mos kelmasligi mumkin bo'lgan bir-birining ustiga chiqmaydigan bo'laklarga ajratadi. Agar eksonning qirrasi genomning indekslangan fragmenti bilan mos kelmaganligi haqida xabar berish chegarasiga mos keladigan uzunlikka to'g'ri kelmasa, bu fragment qaytarilgan o'yinga kiritilmaydi. Shunday qilib, 3C -rasmda, SSAHA to'liq uzunlikdagi genning 9 ta nukleotidini va BG-RRR265 ketma-ketlik yorlig'ini eksonning 3' chetida moslashtira olmaydi, chunki o'yin 10 ta nukleotidning minimal uzunligiga mos kelmaydi. Xuddi shunday, ketma-ketlik teglari oxirida tez-tez sodir bo'ladigan kichik bo'shliqlar yoki nomuvofiqliklar o'yinni to'xtatib qo'yishi mumkin, natijada moslashuv moslashuvida kamida 10 nukleotid yo'qoladi. (SSAHA ishlab chiquvchilari SSAHA2 ning yangi versiyasini joriy qildilar [ 22], bu asl SSAHA qidiruv algoritmini yanada sezgir moslashtirish dasturi bilan birlashtiradi. Yangi versiyaga kiritilgan o'zgarishlar SSAHA2-ning SSAHA-dan farqli o'zini tutishini ko'rsatadi. Bundan tashqari, ssahaEST kabi tegishli dasturlar ekzon chegaralarini aniqlashni oshirish uchun SSAHA2 ning qidirish va moslashtirish bosqichlarini bir nechta ulanish joyi modellari bilan birlashtiradi. SSAHA2 va unga bog'liq dasturlar ushbu tahlilga kiritilmagan, chunki taqqoslash va to'liq hujjatlar hali nashr etilmagan, garchi ikkilik fayllar endi Ensembldan yuklab olish mumkin.)
SSAHA-dan farqli o'laroq, MegaBLAST ko'pincha hizalanishlarni ekzonlarning chetidan tashqariga uzatadi. MegaBLAST lokalizatsiyalari urinishlarning 35% da ekson chegaralarigacha tekislanadi, lekin undan tashqarida emas, faqat 11% ekson ikkala chetida ham mukammal hizalanishga ega. Bundan tashqari, algoritm so'rovlar ketma-ketligidagi har bir nukleotid faqat bir marta mos kelishini ta'minlashga urinmay, mumkin bo'lgan eng uzun tekislashni yaratadi. Shunday qilib, MegaBLAST qo'shni intronik ketma-ketlik tasodifan so'rovlar ketma-ketligiga mos keladigan bo'lsa, moslikni eksonning chetidan tashqariga uzaytirishi mumkin ( 3C -rasm ).
BLAT lokalizatsiyalari ekson qirralarini toʻgʻri moslashtirish ehtimoli yuqori, chunki algoritm toʻgʻri ekson qoʻshilish joylarini hisoblash va soʻrovlar ketma-ketligidagi har bir nukleotidni faqat bir marta moslashtirish uchun bajaradigan qoʻshimcha qadamlar tufayli. BLAT lokalizatsiyasi urinishlarning 87% da ekson qirralariga mos keladi, 79% eksonlarning ikkala chetida ham mukammal hizalanadi. Bizning avtomatlashtirilgan tahlilimizda sodir bo'lgan bir-biriga o'xshash bir nechta to'g'ri lokalizatsiyalarni hisoblash orqali bu stavkalar biroz oshirilgan bo'lishi mumkin ( misol uchun 3C -rasmga qarang). Shunga qaramay, BLAT ekzon chegaralarini to'g'ri aniqlash bo'yicha SSAHA va MegaBLASTdan aniq ustunlikka ega.
Nukleotidlar darajasida aniqlikka kelsak, SSAHA eng yaxshi natijani ko'rsatadi va genlar va ketma-ketlik teglari uchun vaqtning 92% to'g'ri lokalizatsiyaga erishadi. MegaBLAST va BLAT uchun aniqlik ham yuqori, ketma-ketlik yorlig'i va to'liq uzunlikdagi gen lokalizatsiyasining 85% nazorat nukleotidlariga mos keladi.
Do'stlaringiz bilan baham: |