UniProt mos yozuvlar klasterlari (UniRef)
UniProt Reference Clusters (UniRef) UniProtKB va tanlangan UniParc yozuvlaridan tashkil topgan oqsil ketma-ketliklarining klasterli to'plamlaridan tashkil topgan uchta ma'lumotlar bazasidan (UniRef100, UniRef90 va UniRef50) iborat. UniRef100 ma'lumotlar bazasi bir xil ketma-ketliklarni va ketma-ketlik qismlarini (har qanday organizmdan) yagona UniRef yozuviga birlashtiradi. UniRef100 ketma-ketliklari CD-HIT algoritmi yordamida UniRef90 va UniRef50 qurish uchun klasterlangan. Oxirgi ikkita klasterning har biri mos ravishda kamida 90% va kamida 50% identifikatsiyaga ega bo'lgan ketma-ketliklardan iborat bo'lib, eng uzun ketma-ketlik topilgan. Hozirda UniRef qamrovi 4 000 000 manba ketma-ketligidan oshadi.
Ketma-ket klasterlash ma'lumotlar bazasi hajmini sezilarli darajada kamaytiradi: UniRef100, UniRef90 va UniRef50 ma'lumotlar bazasi hajmini mos ravishda ~10%, 40% va 70% qisqartiradi. Ortiqchalikni kamaytirish o'xshashlikni qidirish tezligini oshiradi va uzoqdan bog'liq bo'lgan oqsillarni qidirishning ishonchliligini oshiradi.
UniRef yozuvlarida protein ketma-ketligi haqidagi vakillik ma'lumotlari, a'zolar soni va klasterning umumiy taksonomiyasi, shuningdek, barcha qo'shilgan yozuvlar uchun ulanish raqamlari va biologik tadqiqotlarni osonlashtirish uchun UniProtKB-dagi izohlarga havolalar mavjud. UniRef UniREF FTP saytidan mavjud .
UniMrot (UniMes)
UniProt KB ma'lum manba taksonomiyasiga ega yozuvlarni o'z ichiga oladi. Yangi ishlanmalar oqsil ketma-ketligini izlash uchun yangi manbalarni kashf etishga olib keldi. Metagenomik ma'lumotlarning paydo bo'lishi UniProt KB-da tubdan yangi bo'limni, ya'ni alohida ma'lumotlar bazasini - UniProt metagenomik ketma-ketliklari va atrof-muhitdan noma'lum ketma-ketliklarni, UniMES (UniProt Metagenomic and Environmental Sequences ma'lumotlar bazasi) yaratishni talab qildi.
Metagenomika (metagenomika) mikroblar olamining faqat kichik qismini ifodalovchi laboratoriyada yetishtirilgan organizmlardan farqli oʻlaroq, atrof-muhitdan namunalardan ajratilgan mikroblarning keng koʻlamli genomik tahlilidir.
UniMES hozirda Global Okean Sampling ekspeditsiyasi (GOS) tomonidan taqdim etilgan, dastlab Xalqaro nukleotidlar ketma-ketligi ma'lumotlar bazasiga (INSDC) taqdim etilgan dunyo okeanidagi organizmlarning oqsil ketma-ketligi haqidagi ma'lumotlarni o'z ichiga oladi.
Dastlabki GOS ma'lumotlar to'plami 25 million DNK ketma-ketligidan, asosan okean mikroblaridan va 6 millionga yaqin prognoz qilingan oqsillardan iborat. UniMES prognoz qilingan oqsil ketma-ketligini Interpro tomonidan avtomatik tasniflash bilan birlashtiradi, bu protein oilalari, domenlar va funktsional saytlar uchun integratsiyalashgan manbadir. Shu sababli, UniMES noyob ma'lumotlar bazasi bo'lib, u namuna olish ekspeditsiyalaridan olingan genomik ma'lumotlar majmuasiga bepul kirish imkonini beradi. Ushbu ma'lumotlar bazasida mavjud bo'lgan atrof-muhit namunasi ma'lumotlari UniProt ma'lumotlar bazasida yoki UniProt ma'lumot klasterlarida (UniRef) mavjud emas, lekin UniParc bilan birlashtirilgan
Do'stlaringiz bilan baham: |