PIR 1984 yilda Milliy Biotibbiy Tadqiqot Jamg'armasi (NBRF) tomonidan tadqiqotchilar va mijozlarga identifikatsiya qilish va talqin qilishda yordam beradigan manba sifatida tashkil etilgan. oqsillar ketma-ketligi ma `lumot. Undan oldin NBRF 1964 yildan 1974 yilgacha tahrir ostida nashr etilgan "Proteinlar ketma-ketligi va tuzilishi atlasidagi" makromolekulyar ketma-ketliklarning birinchi to'liq to'plamini tuzdi. Margaret Dayhoff. Deyxof va uning tadqiqot guruhi oqsillar ketma-ketligini taqqoslash, ketma-ketliklar orasidagi uzviy bog'liqlik va takrorlanishlarni aniqlash hamda evolyutsion tarixlarni oqsillar ketma-ketligining hizalanmasidan xulosa qilish uchun kompyuter usullarini ishlab chiqishda kashshof bo'lgan.[8]
Winona Barker va Robert Ledli 1983 yilda Dayhoff vafotidan keyin loyiha rahbarligini o'z zimmasiga oldi. 1999 yilda, Keti Xu Vu PBRning bioinformatika ishlariga rahbarlik qilish uchun NBRFga, so'ngra GUMC-ga qo'shildi va birinchi navbatda asosiy tergovchi va 2001 yildan beri direktor sifatida ishlagan.[iqtibos kerak]
Qirq o'n yil davomida PIR ko'plab oqsil ma'lumotlar bazalarini va ilmiy jamoatchilikka erkin kirish vositalarini taqdim etdi, shu qatorda Proteinlar ketma-ketligi va tuzilishi atlasidan o'sib chiqqan birinchi xalqaro ma'lumotlar bazasi (qarang PIR-International), shu jumladan Proteinlar ketma-ketligi ma'lumotlar bazasi (PSD). .[iqtibos kerak]
2002 yilda, PIR - xalqaro sheriklari, EBI bilan birga (Evropa bioinformatika instituti) va SIB (Shveytsariya bioinformatika instituti) - yaratish uchun NIH granti bilan taqdirlandilar UniProt, PIR-PSD ni birlashtirib, butun dunyo bo'ylab oqsillar ketma-ketligi va funktsiyasi ma'lumotlar bazasi, Shveytsariya-Protva TREMBL ma'lumotlar bazalari. 2010 yildan boshlab, PIR asosan oqsil izohlarini ko'paytirish va standartlashtirishga yordam beradigan turli xil manbalarni taklif etadi: PIRSF,[9] iProClass va iProLINK.
Protein Ontology (PRO) - bu Protein Information Resource tomonidan chiqarilgan yana bir mashhur ma'lumotlar bazasi.[10][11]
Adabiyotlar
^ http://pir.georgetown.edu/ Arxivlandi 2014-03-12 da Orqaga qaytish mashinasi Jorjtaun Universitetidagi PIR rasmiy sayti.
^ Vu, Keti; Nebert, Daniel V. (2004). "Genomni to'ldirish va annotatsiyalarni yangilash: Proteinli ma'lumot manbai". Inson genomikasi. 1 (3): 229–33. doi:10.1186/1479-7364-1-3-229. PMC 3525084. PMID 15588483.
^ Vu, C. H. (2003). "Proteinli axborot manbai". Nuklein kislotalarni tadqiq qilish. 31 (1): 345–347. doi:10.1093 / nar / gkg040. PMC 165487. PMID 12520019.
^ Vu, CH; Xuang, H; Arminski, L; Kastro-Alvear, J; Chen, Y; Xu, ZZ; Ledli, RS; Lyuis, KC; Mewes, HW; Orkut, miloddan avvalgi; Suzek, BE; Tsugita, A; Vinayaka, CR; Ha, LS; Chjan, J; Barker, Jahon chempionati (2002-01-01). "Proteinli axborot resursi: oqsillarning funktsional izohlanishining yaxlit davlat resursi". Nuklein kislotalarni tadqiq qilish. 30 (1): 35–37. doi:10.1093 / nar / 30.1.35. ISSN 1362-4962. PMC 99125. PMID 11752247.
^ Barker, V.C .; Garavelli, J. S .; Xou, Z.; Xuang, X.; Ledli, R. S .; McGarvey, P. B.; Mewes, H. V.; Orcutt, B. C .; Pfeiffer, F .; Tsugita, A .; Vinayaka, C. R .; Xiao, C .; Yeh, L. S .; Vu, C. (2001). "Proteinli Axborot Resursi: Protein ma'lumotlarini ekspert izohlash uchun jamoat manbai". Nuklein kislotalarni tadqiq qilish. 29 (1): 29–32. doi:10.1093 / nar / 29.1.29. PMC 29802. PMID 11125041.
^ Barker, W. C. (2000). "Proteinli Axborot Resursi (PIR)". Nuklein kislotalarni tadqiq qilish. 28 (1): 41–44. doi:10.1093 / nar / 28.1.41. PMC 102418. PMID 10592177.
^ Jorj, D. G.; Dodson, R. J .; Garavelli, J. S .; Haft, D. H .; Xant, L. T .; Marzek, C. R .; Orkett, B. C .; Sidman, K. E .; Srinivasarao, G. Y .; Yeh, L.-S. L .; Arminski, L. M.; Ledli, R. S .; Tsugita, A .; Barker, W. C. (1997). "Proteinlar haqida ma'lumot manbai (PIR) va PIR-Xalqaro oqsillar ketma-ketligi ma'lumotlar bazasi". Nuklein kislotalarni tadqiq qilish. 25 (1): 24–27. doi:10.1093 / nar / 25.1.24. PMC 146415. PMID 9016497.
^ Izet, M (2016). "Tibbiy informatika rivojlanishidagi eng nufuzli olimlar (13): Margaret Belle Dayhoff". Acta Inform Med. 24 (4).
^ Vu, C. X.; Nikolskaya, A .; Xuang, X.; Yeh, L. S .; Natale, D. A .; Vinayaka, C. R .; Xu, Z. Z.; Mazumder, R .; Kumar, S .; Kurtesis, P.; Ledli, R. S .; Suzek, B. E .; Arminski, L .; Chen, Y .; Chjan, J .; Kardenas, J. L .; Chung, S .; Kastro-Alvear, J .; Dinkov, G.; Barker, W. C. (2004). "PIRSF: Proteinli axborot resurslarida oilaviy tasniflash tizimi". Nuklein kislotalarni tadqiq qilish. 32 (90001): 112D – 114. doi:10.1093 / nar / gkh097. PMC 308831. PMID 14681371.
^ "GeorgeTown.edu - Proteinli ontologiya". Arxivlandi asl nusxasi 2011-03-10. Olingan 2017-12-04.
^ Chicco, Davide; Masseroli, Marko (2019). "Biologik va tibbiy ontologiyalar: oqsilli ontologiya (PRO)". Bioinformatika va hisoblash biologiyasi ensiklopediyasi. 832-837 betlar. doi:10.1016 / B978-0-12-809633-8.20396-8. ISBN 9780128114322Entsiklopediya site:uz.wikisko.ru
Protein ma'lumotlar banki - Protein Data Bank
Protein ma'lumotlar banki
Tarkib
Tavsif
Protein tuzilishi
Rentgenologik kristallografiya
NMR tuzilishini aniqlash
Aloqa
Birlamchi iqtibos PMID 30357364
Kirish
Ma'lumotlar formati mmCIF, PDB
Veb-sayt
www.wwpdb.org
www.pdbe.org
www.rcsb.org/ pdb
www.bmrb.wisc.edu
www.pdbj.org
The Protein ma'lumotlar banki (PDB)[1] a ma'lumotlar bazasi kabi yirik biologik molekulalarning uch o'lchovli tizimli ma'lumotlari uchun oqsillar va nuklein kislotalar. Odatda tomonidan olingan ma'lumotlar Rentgenologik kristallografiya, NMR spektroskopiyasiyoki, tobora, kriyo-elektron mikroskopiva tomonidan taqdim etilgan biologlar va biokimyogarlar butun dunyo bo'ylab, Internetga a'zo tashkilotlarning veb-saytlari (PDBe,[2] PDBj,[3] RCSB,[4] va BMRB[5]). PDB tashkiloti tomonidan nazorat qilinadi Butun dunyo bo'ylab proteinlar banki, wwPDB.
PDB bu sohalarda muhim ahamiyatga ega tarkibiy biologiya, kabi strukturaviy genomika. Aksariyat yirik ilmiy jurnallar va ba'zi moliyalashtirish agentliklari hozirgi paytda olimlardan PDBga o'zlarining tuzilish ma'lumotlarini taqdim etishni talab qilmoqdalar. Ko'pgina boshqa ma'lumotlar bazalarida PDBda saqlanadigan protein tuzilmalari qo'llaniladi. Masalan, SCOP va KATH oqsil tuzilmalarini tasniflang, shu bilan birga PDBsum kabi boshqa manbalardan olingan ma'lumotlardan foydalangan holda PDB yozuvlari grafik ko'rinishini beradi Gen ontologiyasi.[6][7]Entsiklopediya site:uz.wikisko.ru
Tarix
PDBni boshlash uchun ikkita kuch birlashdi: rentgen difraksiyasi bilan aniqlangan kichik, ammo o'sib borayotgan oqsil tuzilishi ma'lumotlari to'plami; va yangi (1968) molekulyar grafik displey, Brookhaven RAster displeyi (BRAD), bu oqsil tuzilmalarini 3-o'lchovda tasavvur qilish uchun. 1969 yilda Valter Xemilton homiyligida Brukhaven milliy laboratoriyasi, Edgar Meyer (Texas A&M universiteti) atom koordinatali fayllarni geometrik va grafik baholash uchun mavjud qilish uchun ularni umumiy formatda saqlash uchun dasturiy ta'minot yozishni boshladi. 1971 yilga kelib Meyer dasturlaridan biri bo'lgan SEARCH tadqiqotchilarga oqsil tuzilmalarini oflayn rejimda o'rganish uchun ma'lumotlar bazasidan masofadan ma'lumot olish imkoniyatini berdi.[8] SEARCH tarmoqni yoqishda muhim rol o'ynadi va shu bilan PDB ning funktsional boshlanishini belgilab berdi.
Protein ma'lumotlar banki 1971 yil oktyabrda e'lon qilingan Tabiat yangi biologiya[9] o'rtasida qo'shma korxona sifatida Kembrij kristallografik ma'lumotlar markazi, Buyuk Britaniya va AQShning Brukhaven milliy laboratoriyasi.
1973 yilda Xemilton vafot etgach, Tom Koeztle keyingi 20 yil davomida PDB rahbarligini oldi. 1994 yil yanvar oyida, Joel Sussman Isroilnikidan Weizmann Ilmiy Instituti PDB rahbari etib tayinlandi. 1998 yil oktyabrda,[10]PDB Strukturaviy Bioinformatika bo'yicha ilmiy-tadqiqot laboratoriyasiga (RCSB) o'tkazildi;[11] transfer 1999 yil iyun oyida yakunlandi. Yangi direktor bo'ldi Xelen M. Berman ning Rutgers universiteti (RCSB boshqaruv muassasalaridan biri, ikkinchisi esa San-Diego superkompyuter markazi da San-Diego UC).[12] 2003 yilda wWPDB tashkil topishi bilan PDB xalqaro tashkilotga aylandi. Ta'sischi a'zolari PDBe (Evropa),[2] RCSB (AQSh) va PDBj (Yaponiya).[3] The BMRB[5] 2006 yilda qo'shilgan. To'rt a'zoning har biri wwPDB PDB ma'lumotlarini joylashtirish, ma'lumotlarni qayta ishlash va tarqatish markazlari vazifasini bajarishi mumkin. Ma'lumotlarni qayta ishlash wwPDB xodimlarining har bir yuborilgan yozuvni ko'rib chiqishi va izohlashi deganidir.[13] Keyin ma'lumotlar avtomatik ravishda ishonchliligi tekshiriladi (manba kodi)[14] Buning uchun dasturiy ta'minot ommaga bepul taqdim etildi).Entsiklopediya site:uz.wikisko.ru
Mundarija
PDB dan oqsil tuzilmalariga misollar (UCSF Chimera bilan yaratilgan)
Protein tuzilishini usul va yil bo'yicha aniqlash darajasi.[15]
PDB ma'lumotlar bazasi har hafta yangilanadi (UTC+0 chorshanba), shuningdek, aktsiyalar ro'yxati bilan birga.[16] 2020 yil 1-aprel holatiga ko'ra, PDB quyidagilarni o'z ichiga oladi:
PDBdagi 134 146 ta tuzilma a tuzilish omili fayl.
10,289 tuzilmalarda NMR cheklash fayli mavjud.
PDB tarkibidagi 4.814 tuzilmalar a kimyoviy siljishlar fayl.
PDBdagi 4.718 tuzilmalar a 3DEM xarita fayli saqlangan EM ma'lumotlar banki
Ko'pgina tuzilmalar rentgen difraksiyasi bilan aniqlanadi, ammo taxminan 10% tuzilmalar oqsil NMR. Rentgen difraksiyasidan foydalanganda oqsil atomlari koordinatalarining taxminiy ko'rsatkichlari olinadi, NMR yordamida esa oqsil juftlari orasidagi masofa taxmin qilinadi. Oqsilning oxirgi konformatsiyasi NMR dan a eritmasi bilan olinadi masofa geometriyasi muammo. 2013 yildan keyin oqsillarning ko'payib borishi aniqlanadi kriyo-elektron mikroskopi. Bog'langan tashqi jadvaldagi raqamlarni bosish shu usul bilan aniqlangan tuzilmalar misollarini ko'rsatadi.
Struktur faktorli faylga ega bo'lgan rentgen difraksiyasi bilan aniqlangan PDB tuzilmalari uchun ularning elektron zichligi xaritasini ko'rish mumkin. Bunday tuzilmalar ma'lumotlari "elektron zichligi serverida" saqlanadi.[17][18]
Tarixiy jihatdan PDB tarkibidagi tuzilmalar soni taxminan eksponent darajasida o'sdi, 1982 yilda 100 ta, 1993 yilda 1000 ta, 1999 yilda 10000 va 2014 yilda 100000 ta ro'yxatdan o'tgan tuzilmalar.[19][20] 2007 yildan boshlab yangi oqsil tuzilmalarining to'planish darajasi platoga o'xshaydi.[tushuntirish kerak]
Fayl formati
Asosiy maqola: Protein ma'lumotlar banki (fayl formati)
Dastlab PDB tomonidan ishlatilgan fayl formati PDB fayl formati deb nomlangan. Asl format kengligi bilan cheklangan kompyuter punch kartalari har bir satrda 80 ta belgidan iborat. 1996 yil atrofida "makromolekulyar kristallografik ma'lumot fayli" formati, mmCIF, bu kengaytma hisoblanadi CIF formati mmCIF 2014 yilda PDB arxivi uchun standart formatga aylandi.[21] 2019 yilda wwPDB kristalografik usullar uchun depozitlar faqat mmCIF formatida qabul qilinishini e'lon qildi.[22]
An XML PDBML deb nomlangan PDB versiyasi 2005 yilda tavsiflangan.[23]Tuzilma fayllarini ushbu uchta formatning istalgan birida yuklab olish mumkin, ammo ko'p sonli tuzilmalar eski PDB formatiga mos kelmaydi. Shaxsiy fayllar Internetdan grafik paketlarga osongina yuklab olinadi URL manzillari:
PDB formatidagi fayllar uchun, masalan, foydalaning. http://www.pdb.org/pdb/files/4hhb.pdb.gz yoki http://pdbe.org/download/4hhb
PDBML (XML) fayllari uchun, masalan, foydalaning. http://www.pdb.org/pdb/files/4hhb.xml.gz yoki http://pdbe.org/pdbml/4hhb
"4hhb"bu PDB identifikatori. PDB-da nashr etilgan har bir struktura to'rt belgidan iborat alfanumerik identifikatorni oladi, uning PDB identifikatori. (Bu biomolekulalar uchun noyob identifikator emas, chunki bir xil molekula uchun bir nechta tuzilmalar - turli xil muhitda yoki konformatsiyalarda bo'lishi mumkin) turli PDB identifikatorlari bo'lgan PDB-da.)
Ma'lumotlarni ko'rish
Tuzilma fayllarini ulardan biri yordamida ko'rish mumkin bir nechta bepul va ochiq kodli kompyuter dasturlari, shu jumladan Jmol, Pimol, VMDva Rasmol. Boshqa bepul bo'lmaganlar, shareware dasturlarga ICM-Browser,[24] MDL ovozi, UCSF Chimera, Swiss-PDB Viewer,[25] StarBiochem[26] (oqsillar ma'lumotlar bazasini izlash bilan Java asosidagi interaktiv molekulyar tomoshabin), Siriusva VisProt3DS[27] (anaglit va boshqa rejimlarda 3D stereoskopik ko'rinishda oqsillarni vizualizatsiya qilish vositasi) va Discovery Studio. RCSB PDB veb-saytida bepul va tijorat molekulalarini vizualizatsiya qilish dasturlari va veb-brauzer plaginlari ro'yxati mavjud.Entsiklopediya site:uz.wikisko.ru
UniProt ning erkin foydalanish mumkin bo'lgan ma'lumotlar bazasi oqsillar ketma-ketligi va funktsional ma'lumotlar, ko'plab yozuvlar olingan genomlarni tartiblashtirish bo'yicha loyihalar. Unda tadqiqot adabiyotlaridan olingan oqsillarning biologik funktsiyasi to'g'risida juda ko'p ma'lumotlar mavjud. Uni bir nechta Evropadan iborat UniProt konsortsiumi qo'llab-quvvatlaydi bioinformatika tashkilotlar va fond Vashington, DC, Qo'shma Shtatlar.Entsiklopediya site:uz.wikisko.ru
UniProt konsortsiumi
UniProt konsortsiumi tarkibiga quyidagilar kiradi Evropa bioinformatika instituti (EBI), Shveytsariya bioinformatika instituti (SIB) va Proteinli ma'lumot manbai (PIR). EBI, joylashgan Wellcome Trust Genom Campus Buyuk Britaniyaning Xinxton shahrida bioinformatika ma'lumotlar bazalari va xizmatlarining katta resursiga ega. SIB, Shveytsariyaning Jeneva shahrida joylashgan ExPASy (Mutaxassis oqsillarni tahlil qilish tizimi) proteomika vositalari va ma'lumotlar bazalari uchun markaziy manba bo'lgan serverlar. AQShning Vashington shahridagi Jorjtaun universiteti tibbiyot markazida Milliy Biotibbiy tadqiqotlar fondi (NBRF) tomonidan tashkil etilgan PIR eng qadimgi oqsillar ketma-ketligi ma'lumotlar bazasining merosxo'ridir, Margaret DayhoffBirinchi marta 1965 yilda nashr etilgan oqsillar ketma-ketligi va tuzilishi atlasi.[2] 2002 yilda EBI, SIB va PIR UniProt konsortsiumi sifatida kuchlarni birlashtirdi.[3]
UniProt ma'lumotlar bazalarining ildizlari
Har bir konsortsium a'zosi proteinlar bazasini saqlash va izohlashda katta ishtirok etadi. Yaqin vaqtgacha EBI va SIB birgalikda Shveytsariya-Prot va TrEMBL ma'lumotlar bazalarini, PIR esa Proteinlar ketma-ketligi ma'lumotlar bazasini (PIR-PSD) ishlab chiqardi.[4][5][6] Ushbu ma'lumotlar bazalari turli xil bilan birga yashagan oqsillar ketma-ketligi qamrab olish va izohlash ustuvorliklari.
Swiss-Prot 1986 yilda tashkil etilgan Amos Bayroch doktorlik dissertatsiyasi davomida va tomonidan ishlab chiqilgan Shveytsariya bioinformatika instituti va keyinchalik tomonidan ishlab chiqilgan Rolf Apvayler da Evropa bioinformatika instituti.[7][8][9] Swiss-Prot yuqori darajadagi izohlash bilan bog'liq ishonchli oqsillar ketma-ketligini ta'minlashni maqsad qilgan (masalan, oqsil funktsiyasining tavsifi, uning domen tuzilishi, tarjimadan keyingi modifikatsiyalar, variantlar va boshqalar), minimal darajasi ortiqcha va boshqa ma'lumotlar bazalari bilan yuqori darajadagi integratsiya. Ketma-ketlik ma'lumotlari Shveytsariya-Protning ushlab turish qobiliyatidan yuqori tezlikda ishlab chiqarilayotganligini anglagan holda, TrEMBL (Translyated EMBL Nucleotide Sequence Data Library) shveytsariya-Protda bo'lmagan oqsillar uchun avtomatlashtirilgan izohlarni taqdim etish uchun yaratilgan. Shu bilan birga, PIR PIR-PSD va tegishli ma'lumotlar bazalarini, shu jumladan iProClass, oqsillar ketma-ketligi va kuratilgan oilalar ma'lumotlar bazasi.
Konsortsium a'zolari o'zlarining ustma-ust resurslari va tajribalarini birlashtirdilar va 2003 yil dekabrida UniProt-ni ishga tushirdilar.[10]
UniProt ma'lumotlar bazalarini tashkil etish
UniProt to'rtta asosiy ma'lumotlar bazasini taqdim etadi: UniProtKB (Swiss-Prot va TrEMBL kichik qismlari bilan), UniParc, UniRef.
UniProtKB
UniProt Bilimlar Bazasi (UniProtKB) - bu mutaxassislar tomonidan qisman boshqariladigan, ikki qismdan iborat bo'lgan oqsillar ma'lumotlar bazasi: UniProtKB / Swiss-Prot (ko'rib chiqilgan, qo'lda izohli yozuvlarni o'z ichiga olgan) va UniProtKB / TrEMBL (ko'rib chiqilmagan, avtomatik izohli yozuvlarni o'z ichiga olgan).[11] 2014 yil 19 mart holatiga ko'ra, UniProtKB / Swiss-Prot-ning "2014_03" versiyasi 542,782 ketma-ketlik yozuvlarini o'z ichiga oladi (19361982 ta aminokislotalarni 226.896 ta ma'lumotdan olingan) va UniProtKB / TrEMBL-ning "2014_03" versiyasi 54.24.468 ketma-ket yozuvlarni o'z ichiga oladi (17.207.833.179 aminokislotadan iborat).[12][13]
UniProtKB / Shveytsariya-Prot
UniProtKB / Swiss-Prot - bu qo'lda izohlangan, ortiqcha bo'lmagan oqsillar ketma-ketligi ma'lumotlar bazasi. U ilmiy adabiyotlardan olingan ma'lumotlarni birlashtiradi va biokurator-hisoblangan tahlil. UniProtKB / Swiss-Prot-ning maqsadi ma'lum bir protein haqida barcha kerakli ma'lumotlarni taqdim etishdir. Izohlar muntazam ravishda zamonaviy ilmiy topilmalarni kuzatib borish uchun qayta ko'rib chiqiladi. Yozuvni qo'lda izohlash oqsillar ketma-ketligini va ilmiy adabiyotlarni batafsil tahlil qilishni o'z ichiga oladi.[14]
Xuddi shu ketma-ketliklar gen va xuddi shunday turlari bir xil ma'lumotlar bazasi yozuviga birlashtirilgan. Ketma-ketliklar orasidagi farqlar aniqlanadi va ularning sababi hujjatlashtiriladi (masalan muqobil qo'shish, tabiiy o'zgarish, noto'g'ri boshlash saytlar, noto'g'ri exon chegaralar, ramkalar, noma'lum to'qnashuvlar). UniProtKB / Swiss-Prot yozuvlari izohida ketma-ketlikni tahlil qilish vositalaridan foydalaniladi. Kompyuterda bashorat qilish qo'lda baholanadi va yozuvga kiritish uchun tegishli natijalar tanlanadi. Ushbu bashoratlarga translyatsiyadan keyingi modifikatsiyalar, transmembranali domenlar va topologiya, signal peptidlari, domenni identifikatsiyalash va oqsillar oilasi tasnif.[14][15]
Kabi ma'lumotlar bazalarini qidirish orqali tegishli nashrlar aniqlanadi PubMed. Har bir qog'ozning to'liq matni o'qiladi, ma'lumot olinadi va yozuvga qo'shiladi. Ilmiy adabiyotlardan kelib chiqadigan izohlash quyidagilarni o'z ichiga oladi, lekin ular bilan chegaralanmaydi:[10][14][15]
Protein va gen nomlari
Funktsiya
Fermentkabi maxsus ma'lumotlar katalitik faollik, kofaktorlar va katalitik qoldiqlar
Subcellular joylashuvi
Protein-oqsilning o'zaro ta'siri
Ifoda namunasi
Muhim domenlar va saytlarning joylashuvi va rollari
Ion-, substrat- va kofaktor bilan bog'laydigan joylar
Tabiiy genetik o'zgarish natijasida hosil bo'lgan oqsil variantlari, RNK tahriri, muqobil qo'shish, proteolitik tarjima qilinganidan keyin qayta ishlash va o'zgartirish
Izohli yozuvlar UniProtKB / Swiss-Prot-ga qo'shilishdan oldin sifatni kafolatlaydi. Yangi ma'lumotlar paydo bo'lganda, yozuvlar yangilanadi.
UniProtKB / TrEMBL
UniProtKB / TrEMBL avtomatik izohlash bilan boyitilgan yuqori sifatli hisoblash tahlil qilingan yozuvlarni o'z ichiga oladi. U genom loyihalaridan kelib chiqadigan ma'lumotlar oqimining ko'payishiga javoban kiritildi, chunki UniProtKB / Swiss-Prot vaqt va mehnat talab qiladigan qo'lda izohlash jarayoni mavjud bo'lgan barcha proteinlar ketma-ketligini o'z ichiga olgan holda kengaytirilmadi.[10] Izohlangan kodlash ketma-ketligining tarjimalari EMBL-Bank / GenBank / DDBJ nukleotidlar ketma-ketligi ma'lumotlar bazasi avtomatik ravishda qayta ishlanadi va UniProtKB / TrEMBL-ga kiritiladi.UniProtKB / TrEMBL shuningdek ketma-ketlikni o'z ichiga oladi PDBva genlarni bashorat qilishdan, shu jumladan Ansambl, RefSeq va CCDS.[16]
UniParc
UniProt arxivi (UniParc) - bu keng tarqalgan va keraksiz ma'lumotlar bazasi bo'lib, unda asosiy, ommaga ma'lum bo'lgan oqsillar ketma-ketligi ma'lumotlar bazalaridagi barcha oqsillar ketma-ketliklari mavjud.[17] Proteinlar bir nechta turli xil ma'lumotlar bazalarida va bir xil ma'lumotlar bazasida bir nechta nusxada mavjud bo'lishi mumkin. Ishdan bo'shatilmaslik uchun UniParc har bir noyob ketma-ketlikni faqat bir marta saqlaydi. Xuddi shu ketma-ketliklar bir xil yoki turli xil turlardan bo'lishidan qat'iy nazar birlashtiriladi. Har bir ketma-ketlikka barqaror va noyob identifikator (UPI) beriladi, shu bilan turli xil ma'lumotlar bazalaridan bir xil oqsilni aniqlash mumkin bo'ladi. UniParc tarkibida izohsiz faqat oqsillar ketma-ketligi mavjud. UniParc yozuvlaridagi ma'lumotlar bazasining o'zaro ma'lumotnomalari oqsil haqidagi qo'shimcha ma'lumotlarni manba ma'lumotlar bazasidan olish imkonini beradi. Ma'lumotlar bazalaridagi ketma-ketliklar o'zgarganda, bu o'zgarishlar UniParc tomonidan kuzatiladi va barcha o'zgarishlar tarixi arxivlanadi.
Manba ma'lumotlar bazalari
Hozirda UniParc quyidagi umumiy ma'lumotlar bazalaridan oqsillar ketma-ketligini o'z ichiga oladi:
INSDC EMBL-Bank /DDBJ/GenBank nukleotidlar ketma-ketligi ma'lumotlar bazalari
Ansambl
Evropa Patent idorasi (EPO)
FlyBase: Drosophilidae hasharotlar oilasi uchun genetik va molekulyar ma'lumotlarning asosiy ombori (FlyBase)
H-Invitational ma'lumotlar bazasi (H-Inv)
Xalqaro oqsil indeksi (IPI)
Yaponiya Patent idorasi (JPO)
Proteinli ma'lumot manbai (PIR-PSD)
Protein ma'lumotlar banki (PDB)
Protein tadqiqot fondi (PRF)[18]
RefSeq
Saccharomyces Genom ma'lumotlar bazasi (SGD)
Arabidopsis axborot resursi (TAIR)
TROME[19]
AQSh Patent idorasi (USPTO)
UniProtKB / Swiss-Prot, UniProtKB / Swiss-Prot oqsil izoformalari, UniProtKB / TrEMBL
Umurtqali hayvonlar va genomni izohlash uchun ma'lumotlar bazasi (VEGA)
WormBase
UniRef
UniProt Reference klasterlari (UniRef) UniProtKB dan olingan oqsillar ketma-ketligi to'plamlarining uchta ma'lumotlar bazasidan va tanlangan UniParc yozuvlaridan iborat.[20] UniRef100 ma'lumotlar bazasi bir xil ketma-ketliklar va ketma-ketlik qismlarini birlashtiradi (istalganidan organizm) yagona UniRef yozuviga. Vakil oqsilning ketma-ketligi, qo'shilish raqamlari barcha birlashtirilgan yozuvlar va tegishli UniProtKB va UniParc yozuvlariga havolalar ko'rsatiladi. UniRef100 ketma-ketliklari CD-HIT yordamida klasterlangan algoritm UniRef90 va UniRef50-ni yaratish.[20][21] Har bir klaster kamida 90% yoki 50% ketma-ketlik identifikatoriga ega bo'lgan ketma-ketliklardan iborat bo'lib, eng uzun ketma-ketlikka qadar. Klasterlash ketma-ketligini tezroq izlashga imkon beruvchi ma'lumotlar bazasining hajmini sezilarli darajada kamaytiradi.
UniRef-ni UniProt FTP sayti.
Moliyalashtirish
UniProt grantlari hisobidan moliyalashtiriladi Milliy genom tadqiqot instituti, Milliy sog'liqni saqlash institutlari (NIH), Evropa komissiyasi, Shveytsariya Federal hukumati Federal Ta'lim va fan idorasi orqali, NCI-caBIGva AQSh Mudofaa vazirligi.[11]
Adabiyotlar
^ UniProt, konsortsium. (Yanvar 2015). "UniProt: oqsil haqida ma'lumot beruvchi markaz". Nuklein kislotalarni tadqiq qilish. 43 (Ma'lumotlar bazasi muammosi): D204–12. doi:10.1093 / nar / gku989. PMC 4384041. PMID 25348405.
^ Dayhoff, Margaret O. (1965). Oqsillar ketma-ketligi va tuzilishi atlasi. Silver Spring, MD: Milliy biomedikal tadqiqot fondi.
^ "2002 yil nashr: NHGRI Global Proteinlar Ma'lumotlar Bazasi". Milliy genom tadqiqot instituti (NHGRI). Olingan 14 aprel 2018.
^ O'Donovan, C .; Martin, M. J .; Gattiker, A .; Gasteiger, E .; Bayroch, A .; Apweiler, R. (2002). "Yuqori sifatli oqsil ma'lumotlari manbai: SWISS-PROT va TrEMBL". Bioinformatika bo'yicha brifinglar. 3 (3): 275–284. doi:10.1093 / bib / 3.3.275. PMID 12230036.
^ Vu, C. X.; Yeh, L. S .; Xuang, X.; Arminski, L .; Kastro-Alvear, J .; Chen, Y .; Xu, Z.; Kurtesis, P.; Ledli, R. S .; Suzek, B. E .; Vinayaka, C. R .; Chjan, J .; Barker, W. C. (2003). "Proteinli axborot manbai". Nuklein kislotalarni tadqiq qilish. 31 (1): 345–347. doi:10.1093 / nar / gkg040. PMC 165487. PMID 12520019.
^ Boeckmann, B .; Bayroch, A .; Apvayler, R .; Blatter, M. C .; Estreher, A .; Gasteiger, E .; Martin, M. J .; Mikud, K .; O'Donovan, C .; Phan, I .; Pilbout, S .; Schneider, M. (2003). "2003 yilda SWISS-PROT oqsil ma'lumot bazasi va uning qo'shimchasi TrEMBL". Nuklein kislotalarni tadqiq qilish. 31 (1): 365–370. doi:10.1093 / nar / gkg095. PMC 165542. PMID 12520024.
^ Bayroch, A .; Apweiler, R. (1996). "SWISS-PROT oqsillar ketma-ketligi banki va uning yangi qo'shimchasi TREMBL". Nuklein kislotalarni tadqiq qilish. 24 (1): 21–25. doi:10.1093 / nar / 24.1.21. PMC 145613. PMID 8594581.
^ Bayroch, A. (2000). "Bioinformatikada barqarorlik, shveytsariyalik bioinformatikning hayajonli vaqtlaridagi azoblari!". Bioinformatika. 16 (1): 48–64. doi:10.1093 / bioinformatika / 16.1.48. PMID 10812477.
^ Séverine Altairac, "Naissance d'une banque de données: Intervyu du prof. Amos Bayroch". Protéines a la Une, 2006 yil avgust. ISSN 1660-9824.
^ a b v Apvayler, R .; Bayroch, A .; Vu, C. H. (2004). "Proteinlar ketma-ketligi ma'lumotlar bazalari". Kimyoviy biologiyaning hozirgi fikri. 8 (1): 76–80. doi:10.1016 / j.cbpa.2003.12.004. PMID Entsiklopediya site:uz.wikisko.ru
InterPro - ma'lum oqsillar tarkibidagi aniqlanadigan xususiyatlar yangi oqsillar ketma-ketligiga tatbiq etilishi mumkin bo'lgan oqsillar oilalari, domenlari va funktsional joylari ma'lumotlar bazasi.[2] ularni funktsional xarakterlash uchun.[3][4]
InterPro-ning tarkibi diagnostika imzolari va ular sezilarli darajada mos keladigan oqsillardan iborat. Imzolar modellardan iborat (oddiy turlari, masalan doimiy iboralar yoki undan murakkab bo'lganlar, masalan Yashirin Markov modellari) proteinlar oilalari, domenlari yoki saytlarini tavsiflovchi. Modellar ma'lum oilalar yoki domenlarning aminokislotalar ketma-ketligidan tuzilgan va keyinchalik ularni tasniflash uchun noma'lum ketma-ketliklarni (masalan, yangi genomlar ketma-ketligidan kelib chiqadigan) qidirishda foydalaniladi. InterPro-ning har bir a'zosi ma'lumotlar bazalari juda yuqori darajadagi, tuzilmalarga asoslangan tasniflardan (boshqa joylarga) yordam beradi (SUPERFAMILYA va CATH-Gene3D) juda aniq pastki oilaviy tasniflarga (PRINTLAR va PANTHER).
InterPro-ning maqsadi - har xil ma'lumotlar bazalari tomonidan ishlab chiqarilgan barcha imzolar InterPro ma'lumotlar bazasidagi yozuvlarga joylashtirilgan oqsillarni tasniflash uchun yagona oyna xizmatini ko'rsatishdir. Teng domenlarni, saytlarni yoki oilalarni aks ettiruvchi imzolar bir xil yozuvga kiritiladi va yozuvlar bir-biri bilan ham bog'liq bo'lishi mumkin. Tavsif, izchil ismlar va kabi qo'shimcha ma'lumotlar Gen ontologiyasi (GO) atamalari, iloji bo'lsa, har bir yozuv bilan bog'liq.
Mundarija
1 InterPro-dagi ma'lumotlar
1.1 InterPro a'zolarining ma'lumotlar bazalari
2 Kirish
3 Shuningdek qarang
4 Adabiyotlar
5 Tashqi havolalar
InterPro-dagi ma'lumotlar
InterPro uchta asosiy ob'ektni o'z ichiga oladi: oqsillar, imzolar ("usullar" yoki "modellar" deb ham yuritiladi) va yozuvlar. Tarkibidagi oqsillar UniProtKB shuningdek, InterPro-ning markaziy oqsillari. Ushbu oqsillarga qaysi imzolar sezilarli darajada mos kelishiga oid ma'lumotlar ketma-ketlik UniProtKB tomonidan chiqarilganligi sababli hisoblab chiqiladi va natijalar jamoatchilikka taqdim etiladi (quyida ko'rib chiqing). Imzolarning InterPro yozuvlariga qanday qilib birlashtirilganligini belgilaydigan imzolarning oqsillarga to'g'ri keladiganligi: mos keladigan oqsillar to'plamlarining taqqoslangan ustma-ust tushishi va ketma-ketlikdagi imzolarning uyg'unligi qarindoshlik ko'rsatkichi sifatida ishlatiladi. Faqatgina sifatli imzolar InterPro-ga qo'shiladi.
InterPro shuningdek uchun ma'lumotlarni o'z ichiga oladi qo'shilish variantlari va UniParc va UniMES ma'lumotlar bazalarida mavjud bo'lgan oqsillar.
InterPro a'zolarining ma'lumotlar bazalari
InterPro-dan imzolar quyida keltirilgan 14 ta "ma'lumotlar bazalari" dan olingan.
CATH-Gene3D
to'liq genomlarda oqsil oilalari va domen me'morchiligini tasvirlaydi. Proteinlar oilalari Markov klasterizatsiya algoritmi yordamida shakllantiriladi, so'ngra ketma-ketlik identifikatoriga ko'ra ko'p bog'lanishli klasterlash amalga oshiriladi. Bashorat qilingan tuzilma va ketma-ketlik domenlarini xaritalash Markov modellarining kutubxonalari vakili bo'lgan yashirin Markov modellari yordamida amalga oshiriladi KATH va Pfam domenlar. Funktsional izoh ko'p manbalardan olingan oqsillarga beriladi. Domen me'morchiligini funktsional bashorat qilish va tahlil qilish Gene3D veb-saytida mavjud.
CDD
Konservalangan_Domain_Database qadimgi domenlar va to'liq uzunlikdagi oqsillar uchun izohlangan ko'p ketma-ketlikni moslashtirish modellari to'plamidan tashkil topgan oqsil izohlash manbai. Ular RPS-BLAST orqali oqsillar ketma-ketligidagi konservalangan domenlarni tezkor aniqlash uchun pozitsiyaga xos skor matritsalari (PSSM) sifatida mavjud.
HAMAP
mikrobial oqsillarni yuqori sifatli avtomatlashtirilgan va qo'lda izohlash degan ma'noni anglatadi. HAMAP profillari mutaxassis kuratorlar tomonidan qo'lda yaratilgan bo'lib, ular yaxshi saqlanib qolgan bakterial, arxeoal va plastid bilan kodlangan (ya'ni xloroplastlar, siyanellar, apikoplastlar, fotosintetik bo'lmagan plastidlar) oqsillar oilalari yoki subfamilyalari tarkibiga kiradigan oqsillarni aniqlaydi.
MobiDB
oqsillarning ichki buzilishini izohlovchi ma'lumotlar bazasi.
PANTHER
inson tajribasidan foydalangan holda, funktsional jihatdan bog'liq subfamilalarga bo'lingan oqsil oilalarining katta to'plamidir. Ushbu subfamiliyalar oqsil oilalaridagi aniq funktsiyalarning divergentsiyasini modellashtiradi, bu funktsiya bilan aniqroq bog'lanishni ta'minlaydi (odam tomonidan tuzilgan molekulyar funktsiya va biologik jarayon tasniflari va yo'l diagrammasi), shuningdek funktsional o'ziga xoslik uchun muhim bo'lgan aminokislotalarning xulosasi. Yashirin Markov modellari (HMM) har bir oila va subfamiliya uchun qo'shimcha oqsillar ketma-ketligini tasniflash uchun qurilgan.
Pfam
ko'plab umumiy oqsil domenlari va oilalarini qamrab olgan bir nechta ketma-ketlik va yashirin Markov modellarining katta to'plamidir.
PIRSF
oqsillarni tasniflash tizimi - bu to'la uzunlikdagi oqsillar va domenlarning evolyutsion munosabatlarini aks ettiruvchi superfamilalardan subfamiliyalargacha bo'lgan ketma-ketlikning xilma-xilligi darajasiga ega bo'lgan tarmoq. Birlamchi PIRSF tasniflash birligi gomomorfik oiladir, uning a'zolari ham homolog (umumiy ajdoddan rivojlangan), ham gomomorfikdir (to'liq uzunlikdagi ketma-ketlik o'xshashligi va umumiy domen arxitekturasini baham ko'rishadi).
PRINTLAR
oqsil barmoq izlari to'plamidir. Barmoq izi - bu oqsillar oilasini tavsiflash uchun ishlatiladigan konservalangan motiflar guruhi; uning diagnostik kuchi UniProt-ni takroriy skanerlash orqali yaxshilanadi. Odatda motiflar bir-biriga mos kelmaydi, lekin ketma-ketlik bo'yicha ajratiladi, garchi ular 3D-kosmosda qo'shni bo'lishi mumkin. Barmoq izlari oqsil burmalari va funktsiyalarini bitta motifga qaraganda moslashuvchanroq va kuchliroq kodlashi mumkin, bu ularning to'liq diagnostik kuchi motif qo'shnilarining o'zaro kontekstidan kelib chiqadi.
ProDom
domen ma'lumotlar bazasi gomologik domenlarning avtomatik yig'ilishidan iborat. ProDom-ning amaldagi versiyalari PSI-BLAST rekursiv qidiruvlari asosida yangi protsedura yordamida tuzilgan.
PROSITE
proteinlar oilalari va domenlari ma'lumotlar bazasi. Bu biologik ahamiyatga ega joylar, naqshlar va profillardan iborat bo'lib, ular qaysi ma'lum oqsillar oilasiga (agar mavjud bo'lsa) yangi ketma-ketlikni ishonchli aniqlashga yordam beradi.
Aqlli
genetik jihatdan harakatchan domenlarni aniqlash va izohlash hamda domen me'morchiligini tahlil qilishga imkon beradi. Signal, hujayradan tashqari va xromatin bilan bog'liq oqsillarda topilgan 800 dan ortiq domen oilalari aniqlanadi. Ushbu domenlar filetik taqsimotlarga, funktsional sinfga, uchinchi darajali tuzilmalarga va funktsional jihatdan muhim qoldiqlarga nisbatan keng izohlangan.
SUPERFAMILYA
bu ma'lum tuzilishdagi barcha oqsillarni aks ettiruvchi yashirin Markov modellari kutubxonasi. Kutubxona SCOP oqsillarni tasnifi: har bir model SCOP domeniga mos keladi va butun SCOPni namoyish etishga qaratilgan superfamily domen tegishli. SUPERFAMILY barcha to'liq ketma-ket genomlarga tizimli topshiriqlarni bajarish uchun ishlatilgan.
SFLD
TIGRFAMlar
bu ketma-ket homologiyaga asoslangan funktsional jihatdan bog'liq bo'lgan oqsillarni aniqlash vositasini taqdim etadigan, bir nechta ketma-ketlikni moslashtirish, Markovning yashirin modellari (HMM) va izohlarni o'z ichiga olgan proteinlar oilalari to'plamidir. "Ekvivaloglar" bo'lgan yozuvlar funktsiyaga nisbatan saqlanib qolgan gomologik oqsillarni birlashtiradi.
Kirish
Ma'lumotlar bazasi veb-server orqali matn va ketma-ketlik asosida qidirish va noma'lum FTP orqali yuklab olish uchun mavjud. Boshqalar singari EBI ma'lumotlar bazalari, u jamoat mulki, chunki uning mazmuni "har qanday shaxs tomonidan va har qanday maqsadda" ishlatilishi mumkin.[5]
Foydalanuvchilar imzolarni skanerlash dasturidan ham foydalanishlari mumkin, InterProScan, agar ular xarakteristikani talab qiladigan yangi ketma-ketliklarga ega bo'lsa.[6] InterProScan tez-tez ishlatiladi genom loyihalari qiziqish genomining "birinchi o'tish" xarakteristikasini olish uchun.[7][8] 2013 yil fevral oyidan boshlab, InterProScan (v4.x) ning ommaviy versiyasi Perl asosidaammo, Java-ga asoslangan yangi arxitektura ishlab chiqilmoqda, bu InterProScan v5 ning asosini tashkil qiladi.[9]
InterPro har 8 haftada, odatda UniProtKB bir xil oqsillar chiqarilgandan bir kun ichida ma'lumotlarni ommaga etkazishni maqsad qilgan.Entsiklopediya site:uz.wikisko.ru
Do'stlaringiz bilan baham: |