DDBJ tizimini yangilash
An'anaviy yig'ilgan DDBJ ketma-ketliklari uchun ro'yxatdan o'tish
tizimlari yangilandi. Biz an'anaviy ddbj ma'lumotlar bazasiga ikkita ma'lumot
tizimini taqdim etamiz: (i) nukleotid ketma-ketliklarni taqdim etish tizimi
(NSSS; 5) va (II) ommaviy vakillik tizimi (MSS; 21 ). NSSS veb-forma orqali
barcha ma'lumotlarni kiritish imkonini beruvchi interaktiv dasturdir
http://www.ddbj.nig.ac.jp/sub/websub-e.html . MSS-katta ma'lumotlar fayllarini
to'g'ridan-to'g'ri yuborish tartibi, http://www.ddbj.nig.ac.jp/sub/mss_flow-
e.html.
Har ikkala tizim ham xususiyat va kvalifikatorlardan foydalanishning
yangi qoidalarini qo'llash uchun takomillashtirildi. Yuqorida aytib o'tilganidek,
DDBJ da TSA tomonidan taqdim etilgan ma'lumotlarning miqdori keskin
ravishda oshdi va 100 000 ketma-ketligi bilan ajralib turardi. Shuning uchun biz
TSA uchun bunday ommaviy arizalarni qabul qilish uchun DDBJ ro'yxatga
olish raqamlarini belgilash tizimini takomillashtirishga qaror qildik. 2015-
yilning oktyabr oyidan boshlab DDBJ DDBJ da taqdim etilgan tsa ma'lumotlari
uchun WGS ma'lumotlariga o'xshash to'rtta harfli prefiksli inventarizatsiya
raqamlarini tayinlaydi. 2015 yil noyabr oyida ddbj birinchi marta to'rt harfli
IAAA prefiksi ( IAAA01000001-IAAA01132843) bilan TSA ma'lumotlarini
chiqardi (jadval.(Jadval 1).1). Bundan tashqari, tsa ma'lumotlarining anonim
FTP saytiga qarang, ftp://ftp.ddbj.nig.ac.jp/ddbj_database/tsa/.
Ketma-ketlikni tahlil qilish xizmatlari
NIG superkompyuteri ketma-ketlikni tahlil qilish platformasi sifatida
DDBJ markazi keng miqyosli ketma-ketlik ma'lumotlarini tahlil qilishga
ixtisoslashgan NIG superkompyuterini boshqaradi. NIG superkompyuteri ddbj
ma'lumotlar bazalari va tahlil xizmatlarini yaratish uchun hisoblash
infratuzilmasini taqdim etadi, shuningdek, tadqiqotchilarga keng miqyosli
ma'lumotlarni tahlil qilish va superkompyuter muhitini taqdim etadi. Hozirgi
vaqtda NIG superkompyuteri ikkita kompyuter tizimidan iborat: (i) faza 1
tizimi, 2012 yilda taqdim etilgan va (II) faza 2 tizimi, 2014 yilda ishlab
chiqarishga joriy etilgan. Faza 1 tizimi umumiy maqsadli hisoblash tugunlaridan
iborat. (352 yupqa tugun, 64 GB xotira bilan har bir; Intel Xeon E5-2670 5632
Core, 117,14 Tflops protsessor umumiy cho'qqisi ishlashi) va de novosbork
ketma-ket, shu jumladan, xotira intensiv foydalanish vazifalari: ikki o'rta
tugunni, 2 sil xotira (HP DL980G7 bilan har bir: Intel Xeon E7-4870 160 yadro,
1,22 Tflops jami) va 10 TB xotira (SGI UV1000: Intel Xeon E7-8837) bilan
bitta qalin tugun. O'tish: saytda harakatlanish, qidiruv 64 nozik tugunlarining
umumiy maqsadli nozik hisoblash tugunlarida NVIDIA Tesla M2090 GPGPU
mavjud. 2 fazasi 202 nozik tugunni o'z ichiga oladi, ularning har biri 64 GB
xotira (Intel Xeon E5-2680v2 4040 yadrolari, jami 90 Tflops) va sakkizta o'rta
tugun (1 bosqichi bilan bir xil). Har bir tizimdagi hisoblash tugunlari yog '
daraxtining to'liq topologiyasi yordamida InfiniBand (1 bosqichida QDR va 2
bosqichida FDR) bilan o'zaro bog'liq. Katta ma'lumotlarni tahlil qilishda
ommaviy i / u ni qo'llab-quvvatlash uchun NIG superkompyuteri 7 PB bilan
parallel ravishda taqsimlangan Lustre fayl tizimi bilan jihozlangan (
http://www.lustre.org ). 5,5 PB uchun MAID tizimi dra va JGA , shu jumladan
Sequence Read Archive ma'lumotlarini arxivlash uchun ishlatiladi. NIG
superkompyuterining foydalanuvchilari soni 2016-dan 1-iyun 2015-ga 2532-ga
31-may 2016-ga oshdi. Foydalanuvchi hisobini berish mezonlari veb-sahifada
ko'rsatilgan ( https://sc.ddbj.nig.ac.jp/index . .php/en/criteria-for-issuing-user-
login-accounts ). Nig superkompyuteridagi qo'llab-quvvatlanadigan analitik
vositalar va ommaviy ma'lumotlar to'plamlari, nig superkompyuterining asosiy
sahifasida ko'rsatilgandek, NIG superkompyuter foydalanuvchilari uchun qulay
kirish uchun tizimda ko'plab mashhur vositalar va bioinformatika kutubxonalari
o'rnatildi ( http://sc.ddbj.nig.ac.jp/index.php o'tish: saytda harakatlanish, qidiruv
Oldindan bajarilgan tahlil oqimini ko'paytirishga yordam berish uchun analitik
vositalarning turli versiyalari kataloglarga turli yo'llar bilan o'rnatiladi. Ushbu
analitik vositalar uchun NIG superkompyuteridagi oldindan o'rnatilgan
ma'lumotlar to'plamlari veb-sahifada keltirilgan
(
http://sc.ddbj.nig.ac.jp/index.php/ja-availavle-dbs
).
WebBLAST,
ClustalW, VecScreen, ARSA va bioinformatika veb-API (WABI)DDBJ
markazi
Web
BLAST
,ClustalW
va
VecScreen
(
http://www.ncbi.nlm.nih.gov/tools/vecscreen/univec
), bu veb-interfeyslardan
so'rovlarni oladi. DDBJ markazi, shuningdek, bioinformatika (WABI) veb-API-
ni keng miqyosli ma'lumotlarni tahlil qilish va RESTful veb-API xizmatini
taqdim etadi. WABI xizmati BLAST, VecScreen, ClustalW, MAFFT,
inventarizatsiya raqamlari bo'yicha getentry ma'lumotlar qidirish tizimi va Arsa
kalit so'z qidiruv tizimini tekis DDBJ fayllari uchun o'z ichiga oladi.). Wabi
xizmati yaqinda 7 versiyasining yangi MAFFT xususiyatini (variantlar –add, –
addfragments, –addprofile va –addfull) o'z ichiga olgan bo'lib, ular mavjud
ketma-ketliklarni mavjud hizalamaya qo'shish imkonini beradi. Txsearch
NCBITXSearch
taksonomiya
indeksini
olish
uchun
(
http://ddbj.nig.ac.jp/tx_search/) DDBJ da NCBI taksonomiyasini ko'rish tizimi.
Ushbu ko'rish tizimi ma'lumotlarni jo'natuvchilarga so'z birikmalarini nazorat
qilish uchun insdc-da ishlatiladigan haqiqiy ilmiy nomlarni topishga imkon
beradi. 2012 yilda NIG superkompyuterini almashtirish bilan bog'liq holda, biz
yangi tizimda joylashtirish uchun ochiq manba kodli oraliq dasturiy
ta'minotdagi xizmatlarimizning aksariyatini qayta amalga oshirdik. TXSearch
tizimi Apache Solr va MySQL to'liq matnli qidiruv tizimiga asoslangan.
RESTful veb-API xizmati ham taqdim etiladi. TXSearch-dagi ma'lumotlar
NCBI taksonomiya ma'lumotlar bazasini NCBI FTP saytidan yuklab olish
orqali har kuni yangilanadi ( ftp://ftp.ncbi.nih.gov/pub/taxonomy). Hozirgi
vaqtda txsearch virusi yozuvlari xalqaro virus taksonomiyasi qo'mitasi ( ICTV)
tomonidan chop etilgan 2015 Release Virus Taxonomiyasi yozuvlariga
havolalarni o'z ichiga oladi http://www.ictvonline.org/) rasmda ko'rsatilgandek .
ICTV yozuvlarini txtsearch vositasining virusli taksonomik yozuvlari
bilan bog'lash yaxshilandi. (A ) NCBI taksonomiyasi yozuvida ICTV
yozuvlariga havolalarni kiritish uchun ma'lumotlar oqimining sxematik
diagrammasi. (B) txsearch vositasida virusni yozib olish ekrani. Qizil o'q ICTV
yozuviga havola ko'rsatadi.
DDBJ konveyer uchun virtual mashinaning tasviri.Ddbj (ddbj Pipeline,
http://p.ddbj.nig.ac.jp ) NIG superkompyuterida ishlaydigan yuqori sifatli yangi
avlod veb-izohli tartiblash tizimi. Konveyerning asosiy komponenti mos
yozuvlar genomini va de novo montajini , shuningdek, Galaxy interfeysi orqali
tizimli va funktsional izohlarni tahlil qilish kabi keyingi komponentlarni
xaritalashni osonlashtiradi. 2016 yil mobaynida DDBJ Pipeline ning keyingi
komponenti veb-xizmatdan NIG superkompyuteridan mahalliy Oracle
VirtualBox veb-server va Pitagora-Galaxy jamoat veb-serveri uchun dasturiy
ta'minot tarqatish xizmatiga ko'chirildi ( http://www.pitagora-galaxy.org/).),
doktor Riot Yamanak tomonidan tashkil etilgan. Foydalanuvchilar virtual
mashinani o'z mahalliy muhitida yoki moslashuvchan bulutli muhitda
boshqarishi kerak. Shunday qilib, DDBJ Pipeline xizmati uchun NIG
superkompyuteridagi hisoblash resurslari asosiy va keyingi komponentlardan
faqat asosiy komponentda to'plangan bo'lib, ko'pincha xotiradan intensiv
foydalanishni talab qiladi va vaqt sarflaydigan vazifalarni o'z ichiga oladi. Ddbj
ketma-ketlikdagi annotatsiya yozuvlarining semantik taqdimoti, ketma-ketlik
annotatsiyasi ma'lumotlarini qayta ishlash qobiliyatini yaxshilash uchun ddbj
yozuvlarini DBCLS bilan hamkorlikda resurs ta'rifi Framework ( RDF)
versiyasiga aylantirish uchun tizim ishlab chiqdik. DDBj nukleotid ketma-
ketligining annotatsiyasini semantik tarzda taqdim etish uchun biz ddbj
taksonomiyasining
ontologiyasini
original
organizmning
taksonomik
ma'lumotlarini va DDBJ annotid nukleotid ketma-ketligining ontologiyasini
jo'natuvchilar va havolalar kabi metadata tavsiflari, shuningdek biologik
xususiyatlarning annotatsiyasi (http://ddbj .nig.ac.jp/ontologies/). Ushbu
ontologiyaga asoslangan semantik ma'lumotlardan tashqari, RDF ma'lumotlar
to'plami FALDO ontologiya yordamida ifodalangan semantik munosabatlarni
o'z ichiga oladi.), Semanticscience Integrated Ontology , Sequence Ontology va
Relation Ontology mavjud ddbj yozuvlari va INSDC resurslarida barcha
ma'lumotlarni ko'rsatish uchun. Ddbj ning izohli ketma-ket yozuvlari rdf
versiyasi DDBJ FTP saytida mavjud ( ftp://ftp.ddbj.nig.ac.jp/rdf/).
Do'stlaringiz bilan baham: |