Iyerarxik va to’rli modellarning sxematik ko’rinishi.
Yuqoridagi sxema ko’rinishida ifodalash nisbatan qiyin bo’lgan ma’lumotlar ham bor. Masalan, 9-sinf o’quvchilari haqidagi ma’lumotlarni quyidagi keltirilgan jadval ko’rinishida ifodalash juda qulay.
№
|
Familyasi
|
Ismi
|
Otasining ismi
|
Tug’ilgan sana
|
Telefon raqami
|
Qiziqishi
|
1
|
Azimova
|
Malika
|
Azim qizi
|
1991
|
189-45-34
|
Shaxmat
|
2
|
Begmatov
|
Shahob
|
Bahrom o’g’li
|
1991
|
342-43-41
|
Futbol
|
Ma’lumotlarning bunday ko’rinishi Relyatsion shakl deb yuritiladi.
Ma'lumotlarni saqlash nima?
Ma'lumotlarni saqlash (DW) turli manbalardan ma'lumotlarni to'plash va boshqarish uchun mazmunli biznes-tushunchalarni taqdim etish jarayonidir. Ma'lumotlar ombori odatda heterojen manbalardan biznes ma'lumotlarini ulash va tahlil qilish uchun ishlatiladi. Ma'lumotlar ombori-ma'lumotlarni tahlil qilish va hisobot berish uchun qurilgan BI tizimining o'zagi.
Bu ma'lumotlarning strategik ishlatilishiga yordam beradigan texnologiyalar va komponentlarning aralashmasi. Tranzaktsiyalarni qayta ishlash o'rniga so'rov va tahlil qilish uchun mo'ljallangan biznes tomonidan katta hajmdagi axborotni elektron saqlashdir. Ma'lumotlarni axborotga aylantirish va uni foydalanuvchilarga o'z vaqtida farq qilish jarayonidir.
QCDga bo'lgan ehtiyoj o'tgan asrning 90-yillarida, korxona sektori turli xil biznes ko'rsatkichlarini hisobga olish uchun turli xil axborot tizimlaridan faol foydalanishni boshlaganda paydo bo'ldi. Har bir bunday dastur mahalliy ishlab chiqarish jarayonini avtomatlashtirish muammosini muvaffaqiyatli hal qildi, masalan, buxgalteriya hisob-kitoblarini bajarish, operatsiyalarni o'tkazish, kadrlar bo'yicha tahlil va hk.
Shu bilan birga, bir tizimdagi ma'lumotnoma va tranzaksiya ma'lumotlarini taqdim etish sxemalari (modellari) boshqasidan tubdan farq qilishi mumkin, bu esa ma'lumotlarning nomuvofiqligini keltirib chiqaradi. Biz NSI menejmenti nuqtai nazaridan Ma'lumotlarni boshqarish masalasiga qisman to'xtaldik . Bundan tashqari, ma'lumotlar modellarining xilma-xilligi, barcha amaliy tizimlarning yaxlit tasviri zarur bo'lganda konsolidatsiyalangan hisobotni olishni qiyinlashtiradi. Shuning uchun korporativ ma'lumotlar omborlari (Data Warehouse, DWH) paydo bo'ldi - hisobotlarni konsolidatsiyalashgan tayyorlash, biznesni kompleks tahlil qilish va to'liq axborot rasmiga asoslangan maqbul boshqaruv qarorlari uchun mavzuga asoslangan ma'lumotlar bazalari
DWH ning yuqoridagi ta'rifi ushbu saqlash vositasining aloqadorligini ko'rsatadi. Biroq, siz QCD-ni shunchaki bir-biriga bog'langan ko'plab jadvallarga ega bo'lgan katta ma'lumotlar bazasi deb o'ylamasligingiz kerak. An'anaviy SQL-DBMS-lardan farqli o'laroq, ma'lumotlar ombori LSA - Layered Scalable Architecture deb nomlangan murakkab qatlamli (qatlamli) arxitekturaga ega. Aslida, LSA ma'lumotlar tuzilmalarining mantiqiy bo'linishini bir nechta funktsional darajalarga amalga oshiradi. Ma'lumotlar bir darajadan ikkinchisiga ko'chiriladi va bir vaqtning o'zida o'zgartirilib, natijada tahlil uchun mos bo'lgan izchil ma'lumot shaklida paydo bo'ladi [2] .
Klassik ravishda LSA quyidagi darajalarda amalga oshiriladi [3] :
birlamchi ma'lumotlarning operatsion qatlami (Birlamchi ma'lumotlar qatlami yoki staging), bu erda ma'lumotlar asl sifatida manba tizimlaridan yuklanadi va o'zgarishlarning to'liq tarixi saqlanadi. Saqlashning keyingi qatlamlari ma'lumotlar manbalarining fizik tuzilishidan, ular qanday to'planishidan va o'zgarishlarni qanday aniqlanishidan kelib chiqadi.
Yadro Ma'lumotlar Qatlami - bu turli xil manbalardagi ma'lumotlarni birlashtiradigan, ularni bir xil tuzilmalar va kalitlarga etkazadigan markaziy komponent. Bu erda iste'molchilarni ma'lumot manbalarining mantiqiy tuzilishi xususiyatlaridan va ularni o'zaro taqqoslash zaruriyatidan mavhumlashtirish uchun ma'lumotlar sifati va umumiy transformatsiyalar bilan asosiy ish olib boriladi . Bu ma'lumotlar yaxlitligi va sifatini ta'minlash masalasini hal qiladi.
analitik vitrinalar (Data Mart Layer) , bu erda ma'lumotlar tahlil qilish va BI boshqaruv panellarida yoki boshqa iste'molchilar tizimlarida foydalanish uchun qulay bo'lgan tuzilmalarga aylantiriladi. Ma'lumotlar martlari yadrodan ma'lumotlarni olganda, ular muntazam deb nomlanadi. Agar mahalliy muammolarni tezda hal qilish uchun ma'lumotlarni birlashtirish kerak bo'lmasa, mart operatsion qatlamdan asosiy ma'lumotlarni olishi mumkin va shunga mos ravishda operatsion qatlam deb ataladi. Murakkab hisob-kitoblar va atipik o'zgarishlarning natijalarini taqdim etish uchun ishlatiladigan ikkinchi darajali vitrinalar ham mavjud. Shunday qilib, do'kon peshtaxtalari muayyan biznes xususiyatlari uchun yagona ma'lumotlarning turli xil ko'rinishini taqdim etadi.
Va nihoyat, xizmat qatlami yuqoridagi barcha qatlamlar ustidan nazoratni ta'minlaydi. U biznes ma'lumotlarini o'z ichiga olmaydi, lekin ma'lumotlar sifati bilan ishlash uchun metama'lumotlar va boshqa tuzilmalar bilan ishlaydi, bu ma'lumotlar uchidan uchigacha auditorlik tekshiruvini (ma'lumotlar liniyasi ) amalga oshirishga , o'zgarishlarning deltasini ta'kidlash va yuklashlarni boshqarish uchun umumiy yondashuvlardan foydalanishga imkon beradi. Shuningdek, u xatolarni kuzatish va diagnostika qilish vositalarini taqdim etadi, bu esa muammolarni hal qilishni tezlashtiradi.
Barcha qatlamlar, xizmat ko'rsatish qatlamidan tashqari, doimiy ma'lumotlarni saqlash maydoni va yuklash va o'zgartirish modulidan iborat. Saqlash joylarida ma'lumotlarni o'zgartirish uchun texnik (bufer) jadvallar va iste'molchi kiradigan maqsadli jadvallar mavjud. ETL jarayonlarini yuklash va tekshirilishini qo'llab-quvvatlash uchun maqsadli jadvallar, yadrolar va do'kon peshtaxtalaridagi ma'lumotlar texnik maydonlar (meta-atributlar) bilan belgilanadi [3] . Shuningdek, ular turli xil ob'ektlardan ma'lumotlarni virtual saqlash (saqlashsiz) birlashtirish uchun virtual ma'lumotlar provayderlari qatlamini va maxsus hisobotlarni ajratadilar. Har bir qatlam turli xil saqlash va ma'lumotlarni o'zgartirish texnologiyalari yoki universal mahsulotlar, masalan, SAP NetWeaver Business Warehouse (SAP BW) yordamida amalga oshirilishi mumkin.
Big Data- ning paydo bo'lishi bilan 2010- yillarda e'tibor DWH ko'llarining an'anaviy ma'lumotlaridan ( Data Leyk ) o'tib ketdi. Biroq, quyidagi sabablarga ko'ra ma'lumotlar ko'lini yangi avlod QCD deb hisoblash to'g'ri emas
turli xil maqsadlar - DWH menejerlar, tahlilchilar va boshqa oxirgi biznes foydalanuvchilari tomonidan, ma'lumotlar ko'lidan asosan Data Scientists foydalanadi. Eslatib o'tamiz, Data Leyk tuzilmasiz, deb nomlangan do'konlarni saqlaydi. xom ma'lumotlar: dronlar va kuzatuv kameralaridan olingan videoyozuvlar, transport telemetriyasi, grafik tasvirlar, foydalanuvchi xatti-harakatlari jurnallari, saytlar va axborot tizimlari ko'rsatkichlari, shuningdek, turli xil saqlash formatlariga ega bo'lgan boshqa ma'lumotlar (taqdim etish sxemalari). Ular hali BI tizimidagi kundalik tahlil uchun mos emas, ammo ular Data Scientists tomonidan mashinalarni o'rganish algoritmlaridan foydalangan holda yangi biznes gipotezalarini tezda ishlab chiqish uchun ishlatilishi mumkin [5] ;
dizaynga turli xil yondashuvlar . DWH dizayni ma'lumotlar bilan ishlashning mantiqiy mantig'iga asoslangan - normallashtirilgan omborlar uchun uchinchi normal shakl, o'lchamlari bo'lgan omborxonalar uchun yulduz yoki qor parchasi sxemasi [1] . Ma'lumotlar ko'lini loyihalashda Big Data arxitektori va Data Engineer turli xil formatdagi manbalar va qabul qiluvchilarning xilma-xilligini hisobga olgan holda ETL jarayonlariga ko'proq e'tibor berishadi. Va uni to'g'ridan-to'g'ri saqlash masalasi juda sodda tarzda hal qilindi - sizga faqat ölçeklenebilir, xatolarga chidamli va nisbatan arzon fayl tizimi kerak, masalan, HDFS yoki Amazon S3 [5] ;
nihoyat, narx - odatda Data Lake , Apache Hadoop bilan byudjet serverlari asosida, qimmat litsenziyalar va kuchli uskunalarsiz, SAP, Oracle, Teradata va boshqalar kabi Data Warehouse sinfining ixtisoslashgan platformalarini loyihalashtirish va sotib olishning katta xarajatlaridan farqli o'laroq quriladi .
Shunday qilib, ma'lumotlar koli QCDdan sezilarli darajada farq qiladi. Biroq, Data Leykni qurishda me'moriy LSA yondashuvidan foydalanish mumkin . Masalan, Tinkoff-Bankdagi ma'lumotlar ko'lining asosi sifatida aynan shunday qatlamli inshoot olindi [6] :
RAW darajasida xom ma'lumotlar har xil formatlarda (tsv, csv, xml, syslog, json va boshqalar) saqlanadi;
operatsion darajada (ODD, Operatsion Data Definition), xom ma'lumotlar taxminiy relyatsion formatga aylantiriladi;
tafsilotlar darajasida (DDS, batafsil ma'lumotlar do'koni) batafsil ma'lumotlarning birlashtirilgan modeli to'planadi;
Va nihoyat, MART qatlami ishbilarmon foydalanuvchilar va mashinalarni o'rganish modellari uchun dastur ma'lumotlari marshruti bo'lib xizmat qiladi.
Do'stlaringiz bilan baham: |