5-qadam: Tozalangan ma'lumotlarning teskari oqimi. Alohida manba xatolari olib tashlanganidan so'ng, asl manbalardagi ifloslangan ma'lumotlar toza ma'lumotlar bilan almashtirilishi kerak, shunda yaxshilangan ma'lumotlar eski ilovalarga ham etib boradi va olinganda qo'shimcha tozalashni talab qilmaydi. Vaults uchun tozalangan ma'lumotlar ma'lumotlarni saqlash maydonida joylashgan.
Ushbu konvertatsiya jarayoni katta hajmdagi metama'lumotlarni (sxemalar, sxema darajasidagi ma'lumotlar xususiyatlari, ish oqimi ta'riflari va boshqalar) talab qiladi. Boshqa hollarda barqarorlik, moslashuvchanlik va foydalanish qulayligi uchun ushbu metama'lumotlar DBMSga asoslangan omborda saqlanishi kerak. Ma'lumotlar sifatini saqlab qolish uchun transformatsiya jarayonining tafsilotlari ham omborda , ham o'zgartirilgan ma'lumotlar ob'ektlarida, xususan, asl ma'lumotlarning to'liqligi va yangiligi va o'zgartirilgan ob'ektlarning asl manbasi haqidagi ma'lumotlarning kelib chiqishi to'g'risidagi ma'lumotlar yozilishi kerak. ularga kiritilgan o'zgarishlar.
Quyida ma'lumotlarni tahlil qilishning mumkin bo'lgan usullari (nizolarni aniqlash), o'zgarishlarni aniqlash va nizolarni hal qilish batafsil tavsiflanadi. Nomlash ziddiyatlari odatda nomni o'zgartirish orqali hal qilinadi; tarkibiy ziddiyatlar qisman qayta qurish va dastlabki sxemalarni birlashtirishni talab qiladi.
Asosiy tendentsiya ma'lumotlar to'plamidagi xususiyatning barcha qiymatlarini eng yaxshi tavsiflovchi raqamni tanlashdir. Bu raqamning ham afzalliklari, ham kamchiliklari bor. Biz ushbu o'lchovning ikkita xususiyatini ko'rib chiqamiz, ya'ni: o'rtacha va median, bu tushunchalar biz tomonidan keyingi ma'ruzalarda qo'llaniladi.
asosiy maqsadi keyingi tahlil qilish, taqqoslash va taqqoslash uchun ma'lumotlar to'plamini taqdim etishdir.
O'rtacha qiymat osongina hisoblab chiqiladi va undan keyingi tahlil uchun foydalanish mumkin. U intervalli shkala bo'yicha o'lchangan ma'lumotlar uchun va tartibli shkala bo'yicha o'lchangan ba'zi ma'lumotlar uchun hisoblanishi mumkin. O'rtacha ma'lumotlar to'plamining o'rtacha arifmetik qiymati sifatida hisoblanadi: barcha tanlama qiymatlarining yig'indisi namuna hajmiga bo'linadi. Ma'lumotlarni shu tarzda "siqish" orqali biz juda ko'p ma'lumotlarni yo'qotamiz.
O'rtacha qiymat juda ma'lumotli va o'rganilayotgan barcha ma'lumotlar to'plami bo'yicha xulosa chiqarishga imkon beradi. O'rtacha yordamida biz bir nechta ma'lumotlar to'plamini yoki ularning qismlarini solishtirish imkoniyatiga ega bo'lamiz.
Ma'lumotlarni tahlil qilishda o'rtachani suiiste'mol qilmaslik kerak, uning xususiyatlari va cheklovlarini hisobga olish kerak. "Kasalxonadagi o'rtacha harorat" yoki "uyning o'rtacha balandligi" xususiyatlari ma'lum bo'lib, ba'zi holatlar uchun markaziy tendentsiyaning ushbu o'lchovidan foydalanish noto'g'riligini ko'rsatadi .
O'rtacha xususiyatlar. O'rtachani hisoblashda etishmayotgan ma'lumotlar qiymatlariga yo'l qo'yilmaydi . O'rtachani faqat raqamli ma'lumotlar va dichotomous shkalalar uchun hisoblash mumkin. Bitta ma'lumot to'plami uchun bitta va faqat bitta o'rtacha qiymat hisoblanishi mumkin .
O'zgaruvchining o'rtacha qiymatining axborot mazmuni , agar uning ishonch oralig'i ma'lum bo'lsa, yuqori bo'ladi. O'rtacha ishonch oralig'i - bu ma'lum ishonch darajasida "haqiqiy" o'rtacha aholi yotadigan taxmin atrofidagi interval. Ishonch oraliqlarini hisoblash kuzatilgan qiymatlar normal degan taxminga asoslanadi.
Ishonch oralig'ining kengligi namuna hajmiga va ma'lumotlarning tarqalishiga bog'liq.
Namuna hajmi oshgani sayin o'rtacha taxminning aniqligi ortadi. Namuna qiymatlarining tarqalishi ortishi bilan o'rtacha ishonchlilik pasayadi. Agar namuna hajmi etarlicha katta bo'lsa, namunaning normal bo'lishidan qat'i nazar, o'rtacha sifat oshadi.
Median - bu namunaning aniq o'rtasi, uni kuzatishlar soniga ko'ra ikkita teng qismga ajratadi .
Medianni topishning zaruriy sharti namunani tartiblashdir.
Shunday qilib, toq sonli kuzatishlar uchun mediana raqamlangan (n + 1)/ 2 kuzatuv hisoblanadi, bunda n - namunadagi kuzatuvlar soni.
Juft sonli kuzatishlar uchun median n/2 va (n+ 2)/ 2 kuzatuvlarning o‘rtacha qiymati hisoblanadi.
Medianning ayrim xossalari. Bitta ma'lumotlar to'plami uchun bitta va faqat bitta median qiymatni hisoblash mumkin.
To'liq bo'lmagan ma'lumotlar to'plami uchun medianani ish raqamlarini tartibda, umumiy holatlar sonini va ma'lumotlar to'plamining o'rtasida joylashgan bir nechta qiymatlarni bilish orqali hisoblash mumkin.
Namuna olish ma'lumotlarni tahlil qilishning keng tarqalgan usuli hisoblanadi. Butun ma'lumotlar to'plamini tahlil qilish o'rniga, namuna olish uning faqat bir qismini ko'rib chiqadi.
Noyob foydalanuvchi harakati ko'rsatkichlari - bu harakatlarga emas, balki noyob foydalanuvchilar soniga qarab hisoblangan ko'rsatkichlar.
Ushbu ko'rsatkichlarning aksariyati nomlarida "noyob" so'zi mavjud (masalan, "Noyob havolalarni bosish"), bu ularni aniqlashni osonlashtiradi. Ushbu ko'rsatkichlar uchun tanlovlardan foydalangan holda, tizim kerakli reklama ma'lumotlarini imkon qadar tezroq taqdim etishi mumkin. "Taassurotlar" yoki "Kliklar" kabi noyob bo'lmagan ko'rsatkichlar tanlanmaydi. Bunday holda, ko'rinadigan ko'rsatkichlar barcha mavjud ma'lumotlarga asoslanadi.
Ma'lumotlarning o'zgarishining xususiyatlari.Namunaning eng oddiy xarakteristikalari maksimal va minimaldir.
Minimal - eng kichik namuna qiymati.
Maksimal - namunadagi eng katta qiymat.
Diapazon - namunadagi eng katta va eng kichik qiymatlar orasidagi farq.
Dispersiya - qiymatlarning o'rtacha qiymatidan chetlanish kvadratlarining arifmetik o'rtachasi.
Standart og'ish - namunaviy dispersiyaning kvadrat ildizi - ma'lumotlar nuqtalarining o'rtachaga nisbatan qanchalik keng tarqalganligini ko'rsatadigan o'lchovdir.
Kurtoz taqsimotning "cho'qqisining keskinligi" ni ko'rsatadi, oddiy taqsimotga nisbatan taqsimlanishning nisbiy aniqligini yoki silliqligini tavsiflaydi. Ijobiy kurtoz nisbatan keskin taqsimlanishni ko'rsatadi (cho'qqi ko'rsatilgan). Salbiy kurtoz nisbatan silliq taqsimlanishni bildiradi (cho'qqisi yumaloq).
Agar kurtoz noldan sezilarli darajada farq qilsa, u holda taqsimot odatdagidan ko'ra yumaloqroq cho'qqiga ega yoki aksincha, keskinroq cho'qqiga ega (ehtimol bir nechta cho'qqilar bo'lishi mumkin). Oddiy taqsimotning kurtozi nolga teng.
Asimmetriya yoki assimetriya taqsimotning nosimmetrikdan og'ishini ko'rsatadi. Agar egrilik noldan sezilarli farq qilsa, u holda taqsimot assimetrik, normal taqsimot mutlaqo simmetrikdir. Agar taqsimot uzun o'ng quyruqga ega bo'lsa, egrilik ijobiy bo'ladi; agar uzun chap quyruq salbiy bo'lsa.
Emissiya ( chiqibiy ko'rsatkichlar ) - ma'lumotlarning asosiy sonidan keskin farq qiluvchi ma'lumotlar .
Chet elliklar aniqlanganda, tadqiqotchi ikkilanishga duch keladi: kuzatuv-chiqibiylarni qoldirish yoki ularni rad etish. Ikkinchi variant jiddiy argument va tavsifni talab qiladi. Axborotlarni chetlab o'tilgan va ularsiz tahlil qilish va natijalarni solishtirish foydali bo'ladi .
Shuni esda tutish kerakki, statistik tahlilning klassik usullarini qo'llashda, qoida tariqasida, mustahkam (barqaror) bo'lmagan, ma'lumotlar to'plamida chet elliklarning mavjudligi noto'g'ri natijalarga olib keladi. Agar ma'lumotlar to'plami nisbatan kichik bo'lsa, tahlil natijalariga sezilarli ta'sir ko'rsatishi mumkin bo'lgan ma'lumotlardan tashqarida.
mavjudligi tizimli xatolik, kiritish xatolari, ma'lumotlarni yig'ish xatolari va boshqalar bilan bog'liq bo'lgan "o'zgartirilgan" qiymatlarning paydo bo'lishi bilan bog'liq bo'lishi mumkin. Ba'zan, ma'lumotlar to'plamidagi eng kichik va eng katta qiymatlarni o'z ichiga olishi mumkin.