Asosiy komponentlarni tahlil qilish muammosi kamida to'rtta asosiy versiyaga ega:
pastki o'lchamdagi chiziqli manifoldlar bilan taxminiy ma'lumotlar;
ma'lumotlarning tarqalishi (ya'ni, o'rtacha qiymatdan o'rtacha kvadrat og'ish) maksimal bo'lgan ortogonal proyeksiyada pastki o'lchamdagi pastki bo'shliqlarni toping;
ortogonal proyeksiyada nuqtalar orasidagi ildiz-o'rtacha kvadrat masofa maksimal bo'lgan pastki o'lchamdagi pastki bo'shliqlarni toping;
berilgan ko'p o'lchovli tasodifiy miqdor uchun koordinatalarning shunday ortogonal o'zgarishini tuzingki, bu alohida koordinatalar orasidagi korrelyatsiya natijasida u nolga aylanadi.
Birinchi uchta versiya cheklangan ma'lumotlar to'plamida ishlaydi. Ular ekvivalentdir va statistik ma'lumotlarni yaratish haqida hech qanday gipotezadan foydalanmaydi. To'rtinchi versiya tasodifiy o'zgaruvchilar bilan ishlaydi. Cheklangan to'plamlar bu erda berilgan taqsimotdan namunalar sifatida paydo bo'ladi va birinchi uchta muammoning echimi "haqiqiy" Karxunen-Loeve konvertatsiyasiga yaqinlashadi. Bu ushbu taxminning to'g'riligi haqida qo'shimcha va umuman ahamiyatsiz bo'lmagan savolni tug'diradi.
Asosiy komponentlar usuli chekli nuqtalar toʻplamini toʻgʻri chiziqlar va tekisliklar orqali eng yaxshi yaqinlashtirish masalasidan boshlandi (K.Pirson, 1901). Vektorlarning chekli to'plami berilgan . Har biri uchun, hamma orasida -dimensional chiziqli manifoldlar yilda, masalan, topish goyat kvadratlar yig'indisi deb kelgan minimal:
,
nuqtadan chiziqli manifoldgacha bo'lgan Evklid masofasi qayerda . Har qanday -dimensional chiziqli manifoldundaki chiziqli birikmalar majmui sifatida belgilangan bo'lishi mumkin parametrlari, real liniyasi orqali ishlaydigan , va vektor bir ortonormal majmui
,
Bu erda Evklid normasi Evklid skalyar mahsuloti yoki koordinatali shaklda:
. ..
Taxminlash masalasining yechimiga ichki o'rnatilgan chiziqli manifoldlar to'plami berilgan , . Ushbu chiziqli manifoldlar ortonormal vektorlar to'plami (asosiy komponentlar vektorlari) va vektor bilan aniqlanadi . Minimallashtirish muammosining yechimi sifatida vektor qidiriladi :
ya'ni
...
Bu namuna o'rtacha :
Fréchet yilda 1948 varyasyonel bir o'zboshimchalik bilan statistik qurish uchun juda qulay hisoblanadi (ma'lumotlar nuqtalari uchun kvadratik masofalarga yig'indisi minimal darajaga tushiradi, deb bir nuqtadan kabi) o'rtacha ta'rifi payqadim metrik makon va bir umumlashtirish qurilgan umumiy bo'shliqlar uchun klassik statistika ( eng kichik kvadratlarning umumlashtirilgan usuli ).
Asosiy komponent vektorlarini bir xil turdagi optimallashtirish muammolariga yechim sifatida topish mumkin :
1)ma'lumotlarni markazlashtirish (o'rtachani olib tashlash) . Endi ;
2) masalaning yechimi sifatida birinchi asosiy komponentni topamiz;
...
Agar yechim noyob bo'lmasa, biz ulardan birini tanlaymiz.
3) Ma'lumotlardan birinchi asosiy komponentga proyeksiyani ayiring:
;
4) masalaning yechimi sifatida ikkinchi asosiy komponentni toping
...
Agar yechim noyob bo'lmasa, biz ulardan birini tanlaymiz.
...
2k-1) proyeksiyani asosiy komponentga ayirish (esda tutingki, oldingi asosiy komponentlarga proyeksiyalar allaqachon ayirib tashlangan):
;
2k) muammoning yechimi sifatida k-bosh komponentni topamiz:
...
Agar yechim noyob bo'lmasa, biz ulardan birini tanlaymiz.
Har bir tayyorgarlik bosqichida oldingi asosiy komponentga proektsiyani olib tashlang. Topilgan vektorlar oddiygina tavsiflangan optimallashtirish masalasini echish natijasida ortonormaldir, ammo hisoblash xatolarining asosiy komponentlar vektorlarining o'zaro ortogonalligini buzishining oldini olish uchun uni optimallashtirish muammosi shartlariga kiritish mumkin .
Belgini tanlashda arzimas o'zboshimchalik bilan bir qatorda ( va ular bir xil muammoni hal qiladi), ta'rifda o'ziga xos bo'lmaganlik muhimroq bo'lishi mumkin va masalan, ma'lumotlar simmetriyasi shartlaridan kelib chiqadi. Oxirgi asosiy komponent barcha oldingilariga ortogonal birlik vektoridir .
Birinchi asosiy komponent ma'lumotlar proyeksiyasining namunaviy farqini maksimal darajada oshiradi
Bizga ma'lumotlar vektorlarining markazlashtirilgan to'plami berilsin ( o'rtacha arifmetik nolga teng). Vazifa quyidagi shartlar to'g'ri bo'ladigan yangi koordinatalar tizimiga shunday ortogonal o'zgartirishni topishdir :
Birinchi koordinata bo'ylab ma'lumotlarning namunaviy tarqalishi maksimal (bu koordinata birinchi asosiy komponent deb ataladi );
Birinchi koordinata ortogonal (ikkinchi asosiy komponent) bo'lishi sharti bilan ikkinchi koordinata bo'ylab ma'lumotlarning namunaviy tarqalishi maksimaldir;
...
--chi koordinataning qiymatlari bo'yicha ma'lumotlarning namunaviy tarqalishi , agar u birinchi koordinatalarga ortogonal bo'lsa, maksimaldir ;
...
Namunaviy ziddiyat normalangan vektoriga tomonidan berilgan yo'nalishda birga ma'lumotlar bo'ladi
(ma'lumotlar markazlashtirilganligi sababli, bu erda tanlov dispersiyasi noldan og'ishning o'rtacha kvadratidir).
Eng yaxshi yaqinlashish masalasini hal qilish juda oddiy sababga ko'ra, eng katta tarqalish bilan ortogonal proyeksiyalarni qidirish bilan bir xil asosiy komponentlar to'plamini beradi : va birinchi atama ga bog'liq emas .
Nuqtalar orasidagi oʻrtacha kvadrat masofa eng katta boʻlgan ortogonal proyeksiyalarni toping
Boshqa ekvivalent formula har qanday vektorlar uchun amal qiladigan aniq identifikatsiyadan kelib chiqadi :
Ushbu identifikatsiyaning chap tomonida nuqtalar orasidagi o'rtacha kvadrat masofa, o'ngdagi kvadrat qavslarda esa namunaviy dispersiya ko'rsatilgan. Shunday qilib, asosiy komponentlar usuli proyeksiyada nuqtalar orasidagi ildiz-o'rtacha kvadrat masofa maksimal bo'lgan pastki bo'shliqlarni qidiradi (yoki bir xil, proyeksiya natijasida uning buzilishi minimaldir) . Ushbu islohot turli xil juftlik masofalarini (nafaqat nuqtalarni) o'lchaydigan umumlashmalarni yaratishga imkon beradi.
Do'stlaringiz bilan baham: |